網路電商霸主亞馬遜在 1997 年上市時的股東信中有一段文字:「今天,電子商務為顧客省下了寶貴的時間和金錢;明天,通過個人化的服務,電子商務會加速探索的過程。」在 2017 年,就算經過近 20 年的時間,「個人化服務」在許多產業中,仍是一間公司重要的成功的重要因素,而「個人化商品推薦」在這個領域扮演著舉足輕重的角色。
人工的商品推薦方法已不再適用
人工的商品推薦方法在大數據時代,遇到了不少問題。首先,電商平台往往擁有大量的商品資訊,但使用者購買商品的紀錄卻相對量少,使得我們難以運用過去的消費紀錄,辨認出值得推薦的商品,常常需要等到商品大賣後,才能用事後諸葛的方式猜測該商品大賣的原因。雖然對市場夠靈敏的品類經理或行銷人員,可能有機會提早辨認出值得推薦的商品,但這樣的人往往很少,而且他們也難以提出客觀的資料,說服其他同事推廣他們認為會大賣的產品。更重要的是,能夠大賣的產品一季可能也就那麼一兩項,但如果能更有效率、更大量地推薦「能在小眾族群賣得不錯的商品」,累積下來的銷量將為企業帶來龐大獲利。
另一方面,過去我們時常請行銷人員以人工的方式進行客戶分群 (customer segmentation),並針對不同的目標客戶 (target audience) 以小編的方式進行推薦與溝通,以達到提升銷量與客戶關係管理的目標。然而在大數據時代,使用者資料量大而駁雜,若要持續以人工的方式進行分群與推薦,往往會需要大量人力,增加企業成本,同時也較難確認分群結果的可靠性,因而降低推薦商品成交的可能性。
透過機器學習 (machine learning) 我們將有能力建立更精準的「個人化商品推薦系統」,除了能夠自動化的分析客戶與商品資料,更能抓出人力難以辨別的隱藏偏好,幫助電商平台達成真正的「個人化商品推薦」。同時,推薦系統能夠讓客戶在想到要買該商品「之前」就先看到商品,在提升消費者體驗的同時,更能增加交易成功的機率。接下來,我們將介紹推薦系統的運作原理,以及幾種常見的推薦系統演算法。
運用資料進行商品推薦
為了能夠讓人工智慧有效率的學習使用者偏好,「資料蒐集」是建立有效推薦系統的第一步。一般來說,推薦系統主要運用四種類型的資料,分別是:評分資料 (rating data)、使用行為資料 (behavioral pattern data)、交易資料 (transaction data) 以及產品資料 (product data)。評分資料通常是使用者對於商品的評分紀錄,可以是尺度的分數,如評分為 1, 2, 3, 4, 5 分,也可以是連續的分數,如 1–100 分任一個分數。使用行為資料主要是使用者在平台上的操作軌跡,可能包含的資料有:點擊率 (click-through rate)、跳出率 (bounce rate) 、搜尋紀錄等。交易資料是使用者進行交易當下蒐集到的資料,如:購買日期與時間、商品種類、購買價格、折價券金額等資訊。產品資料則是各個產品相關的資訊,可能是製造商、生產日期、品類、價格,也可以是文字的資料,如產品介紹文字等。
大部分的公司在建立資料庫時,應該都有下意識地進行蒐集上述這些資料,但要讓電腦聰明而有效率地分析這些資料,是需要下一番苦工的。一般而言,我們會運用上述的資料得到兩種類型的相關性:一是商品與商品間的相似性 (item-to-item similarity) ,另一種則是客戶與客戶間的相似性 (people-to-people similarity) 。針對「商品與商品間的相似性」,最常見的演算法便是「關聯法則 (association rule) 」;針對「客戶與客戶間的相似性」,最常見的演算法便是「使用者-使用者的協同過濾 (user-user collaborative filtering) 」。
關聯法則 (Association Rule)
關聯法則是「購物籃分析 (market-basket analysis) 」中最常使用的分析工具,購物籃分析是在顧客同一次購買紀錄,該筆紀錄中購買商品組成的相關性進行研究。比如說,現在有產品組合 X 與產品組合 Y,關聯法則希望分析如果一個客戶購買了產品組合 X,是否該客戶購買產品組合Y的機率會上升,也就是想要根據過去的交易資料,評估「購買 X → 購買 Y」的關聯法則是否成立,如果成立,那麼一旦發現某個客戶購買了產品組合 X,就可以進一步推薦他購買產品組合 Y,以協助商家進行同類性擺設 (affinity positioning) 或交叉銷售 (cross selling)。
從機率的角度出發,就是想了解假設消費者已經購買產品組合 X,則購買產品組合Y的「條件機率」P(Y|X) ,是否比直接購買產品組合 Y 的機率 P(Y) 更高,如果 P(Y|X) 超出 P(Y)許多,我們便可以認定「購買產品組合 X 的消費者有更強的傾向購買產品組合 Y」,也就是「購買 X → 購買 Y」的關聯法則成立。因此,關聯法則最重要的一步就是估計 P(Y|X) 與 P(Y)。
因此,我們會透過資料去計算所有人中購買產品組合 X 的比率,作為 P(X) 的估計值,也會透過資料去計算所有人中購買產品組合 Y 的比率,作為 P(Y) 的估計值,而根據交易資料計算出來購買產品組合X的比率,就稱為 X 的支持度 (support),記作 supp(X)。同時我們也會試著去估計條件機率 P(Y|X),估計的方法就是計算「在所有購買產品組合 X 中的人,有多少比率會去購買產品組合 Y 」,也就是 supp(X∩Y) / supp(X),該比率稱作 X→Y 的信賴度 (confidence),記作 conf(X→Y)。有了 P(Y) 的估計值 supp(Y) 與 P(Y|X) 的估計值 conf(X→Y),就可以計算增益 (lyft),定義為 lyft(X→Y) = conf(X→Y) / supp(Y),當 lyft(X→Y) 大於1時,我們會認為 P(Y|X) > P(Y),也就是購買產品組合 X 的消費者更有可能購買產品組合 Y ;反之,當 lyft(X→Y) < 1 時,則代表購買產品組合 X 的消費者較不可能購買產品組合 Y。
使用者-使用者協同過濾 (User-user Collaborative Filtering)
另一種常見的推薦系統演算法是協同過濾,協同過濾與關聯法則的目標都在於建立「相關性」,但與關聯法則不同的是,協同過濾除了商品與商品間的相關性之外,也能夠建立消費者與消費者的相關性。為什麼要找消費者之間的相關性呢?演算法背後的假設是,有相似購買行為的人,對同一個商品很可能有相同的偏好。舉例來說,假設現在有 n 個客戶1, 2, …, n,有商品X1, X2, …, Xd,如果我們能夠蒐集到客戶對於特定商品的評分或是購買次數,可得到下面的效用矩陣 (utility matrix),其中 1 代表喜歡,-1 代表不喜歡,0 代表尚未評分。
接著,我們可以定義客戶 i 與客戶 j 的相似度 (similarity)。首先,將客戶 i 對於所有商品的評分與客戶 j 對於所有商品的評分記為 2 個向量 (vector)。相似度的衡量指標有許多種,如:經常被使用的 cosine 相似程度,計算了客戶 i 與客戶 j 兩向量夾角的 cosine 值,如果兩向量的夾角為 0 度,代表客戶 i 與客戶 j 評分的模式完全一致,此時 cosine 值為 1;如果兩向量的夾角為 180度,代表客戶 i 與客戶 j 評分的模式完全不一致,此時cosine值為 -1。因此,若相似度指標如果越靠近 1,代表客戶 i 與客戶 j 的相似度越高,若越靠近 -1,則代表兩客戶間的評分相去甚遠。
有了相似度,若遇到客戶 i 對於商品 Xj 的評分為 0 時,我們可以將其他所有客戶對於商品 Xj 的評分,以他和客戶i的相似度進行加權平均,得到客戶 i 對於商品 Xj 的預測分數。,我們便可以將預測分數較高的商品優先推薦給該客戶以促成交易。
個人化的推薦確實能提升銷量
現在許多網路平台積極尋找成長駭客 (growth hacker),希望他們透過數位操作,以低成本的方式提升初訪客戶或是流量,以增加客戶數量,這是個人化服務難以達成的目標。然而,當客戶已經有幾次消費紀錄之後,增加這些回訪客的購買機率,將能以指數成長的方式提升公司的銷售額。麥肯錫在其報告中指出,一間中南美洲的銀行透過大量的交易資料進行購物籃分析,協助其分行行員進行銷售以及商品推薦服務,提升了3–5% 的獲利。Netflix 更在論文中提到,他們有 80% 的觀看時間是來自推薦系統的推薦,僅有 20% 的觀看時間是來自使用者主動搜尋的結果。
然而,一般中型企業要如 Netflix 一般,有一個近百人的大型團隊專門負責建立推薦系統,是相當不切實際的。此外,因為資料團隊沒有足夠專業的知識,且時間與資源有限,一般企業內部的推薦系統往往成效不彰。在成本合理的情況下,想要擁有一個預測表現優異的推薦系統,最佳的方式是:尋找外部的推薦系統服務,在顯著降低建置成本的情況下,讓專家為公司設計適合公司且表現穩健的推薦系統。
參考資料
- Mckinsey & Company,Big Data and Advanced Analytics,頁16,取自https://goo.gl/lBa0nE。
- Gomez-Uribe, Carlos A., and Neil Hunt. “The netflix recommender system: Algorithms, business value, and innovation.” ACM Transactions on Management Information Systems (TMIS) 6.4 (2016): 13.
- Su, Xiaoyuan, and Taghi M. Khoshgoftaar. “A survey of collaborative filtering techniques.” Advances in artificial intelligence 2009 (2009): 4.
作者介紹
黃大維╱優拓資訊產業分析師
國立臺灣大學統計碩士,研究專長為財務時間序列、降維分析、機器學習,同時經營部落格 David’s Perspective,時常分享從商業角度切入大數據與資料科學的各種獨到觀點。
過往經歷包含:
1. 歐酷網路 (CHOCOLABS) 實習資料科學家,進行使用者行為巨量資料分析
2. 科技部「大專學生研究計畫」,研究主題為「相對隱含波動率指數選擇權統計套利」
3. 北京大學莙政學者暑期研究生,研究主題為「應用多變量方法於中國銀行業績效分析」
轉貼自: YOCTOL
留下你的回應
以訪客張貼回應