歡迎光臨
每天分享高質量文章

推薦 :深入淺出之個性化推薦系統實踐

大資料在網易內部的應用豐富多彩,在《讓機器讀懂使用者–大資料中的使用者畫像》一文中,網易工程師對使用者畫像進行了較為系統的介紹,並提到使用者畫像的一個重要作用在於個性化推薦。但企業怎樣才能正確認識和利用推薦系統來拓展業務?

 

本文對推薦的本質和實現思路進行了深入的探討,並介紹了網易嚴選的推薦系統實踐,讓您充分領略個性化推薦的魅力。

 

  • 推薦系統作用本質

 

有資料稱亞馬遜的推薦系統帶來的GMV佔其全站總量的20%-30%。這個資料會讓人直覺地認為,電商網站只要一上好的推薦系統,就會帶來相當高的GMV提升。甚至有產品會問:我們的推薦系統GMV佔全站多少?為什麼亞馬遜能做到30%而我們做不到?

想象一下,亞馬遜把推薦系統的位置全換成遊戲廣告,每次使用者點選收取廣告費等同於物品推薦時的單次點選價值。這時會有什麼結果?合理的推薦是,如果遊戲推薦做得足夠精準,這個偽推薦系統的GMV佔全站的比例可能越來越高,網站的使用者流失率會顯著增加,總體營收會趨於下降。

這個假設揭露了一個真相:推薦系統的位置本質上就是廣告展現;對於任何一個有流量的站點來說,不斷上升或者穩定的忠實用話是其最大價值;廣告位的展現最好能夠同時不損壞甚至提升使用者體驗。Facebook初上廣告時就遇到一個問題:廣告的投放影響了使用者體驗,會損失使用者忠誠度,造成使用者流失。而對於電商網站來說,為使用者推薦物品,是一種能提升使用者體驗的方向投放,看起來像一種奇妙的巧合。

與搜尋類似,推薦的本質就是提升使用者體驗 – 為此它們最主要的方式就是幫助使用者快速的找到它需要的產商品,其他的方式還包括給使用者新穎感等。事實上,亞馬遜宣稱的20%的GMV,其中很多是“你不向使用者推薦他也會購買的東西”,推薦系統在這方面的貢獻是為使用者提供了便利性點選,節約了使用者的精力。如果沒有推薦系統或者推薦系統很糟,使用者流向競品網站的可能性就會增大,這時造成的損害是在整體GMV上。至於推薦的GMV能佔全站的比率是多少才合適,這個問題很難回答。只能說每個站點的基準值由產品的綜合情況決定,不能一概而論。

綜合起來,推薦系統有如下幾個作用:

1. 提升綜合體驗: 幫助使用者節省精力,增加漫遊機率,提升頁面訪問量及駐留時間,提升留存率;

2. 提升GMV(由1附帶的效果);

3. 提升印象。

 

推薦的結果,使用者點不點是個非0即1的的事件,但是使用者對它們興趣度是一個介於0到1的連續的數值。興趣度的提升,能提升使用者對網站的信任度,提升留存及LTV。

 

  • 推薦系統工作原理本質
 

在推薦領域被證明有效的演演算法非常多,如各種CF(協同過濾)、矩陣分解、基於圖的演演算法、關聯規則、各種方式的embedding、融合多種特徵的CTR-based方法等。深度學習領域的進展表明,如果有一種最接近上帝的方法,那很可能就是embedding的方法。所謂embedding,數學上的意義就是對映。如word2vec透過語料訓練把詞變成一個數百維的向量,向量的每一維沒有明確的物理意義(或者說我們無法理解)。推薦系統如果可以把人很精確地對映成一個向量,把物品也對映成一個同維度同意義的向量,那麼推薦就是可以按規則處理的精確的事情了。

 

圖1.最佳的推薦形式

 

事實上,電影推薦的確可以這樣做。豆瓣電影推薦是國內推薦系統的先驅之一,它經過多次迭代,最終形成了一種本質上是embedding的方法來實現推薦:用一定的方法把使用者用一系列標簽描述,將電影也樣同樣的標簽空間描述,據此計算使用者與電影的相似度來推薦,得到的推薦效果非常好。

 

圖2.豆瓣基於標簽的電影推薦

 

  • 電商推薦系統的特點

 

電影是一種文化藝術商品,直接與人的感性感受相關;同時它有比較精深的空間,從數學的角度來說,它具有多個維度的屬性,多到可以產生非常豐富的變化,但不至於多到讓人腦難以理解。人對電影的興趣,具有一定的穩定性,不太會發生快速的轉變。

 

在電影的世界裡,人與電影都比較容易做embedding。

 

與電影推薦不同,電商推薦就複雜得多了。主要有如下幾點:

1. 商品種類數巨大,不同的商品需要不同的embedding。

 

放在電商的世界裡,電影就相當於一種商品。如果要做embedding,使用者與每一物品都要做一組embedding,不同的物品無法統一。比如,喜歡白色T-shirt的使用者,不見得會喜歡白皮鞋;喜歡鹹豆漿的使用者,不一定會喜歡鹹豆腐腦。而商品的種類可能是數以10萬記的。即始可以針對每種商品做embedding,也很難將它們統一起來。

2. 單種商品深度不夠,難以有效embedding。

 

描述物品的空間維度一般很淺,除了少數的商品(如女士包等)稱得上博大精深,大多數是很簡單的。

3. 人對商品的興趣大都建立在短期或者瞬時需求之上。

 

大部分情況下,人對商品有興趣是因為正好需要商品,而非中長期的喜好。很多情況下,買了某種耐用品之後,人對它的興趣(指購買它的慾望)在很長時間內會降到最低。想要embbeding這種轉瞬即逝的變化,是一件不容易的事情。當然,也有一些商品及一些情況下,使用者的確是對商品有中長期的興趣,比如剛生小孩的父母,很長時間內會對母嬰用品感興趣。在海量的商品與情景中把這些case都找出來,本身是一件不容易的事情。

4. 大量耐消品的影響。

 

上面的論述中可能已經包含這部分。但有必要單獨強調一下:電影是一種極佳的快消品,而在商品的世界裡,充滿了海量的慢消品 – 慢消品的特點是一旦滿足使用者興趣就轉移了。

5. 使用者理論上對所有商品都會有興趣。

 

人在一生中,會在不同的時間對大部分商品產生興趣。使用者對商品的大部分情況是短期興趣。一般情況下,使用者短期的興趣難以預測,只能根據使用者明確指時的對哪些商品感興趣;中長期興趣在某些情況下可以挖掘。

基於以上的原因,在電商領域難以找到完美的embedding方式來實現推薦。其實我們在看各大電商的個性化推薦時,無論宣稱背後用怎樣複雜的模型融合,從結果看,使用者近期行為的權重是非常大的,使得結果非常像itemCF推薦出來的。很容易看到,很多大型電商網站首頁的“猜你喜歡”模組,推薦的基本都是與使用者最近瀏覽相似的物品。

因此,現代電商的推薦往往用機器學習的方法來實現。對於推薦來說,演演算法與模型並不是最主要的,重要的是對需求、業務標的、平臺使用者、平臺資料的理解及與之對應的特徵工程。

 

  • 網易嚴選推薦實踐
 

網易嚴選推薦的基礎模型採用的是CTR模型,基於LR(邏輯回歸)。

 

圖3.網易嚴選推薦模型

 

在核心的特徵工程方面,網易嚴選推薦團隊將使用者的具體屬性(性別、收入水平、地域等)、使用者在網易嚴選的行為屬性(短期、長期)、及時間背景關係(季節、上次購買時間間隔等)作為屬性空間,從1層迪卡爾積開始往上構造N層迪卡爾積形成複雜屬性空間P,挖掘屬性空間與商品的相關,對有明顯相關(正相關或負相關)的(屬性、物品)對構造特徵。

 

圖4.使用者屬性空間

 

圖5.具體屬性應用

 

圖6.行為屬性作為抽象屬性與具體屬性置以相同的地位

 圖7.二階屬性(屬性的2重迪卡爾積)

從結果來看,這一套特徵工程方法可以挖出比較全的特徵集,在魯棒性與效果上都有不錯的效果,自上線以來各項指標均在穩步提升。

 

作者沈燕 網易嚴選演演算法工程師

轉自網易雲 [Netease_Cloud]公眾號本文已獲授權

宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請聯絡我們。

    已同步到看一看
    贊(0)

    分享創造快樂