首先看一下大資料與應用畫像的關係,現在大資料是炙手可熱,相信大家對大資料的四個V都非常瞭解,大資料應該說是 資訊科技的自然延伸,意味著無所不在的資料。
我們先看下資料地位發生轉變的歷史,在傳統的IT時代,TI系統圍繞業務服務,在這個服務的過程中沉澱了很多資料,再在資料的基礎上做一些分析。但是到了DT時代不一樣了,資料是現實世界的虛擬化表現,資料本身構成了一個虛擬世界,IT系統構建在虛擬系統上,變得更加智慧。
第一個就是說我們社會資訊化的建設越來越發達。
第二個是隨著可穿戴裝置的發展,人產生了越來越多的資料,接入網路當中,同時人和人之間溝通的方式也不僅僅是傳統的面對面,傳統理解人、與人溝通的方式發生了根本的變革,因此我們要學會從位元流中去認識人類,因此構建使用者畫像這件事就變得更加重要。
而且現在機器也變得很智慧了,所以我們還要教會機器來認識人類,這樣才能在畫像的基礎上構建應用,譬如個性化推薦、精準廣告、金融徵信等等。之前我一直是在從事這方面的應用開發,因此知道使用者畫像對於這些應用的重要性。
如果大家是來自網際網路公司的話,我們經常會提到這些詞:使用者畫像、標簽、360度使用者檢視等等,有不少人甚至就是做這面的研發工作,但是這些概念讓你感覺有一點似是而非,我以前也有這樣的感覺,就是說沒有從根本上把這些概念弄清楚,因此有必要把這些概念從根本上弄清楚。
舉個例子,”身長八尺、面如冠玉、頭戴綸巾”,大家會想到一個人是誰?諸葛亮是吧,這是一段文字上的描述。大家再看一下,下麵這張圖大家又會想到誰,希特勒。再看一下右邊這幅圖,這是一個球員。這個就不用說了,是美國的奧巴馬。這些都是生活中的畫像,都是為了描述一個人,但是它們的描述方式和角度不一樣的。
但是從我們這些描述當中可以看出一些共性,主要體現在如下幾個方面:
第一個是標的,標的都是為了描述人、理解人,這是使用者畫像最大的標的。
第二個是我們描述的方式,可以分為兩種:第一種是非形式化的手段,我們前面看到的語音、文字,都是非形式化的,另外一種是形式化的手段,譬如剛才我們看到的奧巴馬身份證,你可以把身份證放在讀卡器上,就可以把對應的資訊讀取出來。
第三個就是結構化和非結構化的組織方式,我們前面看到的球員資料它就是結構化的。
第四個就是使用者畫像標準,這個很重要,這是我們一會要講的,為什麼?比如說,我們在描述使用者的過程當中要有一些共識,舉個例子,我說某個人特別二次元,這個詞對方就可能聽不懂,是因為雙方對二次元這個詞沒有達成共識,所以必須有一套達成共識的的知識體系,不然使用者畫像這件事是沒有辦法達到的。
最後一個是驗證,就是說我們做完使用者畫像以後,一定要去驗證。舉個例子,我跟你說某個人特別不靠譜,相當於打上了一個標簽,你一定會反問我為什麼不靠譜,你的依據是什麼,就是我們給使用者生成畫像之後,我們一定要給出依據和推理的過程,告訴你這個結論是怎麼得到的,不然就沒有可信力。
使用者畫像是對現實世界中使用者的數學建模,它包括兩方面:
一方面是描述使用者,沒有說人,是說明它跟業務密切相關,它是從業務中抽象出來的,因此來源於現實,高於現實。
第二個是使用者畫像它是一種模型,是透過分析挖掘使用者盡可能多的資料資訊得到的,它是從資料中來,但對資料做過了抽象,比資料要高,後面所有使用者畫像的內容都是基於這個展開的。比如剛剛說的月光族,這個肯定是挖掘分析出來的,不是說原來的資料中包含月光族這個標簽,所以說這是它的兩層含義。
然後就是剛剛說的,使用者畫像是現實生活中的數學建模,但是我們如何描述這樣一個模型,核心是要有一套標準的知識體系,描述使用者畫像。
另外一個方面,就是要有一套資料化、符號化、形式化的方式去描述這套知識體系,什麼叫形式化?就是機器要能夠理解這套知識體系,如果只有人理解的話,這個東西是沒有辦法使用的,所謂形式化就是這個含義。
這種方法到底存在不存在,60、70年代就已經存在了,做語意分析的朋友可能聽過這個本體論,在90年代的時候,本體和語意網路非常流行,這個東西是比較複雜的,它幫助機器去理解知識體系,由於非常複雜,我就簡單說一下,類似於UML這種語言,包括物體、聯絡、推理等等。就是說透過這套方法論,可以理解知識,甚至教會它怎麼去推理,這就是前面說的本體論。這個方法是很複雜的,非常麻煩。
我們這裡有一套非常樸素的方法,大家可以看一下這張圖,我們在現實世界中怎麼表述知識。
我們最開始學習語文的時候用的是什麼,是新華字典是不是,字典中大家看到的組織形式是什麼,首先是詞,詞作為它的表現符號。
另外是什麼,它後面會跟著比較長的解釋文字,就對應一個概念,那麼就是說,這裡符號與概念是相對應的。
用我們現實生活中的一個例子來說,你比如說拿狗這個例子來說,狗這個詞是一個符號,但是對應我們腦子中的概念是什麼,”四條腿,一個能看家的、一個能汪汪叫的 動物”,對不對?對應的物體就是我們現實生活中看的各種品類的狗,是嗎?我希望大家可以記住這張圖。
上面這張圖中的模型就對應前面圖中所指的概念,標簽就對應前面這張圖上的符號,在這張圖當中,標簽是一個符號要去表達模型對不對。舉一個簡單的例子,比如說我這個產品,想賣給”收入高、坐辦公室” 這個群體,白領可以表示這樣一個使用者群,白領這個詞就是一個一個符號,一個標簽。
另外要強調的是標簽它是跟業務密切相關的,比如說就拿最簡單的標簽男女來說,在阿裡內部,關於男女,這樣最簡單的標簽,也有12個男和女,它與業務密切相關,不僅僅是指生理上的男和女,另外還包括在網際網路喜歡買男性的商品或者女性的商品定義的男女等等,在這個層面來講,對男女的標簽又有了一層新的理解。
這個符號是跟業務場景系結在一起的,脫離這個業務場景,這個符號就沒有明確的含義。
剛剛說到了使用者畫像的定義、標簽的定義,那麼我們平時經常說的使用者畫像和標簽,它們之間是一個什麼樣的關係呢?
其實是一個整體和區域性的關係,使用者畫像是整體,標簽是區域性,整體和區域性的關係透過“標簽體系”體現。整體和區域性總包含兩方面的關係:化整為零:整體如何反映在區域性;化零為整:區域性如何組成整體。舉例來說:“人有一雙眼睛一個鼻子”,那:化整為零:對每個人都應該觀察到一雙眼睛和一個鼻子;化零為整:只有位置合適的一雙眼睛和一個鼻子我們才認為他是一個人。
這裡還有標簽體系,要重點說的是,我們在給實際企業客戶構建使用者畫像的過程中,需要和他們的業務部門、產品部門去構建標簽體系,因為標簽是和業務密切相關的,他們的標簽體系是要蒐集所有業務方的需求,制定出來標簽體系以後,給出每一個標簽標準的定義,然後才是進行標簽的開發。
最後說的是使用者畫像的驗證,就是說我們在給客戶提供方案的時候,他們經常會問的一個問題,構建的使用者畫像結果怎麼去驗證?在我們看來,使用者畫像作為使用者在現實中的數學建模,對模型的驗證可以分成兩個方面,一個是準確率的驗證,你的標簽打得準不準,就是我們經常說的準確率。第二個是標簽打得全不全。但是對於這兩個方面來說,你是沒有辦法同時滿足的。現實業務中無法追求完全,因為你不可能做出一個100%完備的標簽體系。
因此我們驗證更多談的是準確性,可以分為兩種,一種是有事實標準的,譬如生理性別,可以用標準的資料集驗證模型的準確性,另外一種是無事實標準的,譬如使用者的忠誠度,我們只能驗證過程,具體的效果需要透過線上業務A/B Test進行驗證。
前面介紹了使用者畫像的理論:使用者畫像是對現實使用者的數學建模,標簽是一個符號,標簽與業務關聯在一起才有意義,使用者畫像和標簽是整體和區域性的關係。接下來介紹使用者畫像的實踐。
上面這張圖是使用者畫像生產和應用的邏輯架構,包括5層:
資料採集層收集使用者的各種資料,就拿一個公司來說,它的資料源分佈在各地,有CRM系統的,有分散在各個部門的,構建DMP的一個難點就是要把各處資料都蒐集起來,甚至需要老闆去推動。
資料管理層對這些資料進行清洗、拉通、整合以及分析建模,構建使用者畫像。
資料介面層和應用層基於使用者畫像,提供各種分析、服務類以及營銷類的應用,服務於金融、製造、航空等各個行業的使用者。
要精準構建使用者畫像,面臨著許多技術難題,接下來重點介紹使用者多渠道資訊打通、多渠道的產品打通以及使用者資料挖掘建模,這三個方面接下來會一一展開講。
首先介紹使用者多渠道資訊打通,使用者與企業的觸點非常多,譬如手機、郵箱、Cookie等等。我們要將同一個使用者的這些多個觸點進行打通,需要站在上帝的視角。我們可以把使用者ID視為圖中的頂點,如果使用者的兩個觸點在同一個場景出現,譬如用郵箱登陸,那麼我們會在使用者的郵箱和Cookie用一條邊進行連線,從而構建一張圖。
圖中連通的ID可以視為同一個使用者,從而實現使用者拉通,拉通可以基於圖的方法進行強拉通,也可以採用機器學習的方法進行模糊拉通,預測出拉通的機率。
另外,拉通的可信程度由業務的密度決定,密度越高,對可信度的要求越高,譬如推薦是低密度業務,即使識別錯誤,影響比較小,但對於 電商的 簡訊通知服務,如果識別錯誤,體驗就會非常差。
剛剛講到的是使用者打通,接下來要講的是如何將不同渠道的產品拉通,譬如我們的電商客戶第一方的標簽體系都是有差別的,所謂標簽體系拉通就是建立一套標準的分類標簽體系,一般都是一顆分類樹,任何一個商品都能劃分到這個分類樹的葉子節點。根據我們的實踐經驗,手工對映的方法成本高、難以大規模開展,我們實際是採用機器學習模型+少量的人工規則來實現的。
具體的模型實現見上面這張圖,要實現自動分類,其中的難點不在於模型,而在於獲得訓練資料、feature engineering以及分類樹層級節點之間的依賴問題,在這裡我就不具體展開了,目前對於我們電商渠道的商品,分類準確率在95%以上。
在使用者畫像建模方面,我們把標簽建模分為四層:
第一層是事實類標簽,譬如使用者購物了什麼品類;
第二層是機器學習模型的預測標簽,譬如當下需求、潛在需求等等;
第三層是營銷模型類標簽,譬如使用者價值、活躍度和忠誠度等等;
第四層是業務類的標簽,譬如高奢人群、有房一族等等,它是由底層的標簽組合生成的,通常由業務人員定義。
使用者畫像的應用前面介紹了使用者畫像的理論和實踐,接下來介紹基於使用者畫像的應用。
使用者畫像的具體應用包括售前的精準營銷、售中的個性化推薦以及售後的增值服務等等,後面會進行展開。
使用者畫像的標簽維度和應用是相互相承的關係,一方面可以根據現有的標簽維度開發應用,另一方面可以根據應用的需求擴充套件標簽的維度,兩者互相促進。
我們在這裡舉的例子分為三類。
第一類是售前的精準營銷,譬如電商客戶和企業客戶,需要經過精準營銷,把站外的使用者吸引到你的網站上面來。
第二,售中的個性化推薦是說,你把這些使用者吸引過來了以後,如何透過個性化推薦的方式能夠更好地提升站內轉化的效果。
第三個是售後的增值服務,就是你把這個產品賣出去之後,不是這樣就結束了,而僅僅只是你跟使用者接觸的開始,可能涉及到使用者後續的產品諮詢或者吐槽等等,也就是會涉及到售後增值服務方面的問題等等,這三個應用都跟使用者畫像密切相關。
首先是根據使用者畫像進行精準營銷,這塊大家對門戶廣告、百度的搜尋廣告或者現在的一些dsp公司投放的程式化廣告比較熟悉,百分點要做的事情是幫助企業整合以及拉通它們自己的第一方資料,建立企業建立使用者畫像,實現全渠道營銷。
這是我們為某知名製造企業客戶做的一個大資料專案,標的就是拉通和建立消費者統一的使用者資料平臺,建立消費者使用者畫像,並基於使用者畫像實現精準營銷。上面這張圖是為該企業構建的使用者畫像體系,具體的維度包括基本資訊、產品資訊、財務資訊、風險資訊和資產資訊等等。
而且結合百分點的營銷管家產品,可以實現觸髮式的營銷,譬如使用者在某網站下單購買一款手機,便可以立馬給他推送該品牌手機對應的手機配件廣告。最終的效果是,透過使用者拉通與使用者畫像,對59萬潛在消費者形成4個精準人群進行投放,是盲投點選率的10倍。
再舉社會化營銷的一個例子,我們的某個家電製造企業客戶,新品釋出時期望透過簡訊和郵件方式,從老使用者中找出最有可能參加活動的粉絲。我們利用企業的CRM、客服、銷售等資料,對使用者忠誠度進行綜合評定並挑選忠誠度最高的使用者作為招募標的,帶來了超過一半的粉絲,但成本只有以往的40%。
前面講的售前的精準營銷,接下來是售中的個性化推薦,這是百分點最開始創立時做的事情,目前已經服務超過1500家的電商和媒體客戶,是國內最大的第三方推薦服務提供商,百分點推薦一個很大的優勢是利用全網使用者畫像進行推薦。譬如對於王府井商城的一個新使用者,在首頁進行推薦時,因為對它的歷史沒有瞭解,只能推薦一些熱門商品。但對於百分點來說,我們知道該使用者在其它客戶網站上的行為,譬如它對化妝品很感興趣,就可以推薦相關的化妝品,利用全網使用者畫像解決了王府井推薦的冷啟動問題。
這是百分點推薦引擎的設計架構,核心是四大元件,包括場景引擎、規則引擎、演演算法引擎和展示引擎,尤其是規則引擎非常強大,可以根據客戶的業務需求視覺化配置推薦邏輯,譬如推新品、清庫存等等,而不僅僅是點選率最優。由於時間關係我在這裡不再詳細介紹了。
我們這裡舉一個推薦的實際應用例子,我們的某個團購網站客戶,下網採用我們的推薦引擎解決它下單率的問題,我們透過分析發現該網站使用者的一系列特徵,譬如忠誠度低、區域性購買等等。
我們採用了一系列的最佳化措施,譬如根據使用者畫像中品類偏好、商圈偏好、消費能力等標簽最佳化召回,使得該團購網站的點選率平均提升18.23%,直接下單提升86.95%,取得了非常理想的效果。
最後一個例子是如何結合用戶畫像提供“售後”增值服務,上面這張圖是我們給客戶的一個應用系統方案,可以透過資料介面實時反饋使用者相關資訊,譬如歷史維修、歷史諮詢等等,以及進行知識推薦,支撐服務效率和客戶滿意度;同時收集使用者的服務滿意度資料,補充和完善使用者畫像資訊。
最後再對前面講的內容進行一個小結,在大資料時代,機器要學會從位元流中解讀使用者,構建使用者畫像就變得尤其重要,是上層各種應用的基礎。
構建使用者畫像的核心是進行標簽建模,標簽不僅僅是個符號,而是和業務緊密關聯,是業務和技術非常好的結合點。
最後再結合我們自己的實踐經驗,給出了畫像在精準營銷、個性化推薦以及售後服務的3個例子,說明瞭使用者畫像在實際業務中的重要價值。
親愛的讀者朋友們,您們有什麼想法,請點選【寫留言】按鈕,寫下您的留言。
資料人網(http://shujuren.org)誠邀各位資料人來平臺分享和傳播優質資料知識。
公眾號推薦:
360區塊鏈,專註於360度分享區塊鏈內容。
閱讀原文,更多精彩!
分享是收穫,傳播是價值!