乾貨：基於使用者畫像的聚類分析-知識星球

聚類（Clustering），顧名思義就是“物以類聚，人以群分”，其主要思想是按照特定標準把資料集聚合成不同的簇，使同一簇內的資料物件的相似性盡可能大，同時，使不在同一簇內的資料物件的差異性盡可能大。通俗地說，就是把相似的物件分到同一組。

聚類演演算法通常不使用訓練資料，只要計算物件間的相似度即可應用演演算法。這在機器學習領域中被稱為無監督學習。

某大型保險企業擁有海量投保客戶資料，由於大資料技術與相關人才的緊缺，企業尚未建立統一的資料倉庫與運營平臺，積累多年的資料無法發揮應有的價值。企業期望搭建使用者畫像，對客戶進行群體分析與個性化運營，以此啟用老客戶，挖掘百億續費市場。眾安科技資料團隊對該企業資料進行建模，輸出使用者畫像並搭建智慧營銷平臺。再基於使用者畫像資料進行客戶分群研究，制訂個性化運營策略。

本文重點介紹聚類演演算法的實踐。對使用者畫像與個性化運營感興趣的親們，請參閱本公眾號其他文章。

Step 1 資料預處理

任何大資料專案中，前期資料準備都是一項繁瑣無趣卻又十分重要的工作。

首先，對資料進行標準化處理，處理異常值，補全缺失值，為了順利應用聚類演演算法，還需要使使用者畫像中的所有標簽以數值形式體現。

其次要對數值指標進行量綱縮放，使各指標具有相同的數量級，否則會使聚類結果產生偏差。

接下來要提取特徵，即把最初的特徵集降維，從中選擇有效特徵放進聚類演演算法裡跑。眾安科技為該保險公司定製的使用者畫像中，存在超過200個標簽，為不同的運營場景提供了豐富的多維度資料支援。但這麼多標簽存在相關特徵，假如存在兩個高度相關的特徵，相當於將同一個特徵的權重放大兩倍，會影響聚類結果。

我們可以透過關聯規則分析（Association Rules）發現併排除高度相關的特徵，也可以透過主成分分析（Principal Components Analysis，簡稱PCA）進行降維。這裡不詳細展開，有興趣的讀者可以自行瞭解。

Step 2 確定聚類個數

層次聚類是十分常用的聚類演演算法，是根據每兩個物件之間的距離，將距離最近的物件兩兩合併，合併後產生的新物件再進行兩兩合併，以此類推，直到所有物件合為一類。

Ward方法在實際應用中分類效果較好，應用較廣。它主要基於方差分析思想，理想情況下，同類物件之間的離差平方和盡可能小，不同類物件之間的離差平方和應該盡可能大。該方法要求樣品間的距離必須是歐氏距離。

值得註意的是，在R中，呼叫ward方法的名稱已經從“ward”更新為“ward.D”。

library(proxy)