「論文訪談間」是由 PaperWeekly 和中國中文資訊學會社會媒體處理專委會(SMP)聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關註和認可。
作為一個缺少頂層設計的特殊群體,移民與傳回性移民是經濟全球化浪潮下不可迴避的社會現象,同時也引起了一系列關於多元性社會認同、城市空間演化和人力資源增長或流失等社會問題。關註並探討移民融入與傳回的過程及潛在原因,為研究經濟社會的發展帶來價值。
目前,學術界有關移民融入和流失的問題受到廣泛關註,但絕大多數工作依賴於問卷調查獲得研究資料,很少有基於細粒度的資料對這類問題進行研究。
針對已有研究的侷限性,浙江大學的楊洋課題組結合了多種型別的資料就上海移民的早期流失問題進行了研究。他們使用了豐富且大規模的資料集,包含由 5400 萬使用者之間通話產生的 6.98 億條通話記錄(資訊已加密處理),以及包含1.8萬處房地產的房價資料等,這使得定量分析移民的行為樣式成為可能。
他們的研究發現,選擇早期離開的移民(留存移民,下同)比選擇繼續留下來的移民(流失移民,下同),傾向於有更單一的社交關係、更小的活動範圍,以及活躍於房價更高的區域。此外,當使用相同的特徵進行流失移民預測時,使用最初幾天資料訓練的分類器就能達到全量資料訓練的分類器的預測效果。
他們的研究成果 To Stay or to Leave: Churn Prediction for Urban Migrants in the Initial Period 發表在 2018 年的世界全球資訊網會議(WWW’2018)上。
那麼,他們使用的資料集包含了怎樣的資訊,以及他們使用什麼樣的標準來區分不同型別人群呢?
第一大類的資料是通話元資料,時間跨度從 2016 年 9 月 1 日到 2016 年 9 月 30 日,包含由 5400 萬使用者之間通話產生的 6.98 億條通話元資料。對於其中的 300 萬使用者,同時可以獲得他們的一些個人身份資訊,包括性別、年齡、出生地等。每條通話記錄包含呼入者 id,撥出者 id,通話開始時間和結束時間。此外,對於每一通電話,資料集也包含對應基站的 GPS 位置,這可以被近似認為是使用者通話時所在的位置。所有個人資訊均被匿名處理。
第二大類資料是房價資料,已有經濟研究表明個人的移居選擇與不同區域的房價息息相關。這一部分的資料收集了來自安居客的 1.8 萬處房地產的價格資訊。結合 GPS 位置資訊,使用者的住所、工作地點和其他活動區域的房價可以被計算出來。
資料集中的使用者基於出生地資訊和通話歷史資料被分為了三個群體:本地居民,留下移民,流失移民。出生在上海的使用者被稱作本地居民。出生地不在上海且前四天沒有通話記錄的使用者被定義為新移民。如下圖所示,新移民又被進一步劃分為了流失移民(最後一週沒有通話記錄的新移民)和留存移民(三週都有通話記錄的新移民)。
基於以上定義,資料集共包含 180 萬名本地居民,3.4 萬名留存移民和 1500 名流失移民。基於這一劃分,可以計算出約有 4% 的新移民在最初移居的幾周裡選擇離開上海,這一比例可供政策制定者用作參考,以及作為已有問卷的研究結果的補充。
在以上資料集和群體劃分的基礎上,論文提出了四種型別的特徵,包括社交網路特徵(ego network properties),通話行為特徵(call behavior),地理樣式特徵(geographical patterns)以及房價資訊特徵(housing price information),並基於這些特徵發現了一些有趣的統計結果。
例如,流失移民傾向於保持一個更加緊密的圈子(較高的集聚繫數),有更單一的社交關係(較低的省份多樣性和通話多樣性),以及傾向於活躍於平均房價更高的區域。這些發現說明瞭積極地拓寬社交圈子以及選取合理租金的住所對於移民的融入十分重要。
在對各類特徵的動態演變進行觀察和分析以後,論文構建了兩個二分類問題來區分不同型別的群體,第一個分類任務希望能區分新移民和本地居民,第二個分類任務的標的是分辨出流失移民和留存移民。考慮到樣本的不均勻性,這兩個任務都十分具有挑戰性。下麵介紹有關這兩個任務的設定、結果和分析:
首先是新移民(35K) vs. 本地居民(1.80M)。
形式化地,給定一個使用者 v 在 14 天內(2016 年 9 月 5 日-2016 年 9 月 19 日)的移動通話網路和地理位置序列,這一任務的標的是去預測使用者 v 是一位新移民還是一位本地居民。
上表展示了這一任務基於隨機森林的分類結果。作者採用的方法達到了 0.36 的 F1 值,顯著超過了隨機猜測的結果(0.02)。此外,團隊進一步比較了不同型別特徵的有效性,社交網路特徵表現最好,其次是地理位置資訊。
其次是,流失移民(1.5K) vs. 留存移民(34K)。
這一任務的標的是預測一個新移民是否會在第三週離開上海。團隊基於之前任務相同的設定使用隨機森林分類器進行模型的學習。根據下表的結果,社交網路特徵再一次達到了最好的預測效果。
另外,房價特徵達到了僅次於社交網路特徵的效能(F1),高於地理位置特徵的效能,這說明瞭解一些額外的元資訊,例如活躍區域的房價,比僅僅知道使用者的活躍區域能更好地預測移民的早期離開。
在以上的實驗中,團隊使用了完整 14 天的資料來提取特徵,進行了流失移民的預測。那麼使用更少天數的資料進行流失移民的預測會達到怎樣的效果呢?假如利用很短時間的資料就能覺察新移民的離開意願,那麼政策制定者可以針對性地幫助這類群體。
下圖(c)展示了對流失移民的分類效果伴隨時間視窗長度 k 的變化。可以看出,伴隨時間視窗長度 k 減少,分類效果相應降低,但仍顯著高於隨機預測。
為了進一步探究效能隨時間視窗的變化是由於分類器效能的提高還是特徵質量的改善,團度設定了一組十分新穎的實驗。具體來說,團隊基於前 k 天的資料訓練了一個分類器,並使用前 t 天的資料提取特徵來預測這一新移民是否會離開城市,最後組合不同的 k 和 t 來觀察它們對預測效能的影響(上圖 d)。
有趣的是,當使用相同的特徵時,僅使用前 5 天資料訓練的分類器能與使用前 14 天資料訓練的分類器達到一樣的預測效能,這表明預測效能的提升主要來自特徵本身。
總結來說,這一工作結合了大規模通話資料和房價資料,研究了早期城市移民的融入過程和流失過程。在當下和未來,使用和這一工作類似的資料驅動方法有很大潛力來幫助理解和改善外來移民的融入狀況,例如,對在適應新環境上遇到困難的移民提供及時有用的支援。期待未來有更多的研究者使用不同的方法對移民融入這一問題進行研究,並最終能幫助和造福億萬追夢的移民們。
楊洋,浙江大學計算機學院副教授。2016年獲清華大學電腦科學與技術專業博士學位,被授予中國電子學會優秀博士學位論文、清華大學優秀博士畢業論文、北京市優秀博士畢業生等榮譽。博士期間訪問美國康奈爾大學、比利時魯汶大學。主要研究社交網路挖掘、網路表示學習、網路異常檢測等,在KDD、WWW、AAAI、TOIS等國際頂級學術會議及期刊上發表論文20餘篇,曾擔任KDD、WWW、AAAI、CIKM、WSDM、ICWSM、ASONAM等國際學術會議程式委員會委員。
劉宗濤,浙江大學電腦科學與技術專業碩士研究生。2016年獲得浙江大學電腦科學與技術專業學士學位。目前研究方向為社交網路資料挖掘和時序資料建模。已在AAAI和WWW會議發表論文3篇。
譚宸浩,美國科羅拉多大學助理教授。2016年獲康奈爾大學計算機系博士學位,2010年獲清華大學計算機系學士學位和經濟學二學位。曾在華盛頓大學任博士後。主要研究自然語言處理和計算社會學。論文主要發表在ACL和WWW相關會議。研究得到媒體廣泛關註,包括紐約時報,華盛頓郵報。曾擔任ACL, EMNLP, NAACL, WWW, KDD, ICWSM等國際學術會議程式委員會委員。曾獲得Facebook fellowship,NSF CRII等獎項。
吳飛,浙江大學求是特聘教授,博士生導師。於1996年、1999年和2002年分別於蘭州大學、澳門大學和浙江大學取得學士、碩士和博士學位。主要研究領域為人工智慧、跨媒體計算、多媒體分析與檢索和統計學習。浙江大學計算機學院副院長、浙江大學人工智慧研究所所長。國家傑出青年基金獲得者(2016年)、教育部新世紀優秀人才支援計劃入選者(2011年度)。
莊越挺,浙江大學計算機學院教授,博士生導師。1998年獲得浙江大學計算機應用博士學位。主要從事跨媒體、人工智慧、計算機動畫、數字圖書館等領域研究,取得了突出的創新成果,在國際權威期刊以及頂級學術會議發表論文100餘篇。國家傑出青年科學基金獲得者(2005年)、“百千萬人才工程”國家級人選者(2006年)、教育部長江學者特聘教授(2008年)、浙江省特級專家(2014年)、973首席科學家(2011年)、享受國家政府特殊津貼(2000年)、浙江省有突出貢獻中青年專家(2013年)、浙江省“151人才工程”第一層次培養人員(2000年)、教育部“網路多媒體智慧資訊處理技術”創新團隊帶頭人。國務院學位委員會第七屆學科評議組成員。中國人工智慧學會(CAAI)會士(2018)、常務理事。浙江省計算機學會理事長。中國計算機學會(CCF)2018中國計算機大會(CNCC 2018)程式委員會主席。