導讀:隨著網民規模的不斷擴大,網際網路不僅是傳統媒體和生活方式的補充,也是民意凸顯的地帶。網路問政的制度化正在成為一種發展趨勢,這種趨勢與網際網路發展的時代需求是分不開的。
人民網《地方領導留言板》是備受百姓矚目的民生欄目,也是人民網品牌欄目,被稱為“社情民意的集散地、親民愛民的迴音壁”。
基於以上背景,研究人員對北京留言板裡面的留言資料進行分析,探索網民們在呼籲什麼。
作者:拓端資料研究室
來源:拓端資料(ID:ClanofData)
01 數量與情感:朝陽區群眾最活躍
從上圖可以看出不同地區留言板的情感傾向分佈,總的來說,負面情感留言數目和積極情感相差不多,負面情感留言較多,佔比46%,積極情感留言佔比42%,中立情感的留言佔比11%。
從地區來看,活躍在各大媒體的“朝陽區群眾”留言數目也是最多的,其次是海澱區,昌平區。因此,從情感分佈來看大部分留言還是在反應存在的問題,而不是一味贊美或者灌水。
02 主題分析:外地戶口問題呼聲最高
接下來,我們對於語料進行LDA建模,就是從語料庫中挖掘出不同主題併進行分析,換言之,LDA提供了一種較為方便地量化研究主題的機器學習方法。
我們使用最大似然估計進行最最佳化主題個數的選取。當主題個數定為20的時候,似然估計數最大,即留言板資料分為20個主題的可能性比較大。將模型生成的20個主題中的前五個高頻詞取出,如下表所示。
然後我們將佔比最高的前六個主題與它們的情感傾向進行分析。
從上圖可以看出大家關於6大主題的討論:
主題1反應孩子,外地戶口辦理的問題是最多的,反應了外地落戶北京相關的難題(e.g.父母在京工作20多年,兒女上學卻因戶口問題不能進入好的高校就讀)。
主題2是反應環境改造及棚戶改造(e.g.棚戶房屋破舊、牆面潮濕、上下水管道老化腐爛現象嚴重經常造成跑冒滴漏,遇到雨雪天氣,道路積水、泥濘不堪,大院居民尤其是老人小孩出行非常不便)。
主題3是反應高考和醫保(e.g.外地人衷心的希望政府能關註一下孩子在北京的高考問題)。
主題4是汽車搖號政策(e.g.現行的搖號方案是不可行,治標不治本.有的搖號是一個人搖不上,全家人都出動;有的是想買車根本搖不號;有的是不想買車就搖上了)。
主題5是反應工資和租房問題(e.g.我是外地退休教師。因為孩子在北京工作,故到北京幫助孩子料理家務,以支援孩子工作。因為北京房價昂貴,我們買不起大房,三代人只能擠著住。我想問問市長,我們是否也能住公租房)。
主題6是違法建築(e.g.XX雅苑許多一層業主私搭亂建成風,且物業無能,造成極大的安全隱患)。
03 地區、主題與情感得分
接下來我們分析了不同主題和地區的情感傾向分佈。從下圖可以看出,主題3高考和醫保、主題6違法建築、主題13教育拆遷的留言內容中積極情感佔較大比例。
我們發現在不同主題中情感得分最高的地區中海澱區最多,其次是朝陽區和大興區。同時也可以發現,情感得分最高的是在主題11居民生活下的朝陽區留言內容。總的來說,根據積極情感的內容分佈來看,主題3高考和醫保、主題6違法建築、主題13教育拆遷的留言內容中表現出較好的反饋。
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞
檢視更多優質內容!
PPT | 報告 | 讀書 | 書單 | 乾貨
Python | 機器學習 | 深度學習 | 神經網路
區塊鏈 | 揭秘 | 高考 | 福利
猜你想看
-
pandas創始人手把手教你利用Python進行資料分析(思維導圖)
Q: 哪個問題是你最關註的?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視