歡迎光臨
每天分享高質量文章

【知識】資料視覺化指導

資料視覺化的意義

1. 表達觀點
人類是視覺動物,一張簡單的資料視覺化圖表在傳遞大量資訊的同時,能更加直觀地闡述觀點,為瀏覽者帶來更深刻的印象。比如最為經典的就是1857年,南丁格爾設計的玫瑰圖。她講每月犧牲的戰士數量以及死亡原因,列成一張圖表,直觀的表達了戰爭的可怕以及軍隊醫療條件的重要性。


這張圖很簡單,但是卻真正直接客觀的將各種資料展示在女王面前,從而為軍隊贏來更好的醫療條件。這是當時的資料視覺化,也是真正的一圖勝千言的代表。
2. 發現聯絡
在錯綜複雜的資料中,很難發現不同維度和指標之間的關聯關係,透過資料視覺化的方式則可以輕鬆驗證。

日本有一家啤酒廠,收集了近 30 年的氣象資料,將其與當月的啤酒銷售情況相聯絡,繪出了“啤酒氣溫曲線”。透過這個圖表可觀察出,在市場趨於飽和的情況下,氣溫成了決定啤酒銷量升降的主要因素。於是,這家啤酒廠根據天氣情況,合理安排生產,收到了良好效果。

越來越多的企業開始重視公司自身資料的收集和處理,透過商業 BI 系統的幫助,在視覺化的圖表中,發現潛在的聯絡,以此最佳化、改進公司策略。
具體的實施主要分為 獲取資料、資料處理和視覺化三步。

1. 獲取資料

資料視覺化的第一步,首先要擁有資料,資料來源主要有以下幾種:
1. 自有資料
公司運營過程中最直接的資料。比如成本資料,銷售資料。對於網際網路公司來說,註冊使用者的使用者名稱、性別、年齡、消費記錄等,這也是最關鍵、最核心的資料。
2. 爬蟲採集
網際網路上有大量的資源,比如豆瓣上有最全的書、電影的資料,京東、淘寶上有豐富的商品資料,微博上有大家討論最多的話題和微博,而這些資料常常難以直接批次獲取,需要透過寫程式的方式爬取資料。競爭對手的資料常常也可以透過爬蟲抓取。
3. 購買、合作、公共資料等
透過購買、合作的方式獲取資料,統計局等機構的網站上也會有很多資料可供研究。
2. 資料處理

1. 資料清洗
這一步需要清洗掉不合法的資料。需要根據具體的業務情況來判斷哪些是不合法的資料。比如收集到的調研問卷中,回答自己是學生,同時是媽媽的群體;在實際的業務中,會有很多類似的邏輯矛盾的資料。
2. 資料擴充
很多資料背後包含更加豐富的資訊,比如可以透過使用者註冊的手機號,擴充到歸屬地、運營商,透過 IP 可以定位的 IP 所在城市,透過使用者的 UserAgent,可以擴充使用者使用瀏覽器、作業系統、手機機型等資訊。透過資料擴充,挖掘背後更多的聯絡。
3. 資料的預處理
採集到的資料可能是百萬千萬甚至上億的數量級,常見的視覺化工具無法處理如此龐大的資料量,這一步則需要進行資料預處理,將資料聚合以及初步的統計,處理成視覺化工具容易識別和處理的格式。
3. 資料視覺化

1. 圖表的選擇
我的建議是多看案例,看過別人是如何展示的,才會知道圖表原來還可以這樣,對於相同的資料,嘗試使用多種圖表進行展示,對比檢視效果。這裡推薦 ECharts 的樣例展示頁,仔細檢視並牢記每種圖形會對後面圖表的選擇大有幫助。


關於圖表的選擇,這裡提供一些建議和思維指南:

2. 工具
我把工具分成三類:
  1. 簡單易操作的桌面軟體,主要代表有 EXCEL、Tableau

  2. 線上視覺化網站,主要代表有 Visual.ly、Better World Flux

  3. 需要程式設計的視覺化框架:D3.js、ECharts、HighCharts


更多工具介紹可點選閱讀原文檢視知乎上的資料視覺化工具推薦。
3. 細節處理往往很頭痛
為了讓圖表美觀、易讀在處理圖表的時候會遇到很多最佳化的細節:如下圖, 當你水平排列資料標識時, 資料標識會看不清, 如果旋轉90度, 資料標識是看清楚了, 不過又浪費了很大一塊空間。 選擇一個合適的資料標識格式對有些視覺化來說是個解決方案, 不過也不是對所有方案都適用。

在有關地域的資料展示中,使用地圖是不錯的選擇,但也會面臨很多問題:香港、上海等地面積太小,新疆、西藏等地面積又太大;如果使用平局尺度的比例尺,會發現重點城市的顏色是最深刻度,其他省份都清一色一種刻度,難以察覺出分別,照顧到可讀性,需要考慮使用非平均的比例尺。


綜上,資料視覺化流程示意

親愛的讀者朋友們,您們有什麼想法,請點選【寫留言】按鈕,寫下您的留言。



資料人網(http://shujuren.org)誠邀各位資料人來平臺分享和傳播優質資料知識



公眾號推薦:

好又樂書屋,分享有益處,有趣味的內容,傳播正能量。




閱讀原文,更多精彩!

分享是收穫,傳播是價值!

贊(0)

分享創造快樂