據外媒報道,新加坡2萬公務員將在未來5年內接受資料分析培訓,新加坡政府已任命首席資料戰略官員,領導實現政府各部門的資料化計劃。大資料時代,公務員們都得是“資料”高手!資料分析在新加坡已經是最熱門的職業,也是應屆生們的首選職業之一。
大資料風潮席捲全球,為什麼人人都要學資料分析?
大資料號稱新時代的石油,很多行業都開始用資料驅動業務,透過對資料的分析和挖掘,從單純的資料報表,到建模分析,深入挖掘,來幫助業務部分來系統的思考問題。
同時,資料分析也相對容易一些,比較好上手。
Python的應用的領域可以分為爬蟲、web開發、資料分析、機器學習等方向。和機器學習相比,資料分析偏業務,機器學習偏工程,資料分析入門對數學功底和演演算法基礎的要求並不是特別高。
可以來做資料分析的語言和工具比較多,為什麼偏偏選Python?
拿常見的R語言和Excel來說:
R語言其實是為統計學而生的語言,用來做統計學確實非常厲害。
但是R語言在語法的美觀和使用的簡潔便利上看,要比Python差很多,小函式一堆,而且語法不好理解,沒有Python這麼容易上手和通熟易懂。
而 Excel只能做一些簡單的處理邏輯處理,適合小規模的資料集,或者簡單的資料清洗,對於複雜的邏輯處理,資料清洗,還是用Python來的方便。
在資料科學領域,有三個不同的角色,分別是:商業分析師,資料工程師和資料科學家,難度依次遞增。
1.商業分析師
商業分析師的工作主要圍繞報表和指標這兩塊兒,包括:
1).定義關鍵績效指標
2).設計和實現報表
3).從使用者那裡收集報表需求
4).與資料工程師對接確保資料被正確地收集和儲存
5).查詢資料(一般是聚合過的)
2.資料工程師
資料工程師的工作主要圍繞架構和收集這兩塊兒,包括:
1).透過寫資料傳輸包、設計聚合過程、最佳化儲存,來構建和維護資料傳輸和儲存的基礎設施
2).將生產環境產生的原始資料,轉換為商業分析師可以用來製作報表的格式化的資料
3.資料科學家
資料科學家的工作主要圍繞預測和最佳化這兩塊兒,包括:
1).負責構建預測演演算法,以提升使用者體驗,最終增加參與度、留存率、收益
2).負責資料驅動的產品的改進和建議
這其實是一個金字塔,商業分析師位於金字塔的最底層,資料科學家位於金字塔的最頂層。
拉勾網上資料分析師基本上在1-2年經驗的平均年薪在20萬左右。
再看一下資料分析師的崗位主要需求城市:
主要是在北上廣深和杭州 5個大的城市,其中北京的需求最多,幾乎是第2/3/4位的總和。
資料分析的內容多,而且比較全面,比如我們前面寫了很多關於房地產,拉勾照片,旅遊網站的資料,一般來說資料分析分下麵幾個過程:
第一步:資料的爬取
資料分析過程非常像我們平時做飯,第一步要先買菜,如何獲取資料呢,很多時候我們需要爬取資料,爬蟲涉及的知識比較多:
比如常見的http原理,爬蟲的基本解析庫reuqests,網頁解析庫BS,Pyquery,掌握一些分散式爬蟲的框架,當然還有一些反爬蟲的策略。當然如果我們能有現成的資料集會方便很多。
第二步:資料格式的處理和清洗
買好了菜,接著我們需要洗菜,也就是資料清洗!常見的資料集都是csv和json格式,需要熟練的掌握著兩種格式的。Python中資料分析的神兵利器是Pandas,這個庫非常好用,功能也是非常強大的。可以對資料進行各種花色的清洗和切割,幾乎所有用Python玩資料分析,必須學會pandas庫的用法。
第三步:資料的儲存
清洗完成之後資料需要儲存起來,一般用的比較多的 SQL 和 MongoDB。幾乎所有的資料分析師招聘都會面試SQL的用法,所以掌握一門資料的使用是非常有必要的!基本的增刪改查這樣入門級的操作,一定要熟練掌握。
第四步:資料的探索
我拿到一個資料集之後,需要對資料進行探索,分析資料之間的關係,每個特徵值,每個變數的之間相關性和相互的影響,比如常見的EDA 探索資料分析法。
單變數,雙變數和多變數的探索,可以從很多角度,對資料進行切片分析,非常資料集中的變數之間的關係,找出相關性比較強的資料。
如果需要對資料進行深入的挖掘,需要瞭解機器學習的相關演演算法,大體分監督學習和無監督學習,比如回歸問題,分類問題。這部分對資料集進行深入挖掘之後,可以找出資料間的規律,訓練好的之後,可以預測資料,很是牛逼。
第五步:資料的視覺化
展現資料最好的方法就是資料視覺化,資料的視覺化有很大的庫,比如 echart,matplotlib,d3 和 Tableau,當然還有excel,一般資料分析師必須要掌握exce或者Tableau。尤其是Tableau現在越來越多的公司用它來做視覺化分析,有一個有趣的必然,同樣一個庫用R語言需要30分鐘才能完成,Tableau只需要5分鐘。
對於小白來說,如果想要學習Python資料分析,推薦網易雲課堂推出的《Python資料分析》訓練營,讓你在學習Python資料分析的進階之路上少走彎路,原價199元,今日限時免費!更有12G資料包免費贈送!
參與《Python資料分析》訓練營到底可以收穫什麼呢?
PART1
《體驗Python資料分析的快感》免費課程
大鵬,城市資料團聯合發起人,曾打造《大鵬教你玩資料》等多門資料分析網紅課程,創立了“資料團學社”、“城市資料研習社”等資料學習社群
1、會寫程式碼的資料分析師是怎麼樣的存在?
2、武裝你的電腦:Python環境搭建及軟體安裝
3、手把手教你用資料挖掘“成為領導的秘訣”
4、怎樣做出專業且高逼格的資料視覺化
5、模擬實驗:排隊等待時間問題
PART 2
《資料分析師技能圖譜大揭秘》線上直播課
2018年6月12日 20:00-21:00
2、運用工具Python高效工作
3、必備技能圖譜+乾貨get
PART 3
12G大資料學習資料包
整整12G的資源,還不快準備好你的雲盤~
如何參加?
掃碼加入QQ群
即可免費攻讀《體驗Python資料分析的快感》
參與線上直播公開課
附贈12G學習資料包
為了保證學習體驗,
本次“Python資料分析工程師”限時開放
數量有限,欲報從速