導讀:企業當前需要什麼樣的資料分析人才?這些人才應該具備怎樣的能力和素質?資料分析師掙多少錢?下麵的分析過程正在試圖給你答案。希望本文能夠為你今後的學習和求職提供指導,也為正在學習資料分析和找工作的朋友們提供一定的參考價值。
01 專案背景
在學習資料分析的路上,少不了經常逛知乎,寫這篇文章的啟發來源於@BigCarrey 的一篇文章《資料分析師掙多少錢?“黑”了招聘網站告訴你!》,該文章給了我一些幫助,讓我瞭解了資料分析崗位相關的資訊,但同樣也留給我一些疑問,該文章分析的資料分析師所需技能的結果絲毫沒有R的蹤影,儘管是一年前的分析,我覺得應該不可能不存在。
因此,抱著證實R語言這款工具的想法,以及希望瞭解當前企業對資料分析崗位的需求,開始了一次針對招聘網站的資料分析崗位招聘資料的分析與挖掘實踐,避免自己所學習的方向與企業實際需求脫軌。
此實體採用R語言作為分析工具,下麵展現的是我整個分析過程。
02 標的
-
瞭解企業當前需要什麼樣的資料分析人才,以及應該具備的能力和素質。
-
分析的結果為今後的學習和求職提供指導,也為正在學習資料分析和找工作的朋友們提供一定的參考價值。
03 問題的分解
-
不同地區,資料分析崗位的需求分佈以及對應的薪資分佈
-
不同經驗,資料分析崗位的需求分佈以及對應的薪資分佈
-
不同學歷,資料分析崗位的需求分佈以及對應的薪資分佈
-
不同企業規模,資料分析崗位的需求分佈以及對應的薪資分佈
-
探索資料分析崗位對應的工具型技能與對應的薪資水平
-
探索資料分析崗位對應非工具型能力的需求
04 資料集的定義
▲表1:資料分析崗位資訊表
▲表2:資料分析崗位技能關鍵詞表
05 資料獲取
資料來源:拉勾網
資料範圍:網際網路行業、資料分析崗位
資料集:全國資料分析崗位招聘資訊資料集(採集樣本量:449)
工具:爬蟲
時間:所有資料截止2018年3月12日
資料集獲取方式:請關註公眾號數說物語(ID:DataTalk_)回覆【拉勾網】即可獲取下載連結和密碼
06 資料處理
步驟1:載入原始資料
步驟2:識別缺失值
▲圖1. aggr缺失值識別圖
幸運的是該資料集不存在缺失值,這是很少遇到的情況。
步驟3:資料清洗
步驟4:文字挖掘
文字挖掘工具:jiebaR包
說明:
在進行正式挖掘之前測試了一下jiebaR的關鍵詞(keywords)分詞器,測試的結果發現SQL,Python等詞在jiebaR詞典中的IDF值均為11.7392,但“R”這個字元無論如何(即使自定義了使用者字典,或者在idf字典中新增R的idf值)都無法被分詞器識別為關鍵詞,猜測可能是預設R的詞性標註或者演演算法實現方法的原因。但因為R是資料分析師的重要工具,識別不出來是不可容忍的,因此要另求出路。
測試程式碼如下:
結果如下:
解決辦法:
關鍵詞演演算法的實現原理是TF-IDF演演算法,TF為詞頻,IDF為逆檔案率(詞的權重),因此TF-IDF=TF*IDF為衡量是否關鍵詞的指標,若控制IDF,則TF-IDF的值與TF值成正比關係,簡單來說TF值可以代替TF-IDF值。
由於此次分析的是資料分析師的工具和技能,因此只考慮SQL,PYTHON,R,SAS等常用且類似的詞的分析,又因為該類詞在jiebaR分詞器識別出來的IDF值均是同級別的(即使可能存在有差異也在此假設其等值),因此這部分詞彙的關鍵指標的衡量可以簡化為出現的詞頻,即TF值,這個可以透過jiebaR的預設分詞器(不是關鍵詞分詞器)來處理即可,最終解決R關鍵詞識別的問題。
文字挖掘思路:
1、工具型技能的關鍵詞:採用預設分詞器的詞頻TF值
2、非工具型能力或素質的關鍵詞:採用關鍵詞分詞器的TF-IDF值
程式碼如下:
到此資料處理的過程基本完成,處理後乾凈的資料如下:
07 分析的結果
資料分析程式碼:
具體程式碼可以前往該連結檢視整個過程:RPubs – 分析實體:企業需要什麼樣的資料分析人才(http://rpubs.com/Joffy_Z/DA_analysis)
描述統計資訊:
問題一:不同地區,資料分析崗位的需求分佈以及對應的薪資分佈
-
總的來說資料分析師的平均薪資比較好,工作1年以上拿到10k月薪的機會還是比較大
-
在需求量前5的城市中,北京和深圳的平均薪資是最高的,廣州的平均薪資最低
-
需求量在第二梯度的城市中,長沙和成都的平均薪資較低,但武漢、廈門、鄭州也有不錯的薪資表現,二線城市也是一個可以考慮的選擇
-
需要註意的是蘇州的需求量相對於其他城市是非常低的,但其平均薪酬接近深圳,是可以值得關註的城市
問題二:不同經驗,資料分析崗位的需求分佈以及對應的薪資分佈
-
跟預想的差不多,薪資隨工作經驗的增加而有一個穩定的增長
-
但企業對最大的資料求集中在3-5年經驗的資料分析師,這對於轉型進入資料分析的人來說不是一個好的訊息
-
轉行需要更有充足的準備,且要不斷尋找能夠積累經驗的專案來做。
問題三:不同學歷,資料分析崗位的需求分佈以及對應的薪資分佈
-
企業似乎更加註重分析師的實踐經驗,而不是學歷的高低,但至少需要具備本科以上的學歷,資料分析還是需要具備一定的理論基礎
-
在薪資方面,相對與本科來說,碩士及以上學歷在獲取高薪方面並沒有太大的優勢,能夠解決實際問題才是資料分析師拿高薪的關鍵,而非深奧的理論知識
-
大專學歷的分析師還是有機會,重點在於增加自己的工作經驗才是本質上與其他分析師拉開距離的關鍵,當然,理論知識也不能落下
問題四:不同企業規模,資料分析崗位的需求分佈以及對應的薪資分佈
-
150人規模以下的企業需求量較少,但給出的薪資較高(甚至有異常的高薪),該類企業可能處於快速融資且高速的發展階段,需要有豐富經驗的資料分析專家來建設整個資料體系
-
50~150人規模的企業適合有足夠經驗的分析師且想要創業的人,對自己職位以及薪酬均會有明顯的提升,但最大的風險就是該類企業容易失敗,特別在網際網路行業,因此更不建議作為轉型新人的首選
-
對於轉型的新人,盡可能往大企業走,越大規模的企業,整個體系越成熟,因此可以在150人以上的規模從上往下選擇自己合適的企業才是比較科學的方式,且需求量巨大
問題五:資料分析崗位對應的工具型技能與對應的薪資水平
-
SQL和Excel幾乎是每個資料分析師要掌握的基礎技能,大多數企業都有自己的資料庫體系或者系統平臺,因此企業工作人員讀取和處理資料還是以資料庫和Excel為主
-
R,Python是兩個最熱門的開源資料分析工具,且當前R語言在需求仍然不低,因此核心掌握兩門語言的其中一門都會讓資料分析師具備有力的競爭優勢
-
除此之外工作經驗較低的資料分析師還需要掌握一些BI視覺化分析工具
-
工作經驗較高的資料分析師需要掌握主流的關係型資料庫系統和NoSQL,以及Hadoop,Hive,Spark等大資料工具
-
掌握Hadoop,Hive,Spark,R,Python等技能是獲取高薪必備條件
問題六:資料分析崗位對應非工具型能力的需求
宣告:此處資料涉及到崗位細分和難以衡量的原因,並沒有進行深入分析,詞雲本身不具備太高的資料分析價值,僅作為視覺化關鍵詞的分佈情況的工具;閱讀者需要根據自身崗位以及所處的工作定位檢視關鍵詞的情況,這裡的大小表示關鍵詞出現的頻次。
透過資料的收集,瞭解到資料分析崗位主要有偏工程方向和偏業務方向兩個型別,透過詞雲可以大概瞭解到如下資訊:
-
偏工程方向的資料分析師對“資料挖掘”、“資料建模”、“模型分析”等能力要求較高
-
偏業務方向的資料分析師對“業務分析”、“運營分析”、“產品分析”、“使用者分析”等能力要求較高
-
兩個型別共同需要“邏輯思維”、“溝通”、“分析報告”、“統計分析”、“團隊合作”等關鍵能力
08 總結
-
從地域來看,北京、深圳、上海、杭州、廣州應該是資料分析師的首選城市,蘇州是一個值得關註的城市,外部資料瞭解到蘇州的GDP僅次於一線城市,此處結果平均薪資接近北京和深圳,但需求量較低,想要蘇州發展的朋友可以關註其動態。
-
從總體需求來看,企業更加需要具備多年工作經驗,且動手能力強、解決實際問題的分析人才,隨著工作經驗的增加,其對應的薪資也有可觀的增長。
-
從大環境看,外部資料瞭解到,自助式分析工具的逐步完善與人工智慧技術的突破,也可能使得企業現有業務人員能夠上手基礎的分析工作,導致企業對經驗較低的分析師需求減少。
-
從企業規模看,150人以上規模的企業更加適合新人進去鍛煉,一方面企業已經完成了基本的資料體系架構,且越大的企業資料量級越大,另一方面,企業需要逐步培養強大的資料分析團隊來支撐業務的增長。
-
從分析師個人的角度,則需要更加關註自身成功專案經驗的積累,這是升職加薪的必備條件,且需要思考未來自身的發展路徑,提前做好準備,相對於業務方向,大資料工程師方向會有更可觀的薪資。
-
從能力的角度,資料分析師需要掌握SQL,Excel,R,Python四個必備的工具(R和Python可以選擇其一為主要工具),新人可以註重BI,PPT等office工具的技能,如果是大資料挖掘,越往後則需要更加關註hadoop,Hive,Spark等工具;
-
資料分析師個人還需要註重邏輯思維、表達溝通、分析報告等關鍵能力
09 建議
-
對於想要轉型的資料分析師新人,轉型之前盡可能做好專案經驗的積累,儘量做到跨崗不跨行,在自己熟悉的領域學習資料分析
-
企業比較看重經驗和動手能力,面試的時候盡可能展示你的作品或者案例,如果當前沒有,則需要在日常學習,練習,積累
-
可以掌握一些視覺化工具和資料視覺化的思維,熟練掌握報告和表達的技巧,資料分析的工具多樣,方式多樣,只有能夠正確解讀資料且讓對方看懂聽懂才是有價值的
10 不足
本次分析並沒有按照分析報告的方式來呈現,文章中以個人的整個分析過程來撰寫,希望能夠與各位朋友一起交流學習,如果你不同意我文章中的觀點,歡迎指正交流。
文章中我附上了我的資料集以及分析的程式碼連結,有興趣的朋友可以重覆我的過程,甚至做更加深入有趣的分析,如果有新的發現和觀點,希望也能讓我知道,向你們學習。
11 侷限
資料僅採集到449份樣本,資料量相對少一點,因此資料分析的結果需要大家用懷疑的心態來看待,且僅侷限在網際網路行業,相對於其他行業,本文章的分析結果只能作為一個參考。
感謝您的閱讀,您的建議和留言會讓我做得更好。
作者:喬飛(Joffy Zhong):諮詢顧問 寫作愛好者 資料分析 網際網路創業者 R語言中文社群專欄作者
來源:數說物語(ID:DataTalk_)
推薦閱讀
日本老爺爺堅持17年用Excel作畫,我可能用了假的Excel···
看完此文再不懂區塊鏈算我輸:手把手教你用Python從零開始建立區塊鏈
Q: 資料分析師所需的技能,你get到了嗎?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩文章,請在公眾號後臺點選“歷史文章”檢視