本文將告訴你答案。
作者:George Liu
編譯:wLsq
來源:Python資料科學(ID:PyDataScience)
01 Python現在是資料科學的首選語言
有很多人爭論:Python和R,哪個是資料科學的首選語言。市場需求報告告訴我們Python是現代的領導者。同樣值得註意的是,R比SAS更少提及。因此,如果您正在考慮進入資料科學,可以將你的學習重點放在Python上。
而SQL作為資料庫語言,是資料科學家第二重要的語言。 由於資料科學家職業的廣泛性,其他語言也扮演著重要角色。
總的來說,資料科學家的主要語言是:Python,SQL,Scala,Lua,Java,SAS,R,C ++和Matlab。
02 機器學習工程師所需的語言更加多樣化
作為熱門語言,Python成為機器學習工程師的首選語言並不令人驚訝。此外,由於需要從頭開始實現演演算法併在大資料環境中部署ML模型,因此C ++和Scala等相關語言也很重要。 總的來說,與其他兩個角色相比,語言的需求似乎更加分散。
總的來說,機器學習工程師的主要語言是:Python,Scala,Java,C ++,Lua,SQL,Javascript,Matlab,CSS和C#。
03 成為一名資料工程師,SQL是必須的技能
資料工程師常常處理資料庫,而SQL是資料庫的語言,所以SQL是資料工程師必備的語言。Python雖然很重要,但對於資料工程師而言,Scala和Java更為重要,因為這些語言可以幫助他們處理更大的資料。
總的來水,資料工程師的主要語言是:SQL,Scala,Java,Python和Lua。
04 Scala是資料科學中第二大進口語言
當我們對比不同的角色時,驚奇的發現,Scala不是第二個就是第三個。 所以我們可以說資料科學中的前三種語言是Python,SQL和Scala。如果你正在考慮學習一門新語言,也可以考慮使用Scala。
05 Spark是除資料工程師之外的首選大資料技能
僅對於資料工程師而言,Hadoop比Spark更多,但總的來說,Spark絕對是首先應該學習的大資料框架。Cassandra對工程師而言比科學家更重要,而Storm似乎只與資料工程師有關。
總的來說,資料科學的大資料技術是:Spark,Hadoop,Kafka,Hive。
06 TensorFlow是深度學習的王者
資料工程師的職位描述中幾乎沒有提到深度學習框架,因此該角色幾乎是不需要DL框架的。而更多使用DL框架的是機器學習工程師,這表明瞭機器學習工程師更多地是處理機器學習建模,而不僅僅是部署模型。
另外,TensorFlow在深度學習的領域中是佔據著主導地位的。儘管Keras作為高階深度學習框架在資料科學家中也是非常受歡迎的,但它幾乎與機器學習工程師沒什麼關係,這也表明ML從業者們大多都使用較低階別的框架,比如TensorFlow。
總的來說,資料科學中最重要的幾個深度學習框架是:TensorFlow,Torch,Caffee,MXNet。
07 AWS是雲端計算平臺的主導
08 計算機視覺是機器學習中大部分需求的來源
對於一般資料科學家而言,自然語言處理是最大的ML應用領域,其次是計算機視覺,語音識別,欺詐檢測和推薦系統。但對於機器學習工程師而言,最大的需求卻來自計算機視覺,而自然語言處理則一直是第二。
另一方面,不論是計算機視覺還是自然語言處理,與資料工程師都沒什麼關係。
如果你想成為一個資料科學家,可以選擇各種型別的專案,根據你想要進入的領域展示專業知識,但對於機器學習工程師而言,計算機視覺則是最佳選擇。
09 Tableau是必會的視覺化工具
視覺化工具主要是資料科學家所需要的,很少會有人提到資料工程師和機器學習工程師。 儘管如此,Tableau可是說是所有角色的首選。但對於資料科學家而言,Shiny,Matplotlib,ggplot和Seaborn也同樣得重要。
10 每個人都必須會Git,而Docker僅適用於工程師
下麵,我們將使用詞雲來探索上面提到的每個角色最常用的一些關鍵詞,然後結合相應的技能為所有資料科學角色構建理想的描述。
11 資料科學家:更關註機器學習
資料科學家一直被視為需要統計,分析,機器學習和商業知識的全方位專業。然而,現在從詞雲比重看來,資料科學家們更多地關註機器學習而不是其他的一些東西。
12 機器學習工程師:研究,系統設計和構建的
與資料科學家相比,機器學習工程師會有一個更集中的組合,包括研究,設計和工程。顯然,解決方案,產品,軟體和系統是主要的主題。
當然,伴隨著這些,有研究,演演算法,ai,深度學習和計算機視覺。從詞雲看出,商業,管理,客戶等術語也很重要,這可以在專案的進一步迭代中進一步研究。
13 資料工程師才是真正的專家
與機器學習工程師相比,資料工程師擁有更加專註的產品組合。顯然,重點是透過設計和開發pipelines來支援產品,系統和解決方案。 對於資料工程師來說,比較高的要求包括了專業技能,資料庫,測試,環境和質量。機器學習也同樣很重要,因為pipelines主要用於支援機器學習模型部署資料需求。
這就是資料科學技能分析的全部了。希望本篇可以幫助你瞭解招聘者更註重什麼技能,最重要的是可以幫助你做出有關如何定製簡歷和學習哪些技術的決策。
我們正在繪製一份大資料粉絲畫像—— 2019大資料粉絲有獎調查問捲上線了 歡迎長按二維碼填寫
我們每週一將從參與者中 隨機抽取3名幸運小夥伴 每位將獲贈近期出版的技術類圖書1本
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞
檢視更多優質內容!
PPT | 報告 | 讀書 | 書單
大資料 | 揭秘 | 人工智慧 | AI
Python | 機器學習 | 深度學習 | 神經網路
視覺化 | 區塊鏈 | 乾貨 | 數學
Q: 這些技能,你已get了多少?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視