關鍵詞:資料科學家、Glassdoor網站、indeed網站、工作崗位、Kaggle平臺、LinkedIn(領英)公司、McKinsey(麥肯錫)公司。
2011年,麥肯錫釋出的《大資料》報告稱,“僅美國就面臨著14萬至19萬名具有分析專長的人才短缺,以及150萬名具備理解並基於大資料分析做出決策能力的管理人員和分析師的短缺”。
2014年,我們調查了資料科學家的數量,當時的估計為50名至10萬名,且當時並沒有看到資料科學家大量短缺的證據。2014年,我們在indeed.com網站上僅發現了約1000個“資料科學家”的招聘廣告。
2016年,我們研究了德勤的一項研究。德勤在研究中預測:到2018年,企業將需要100萬名資料科學家。
現在已經是2018年了,所以我們可以檢驗上述預測的準確程度,並且嘗試回答以下三個問題:
1. 現在是否存在資料科學家的短缺?
2. 現階段有多少“資料科學家”?無論是名義上的還是實際職能上的。
3. 資料科學家的未來前景如何?
1 資料科學家短缺嗎?
第一個問題的答案似乎是肯定的。
LinkedIn公司在2018年8月釋出的美國勞動力報告中提到:“對資料科學家的需求空前高漲……具有資料科學技能的人才短缺問題幾乎存在於美國的所有大城市。在全美國範圍內,共缺少151717名具有資料科學技能的人,其中紐約市(34032人)、舊金山灣區(31798人)和洛杉磯(12251人)的人才短缺尤為嚴重。”
值得註意的是,LinkedIn報告中的人才短缺是指具有“資料科學技能”的人,而不一定是擁有“資料科學家”頭銜的人。
我們可以透過兩個熱門的求職網站——indeed和Glassdoor——來估計對“資料科學家”的需求。
在indeed.com網站上搜索美國的“data scientist”(加引號),只能找到約4800個工作崗位。
(註意:在indeed網站上進行搜尋時使用引號十分重要。搜尋沒有加引號的data scientist可以找到約3萬個工作崗位,但我們不確定這些工作崗位中有多少是針對其他領域的科學家的。)
美國是資料科學家最大的市場,卻非唯一的市場。透過在indeed的區域性站點(indeed.co.uk、indeed.fr、indeed.de、indeed.co.in等)上進行搜尋,我們可以發現其他國家對資料科學家也有強烈的需求:
-
英國:1100個工作崗位
-
法國:718個工作崗位
-
德國:900個工作崗位
-
印度:500個工作崗位
在Glassdoor網站上輸入“Data Scientist”進行搜尋,可發現美國大約有2.6萬個工作崗位(刪除引號也會得到同樣的結果)。
2 現階段有多少“資料科學家”?
谷歌搜尋將資料科學家定義為:“受僱用於分析和解釋複雜的數字資料(如網站的使用統計資料)的人,從而協助企業做出決策。”
由於資料科學是集統計學、電腦科學、機器學習和商業於一體的交叉學科,因此在業界和學術界有許多人雖從事這項工作卻沒有正式的資料科學家頭銜。因而我們可以透過調查流行的資料科學平臺來估計當前資料科學家的數量。
Kaggle(現在是Google的一部分)是一個資料科學和資料分析的競賽平臺,它聲稱是世界上最大的活躍資料科學家社群。雖然並非所有資料科學家都參加過Kaggle比賽或擁有Kaggle賬戶,且並非Kaggle上的所有人員都從事資料科學工作,但我們可以合理地假設資料科學家群體與Kaggle人員群體存在大量重疊。 2017年6月,Kaggle的社群成員數量突破了100萬。2018年9月19日的Kaggle電子郵件稱,他們的社群成員數量在2018年8月超過了200萬。由於並非所有Kaggle成員都是活躍的,所以Kaggle的社群成員總數可能是全球從事資料科學的人的數量最大值。
KDnuggets網站現在每個月有超過50萬名獨立訪客,由於網站專註於幫助資料科學家和機器學習工程師更好地完成他們的工作,因而我們可以合理地認為網站的大多數訪客都在資料科學或機器學習領域工作,無論他們的實際頭銜是什麼。但由於部分訪客可能是無意中隨機訪問了KDnuggets,因而我們可以瞭解網站的訂閱者或粉絲——這個更活躍的子集。
KDnuggets目前在Twitter、LinkedIn、Facebook、RSS和電子郵件上擁有約24萬名訂閱者或粉絲。雖然不同平臺的人會有一些重疊,但對於全球眾多的資料科學家來說,大約20萬的人數預估似乎是合理的最小值。
在LinkedIn上,有許多致力於資料科學的組織。儘管這些組織的參與度一直在下降,但我們可以粗略地估計他們的成員數量。以下是三個最大的資料科學組織的預估成員數量:
-
大資料和分析——33.9萬名;
-
資料科學中心——27.8萬名;
-
資料挖掘、統計、大資料、資料視覺化和資料科學——17萬名。
這些組織成員的頭銜有著巨大的多樣性,這些頭銜包括資料科學家、資料分析師、統計學家、生物資訊學家、神經科學家、市場營銷主管、電腦科學家等等……可以肯定地說,任何從事著傳統資料科學家所從事的工作的人都可被認為屬於這一類別。隨著越來越多的人需要透過分析資料來獲得見解或做出關鍵決策,傳統上職位和職責不同的人們都熱衷於學習資料分析這一新技術,以適應自己的領域。這雖然並不能使他們從根本上成為資料科學家,但他們確實擁有該領域的知識和才能。
我們還可以從資料科學家的LinkedIn個人資料中獲取一些有用資訊,這些資料顯示有超過10萬人擁有資料科學家頭銜。
圖1:LinkedIn資料科學家簡介(按行業和地點分類)
在LinkedIn上搜索“資料科學家”(加引號很重要),我們發現超過10萬人擁有該頭銜。 因此,如果全球有20萬到100萬人在做一些與資料科學相關的工作,那麼他們中的大多數人都沒有資料科學家的頭銜。
我們還可以透過檢視與資料科學最相關的語言和平臺(R、Python、機器學習庫、Spark和Jupyter)相關的活動來估算大型資料分析/視覺化/統計社群的規模。
Apache Spark Meetups上現有22.5萬名成員,而且每個月都在增長。 Intel Capital估計全球有100萬R程式員。 根據python.org網站上的公開資料,現在已有約275萬次的下載量。 Jupyter專案目前擁有約300萬使用者。 這些數字可以為我們提供全球資料分析師或資料科學家數量的粗略上限。
3 資料科學家的未來前景
資料科學家近期的前景看起來很光明。
2017年的LinkedIn新興就業報告稱,2017年的機器學習工程師比5年前增加了9.8倍。 在LinkedIn報告上,機器學習工程師、資料科學家和大資料工程師躋身新興崗位之列。 自2012年以來,資料科學家增加了650%以上。
圖2:LinkedIn十大新興職位及其增長情況(2012年至2017年)。
根據美國勞工統計局的資料,未來十年的就業增長預計將超過前十年的增長,到2026年資料科學或資料分析領域將創造1150萬個就業崗位。
IBM最近宣稱,到2020年,資料科學和分析職位的數量預計將增加近36.4萬個,達到約272萬個。 因而無論目前資料專業人員的真實數量是多少,他們的數量在不久的將來很可能會繼續增長。
然而,從長遠來看,自動化將取代業內的許多工作,資料科學家的工作也不例外。 如今,DataRobot和H2O等公司已經為資料科學問題提供了自動化的解決方案。
2015年KDnuggets民意調查中的受訪者認為,大多數專家級的預測分析或資料科學任務將在2025年實現自動化。為了保住工作崗位,資料科學家應該專註於培養更難自動化的技能,如業務理解、解釋和講故事的能力。
作者:Gregory Piatetsky、Preet Gandhi
原文標題:How many data scientists are there and is there a shortage?
原文URL:https://www.kdnuggets.com/2018/09/how-many-data-scientists-are-there.html
翻譯、校對和排版:李雪明、朝樂門;
轉自:資料科學DataScience 公眾號;
END
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀:
80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系
合作請加qq:365242293
更多相關知識請回覆:“ 月光寶盒 ”;
資料分析(ID : ecshujufenxi )網際網路科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。