很多牛逼的公司都宣稱在建立資料科學部門,這個部門該如何組建,大家都在摸石頭過河。O‘reilly Strata今年 六月份釋出了報告 《Analyzing the Analyzers 》,比較清晰的闡述了資料科學部門所需要的不同角色及其技能。重點內容翻譯如下:
資料科學家的分類研究方法
自我認識
請被調查者用常用的5級標準(從完全同意到完全不同意)來回答 “我覺得自己是一個XX” 這樣的問題,能夠獲得資料科學家的自我認識結果。調查結果將資料科學家分為以下四類:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。
技能需求
請被調查者對資料科學家所需的以下22項技能進行排序,分析不同型別的資料科學家的技能要求。其中的ML是機器學習的簡寫,OR指運籌學(Operations Research)
將它們結合起來分析
根據受訪者的自我認知和技能排序,可以識別出不同型別的資料科學家所需要的技能。
資料科學家的類別
Data Businesspeople
Data Businesspeople 往往專註於組織管理和如何從資料專案中產生利潤。他們往往將自己定位為領導或創業者,約 80% 的 Data Businesspeople 承擔員工管理的責任。Data Businesspeople 還可能是諮詢服務或合同類服務的提供者。Data Businesspeople 學歷相對較高,大約 60% 擁有碩士以上學位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科學位的背景。Data Businesspeople 往往操作真實資料,90% 以上偶爾會操作 GB 級別的資料。與其他資料科學家相比,Data Businesspeople 年齡稍微偏大,接近四分之一是女性(相比略高),僅有四分之一的 Businesspeople 把自己稱為資料科學家(相比略低)。
Data Creative
資料科學家往往可以獨立完成一條龍的完整分析過程:從資料提取,整合、併進行分層,進行統計或其他複雜的分析,創造引人註目的視覺化詮釋和效果,開發具有更寬廣應用前景的資料工具。而 Data Creative 則是其中能力最廣泛的資料科學家,他們能夠綜合使用各種工具和技術解決問題、能夠像駭客馬拉松那樣創新產品原型,是典型的萬事通型人才。與其他類的資料科學家相比,Data Creative 更具藝術家風範。與 Data Researcher 相似,Data Creative 也有豐富的的學術經驗,大約 3/4 擁有院校授課或發表論文的經歷,一般擁有經濟學和統計學等領域的學位。但不同之處在於,僅有較少的 Data Creative 擁有博士學位。Data Creative 具有深厚的業務經驗,80% 的 Data Creative 按合同工作(接專案?);40% 創立了企業,甚至比 Data Businesspeople 還多。Data Creative 還被認為是駭客。他們往往還可能有深厚的開源經驗,業餘為開源專案和開放資料專案做貢獻。Data Creative 相對更年輕,男性更多。有意思的是,他們也是最積極的回應我們最後一個問題的:“你覺得本次調查是否對你有用?”
Data Developer
Data Developer 專註於解決資料管理的技術問題 —— 如何獲取,儲存,以及學習。Data Developer 更傾向於將自己評價為科學家(在這一點上僅次於 Data Researcher)。對於那些從事機器學習和相關的學術研究的人來說,這是當然合理的。但是,還有一些 Data Developer,每日的工作僅僅是日復一日的開發程式碼。半數 Data Developer 具有電腦科學或計算機工程學位,約一半人為開源專案作出過貢獻。更多 Data Developer 會強調自己具有機器學習/大資料技能。部分 Data Developer 做過諮詢工作,承擔過管理崗位、或為開放資料專案做出過貢獻。
Data Researcher
走向“資料科學家”頭銜的職業生涯路徑中,最有趣是從在學校研究物理或社會科學開始,也有統計學專業的。許多組織已經深刻認識到,即使這些學生在校期間所學專業與企業業務領域完全不同,但他們被訓練出的利用資料瞭解複雜過程的能力仍然極具價值。大部分具備統計技能的受訪者,自認為是 Data Researcher。近 75% 的 Data Researcher 在同行評審期刊上發表過文章,半數以上擁有博士學位。(心理和政治科學學位也有可觀的數字)。Data Researcher 很少創業,而且僅有半數具有管理經驗。
關於大資料
下圖描述了對於不同數量級資料集處理的調查結果:大多數資料科學家很少直接操作 TB 級以上的資料。
T 型資料科學家
大多數成功的資料科學家既有豐富的專業經驗,還至少在資料科學的某一方面深入鑽研,如統計,大資料,或業務溝通等。這就是20世紀90年代提出的所謂的“T形技能”樣式:“T”字母頂部的橫表示廣博技能,而豎線表示在某個區域的深度鑽研。T形人才能夠更容易融入跨學科團隊,也能夠更高效地工作。資料科學領域與生俱來就具有協作性和創造性,那些成功的專業人士能夠與資料庫管理員,商務人士,以及其他具有多種互補工作技能的人合作,以使資料專案以創新的方式完成。
Data Businesspeople 具有頂級的商業能力,其他能力較弱。Data Researcher 往往具有非常深的統計相關技能,但一般說來,他們對於機器學習/大資料,商業,和程式設計技巧卻相對低。Data Developer的樣式可以被稱為“π形”,擁有強大的程式設計技巧,較強的機器學習/大資料相關技能,而其他三個技能相對中庸。最後,Data Creative 是不像T形結構的,所有技能相對平均,既不最強,也不最弱。
資料科學家和組織結構
資料人才來自哪裡?
70% 的受訪者至少擁有碩士學位,而科學領域的(社會學或物理學,而非數學、計算機、統計、或工程學科)達40%。
科學領域的研究生以上教育,提供了對真實資料的動手實踐,不僅僅描述現象,還要評價理論和辨析立場。物理學和天文學教授了嚴格的統計思維,而粒子加速器和太空望遠鏡系統則提供了大量的需要小心處理的資料流。硬科學背景為任何型別的資料科學家,尤其是Data Developer提供了良好的培訓。
另一方面,有人認為,社會科學也培養了大量的資料科學家。心理學家,經濟學家,政治學家,以及其他組織,他們在工作中需要處理的來自真實世界的混亂的,嘈雜的資料。這些領域的資料科學家可以快速清理和彙總資料,利用先進的統計技術來理解因果關係,並深入思考有關資料視覺化,展示和溝通的問題。我們在 Data Researcher 和 Data Creative中看到很多這樣的受訪者。
經典電腦科學(機器學習)和應用統計學位也是非常有效的資料科學家的起點。機器學習的重點是大規模資料處理和演演算法、結合軟體開發技能,自然應用於真實世界組織資料。許多應用統計學科則將諮詢能力、專業領域知識、以及關鍵方面有效的資料科學結合在一起。
還有不少學校也開始培養一些新興的學位,如分析、資料可續、商務智慧碩士等。
大多數當前的資料科學家往往涉足過多個領域,在不禁意之間獲得了廣泛而深入的領域知識。
從理論到實踐:實習和指導
帕蒂爾(2011)建議 “招收哪些剛剛走出大學校園的聰明而有創意的人才,再把他們投入非常嚴格的實習計劃中去。” 對於擁有足夠預算,以及高階人才輔導專案的大型組織,這樣做可能效果不錯,但對於小公司,它的實用性似乎不太好。
對於小組織來說,有個可行的替代方式(DataGotham 2012年)—— 聘請專業的顧問,幫助招聘、培訓、再整合和指導新鮮出校的資料科學家。DonorsChoose.org 意識到,僱傭資料科學家收集資料,在完成其慈善使命中具有巨大價值,他們與專家團隊一同工作達5個星期完成僱傭。僱傭之前,專家幫助這個非營利性組織瞭解到資料科學家的作用,隨後幫助新員工培訓和指導,並設定了啟動專案的成功路徑。資料科學家的廣泛的能力將對小組織非常有用,但必須有像這樣創新的方法以確保其有效性。
團隊和組織架構
首先,我們的資料顯示,資料科學家應該是T形人才,具有多樣技能,需要在技能互補的團隊中最有效率。(達文波特 2010;帕蒂爾 2011)。而不明白這一點的組織往往期望聘請一個可以做到一切的“神”。
其次,組織需要建立自己的資料科學團隊,以有效的開展工作。資料科學團隊即需要直接訪問原始資料,也需要與決策者溝通。根據我們的分析,他們具備需要多方面的技能才能充分利用資料。他們還需要得到流程管理的支援,採納和使用其結果。當資料科學團隊的產出被期望為具有完整的生命週期的軟體系統時,那麼這個團隊中就必須擁有足夠的資源去進行測試,部署和系統維護,這一點至關重要。雖然我們的受訪者都或多或少有一些程式設計技巧,並能夠承擔這類任務,但期望大多數 Data Businesspeople 或 Data Researchers 能夠高效完成這些,還是個不現實的期望。在大型組織裡,在資料科學團隊上的資金投入,與其他團隊之間的管理關係協調,包括資料基礎設施和IT員工,確實能夠實現價值。(達文波特,2010年)
職業發展
企業中的資料科學家的角色不是一成不變的,也需要職業發展的晉升機會。具有多年資料科學家經驗的員工,非常有價值,也非常難於替代。將工程師提升為領導角色需要充分衡量利與弊,還要考慮資深員工不想從事管理崗位的各種變數。在我們的調查者中,62%的承擔著管理責任;這個資料能夠顯示有多少資料科學家願意管理團隊,而不是視管理為煩惱。
在大型組織中,保留資料科學家的另一個有趣的潛在方法是設立輪崗計劃(達文波特,2010年)。在入職培訓之後,資料科學家可以在內部團隊有計劃的轉崗。產品部門可能需要個性化使用者樣式;市場部門需要在可控實驗(controlled experiments)方面的幫助;財務部門需要預測;運營部門需要流程最佳化。透過直接加入不同部門,資料科學家能夠瞭解關鍵業務的價值觀和技能,專註於部門最需要幫助的問題,並以最小代價提供解決方案。而且,透過階段性輪崗,資料科學家可以獲得更寶貴的技能和寬闊的視野,不斷提升其資料科學技能。
Author : iascchen(at)gmail(dot)com;轉自:中國統計網;
END
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀: