導讀:組建一個出色的資料團隊都需要哪些角色?Google 的首席決策工程師 Cassie Kozyrkov 在這一問題上有自己獨到的見解。在她看來,一個好的 AI 和資料科學團隊需要 10 種不同的角色。無論你是公司的管理者、招聘者,還是想在資料科學領域工作的求職者,都可以在這篇文章中找到對自己有用的資訊。
作者:Cassie Kozyrkov
譯者:linstancy、王天宇
來源:AI科技大本營(ID:rgznai100)
▲Google 的 Geoffrey Hinton 是我的偶像,也是深度學習領域的開山鼻祖,但我不希望一個團隊中有10個 Geoffrey Hinton 這樣的成員而沒有其他角色
應用資料科學是高度跨學科的領域,依賴於整個團隊的共同協作,多角度的觀點尤為重要。事實上,觀點和態度的重要性僅次於教育和經驗。
如果你想要透過智慧的工程決策方法使資料變得有用,並且希望從事相關的職業,那麼下麵我對團隊發展中的角色順序(從0開始)提出的看法或許對你會有幫助。
00 資料工程師
在資料分析之前,你要獲取所需的資料。如果你需要處理的是小型資料集,那麼資料工程實際上就是在電子錶格中輸入一些數字。但當你需要處理大規模資料時,資料工程本身就成為了一門複雜的學科,就需要團隊中有一個人來專門負責處理棘手的工程問題,以便團隊中其他人基於此協同工作。
01 決策者
在你想聘請一位博士畢業的資料科學家前,其實更需要擁有一位瞭解資料驅動決策的科學決策者。
他主要負責決定哪些問題可以用資料來解決,進行初步規劃,並從商業角度來確定所需的分析級別。一位深思熟慮的人,他不會一直說,“哦,哎呀,我在思考這個決定時甚至都沒有想到這種狀況。” 作為決策者要考慮周到,思考所有可能的情況並作出決策。
02 分析師
資料分析師是你下一個需要考慮的角色。他有能力檢視資料、瞭解資料結構並從中獲得靈感,唯一的不足是他可能對這項工作中需要使用的軟體並不熟悉。如果你看過數碼照片,那麼你已經接觸過資料視覺化及分析了。
學習使用 R 和 Python 等工具只是對 MS Paint 進行資料視覺化的升級;它們是用來檢視多類別資料集的一種多功能視覺化工具,而不僅僅是 RGB 畫素矩陣。
分析師可以利用飯後時間多觀察資料,從中找到些靈感,肯定比不做這些要好。如果整個團隊的成員都這麼做的話,那麼你一定可以比其它不這樣做的團隊更能把握行業的命脈。
▲Nessie 1934:這是資料,請明智地給出結論
有一點非常重要,作為一名資料分析師,所做出的任何結論都不能脫離資料。這是一種需要專業訓練的技能,就如上面的照片一樣,你可以說:“這就是我的資料所要展示的內容。”但不要因此給出結論,如“尼斯湖水怪真的存在”這樣的言論。
03 專業分析師
這是一個節奏很快的角色。勝任這份工作的人要能夠更快速地檢視更多資料。快速處理資料,並善於探索發現有趣的東西是這類人才所需的技能!同時,這一角色不需要給出小心嚴謹的意見,而是幫助團隊盡可能多地關註資料本身,以便讓決策者瞭解真正值得關註的因素。
這可能與我們的直覺想法不同,但不要把這樣的工作交給你最信任的,那些很會寫程式碼的工程師去做。我們需要的不僅是能夠快速工作的人才,還盡可能快地發現資料背後潛在的資訊,而對於那些樂於程式設計的工程師來說,觀察資料可能是比較難的,因此也就很難勝任這份角色的工作。
我曾見過一名分析師被工程文化濃厚的團隊欺負,因為團隊成員顯然沒有意識到所謂“優秀程式碼”很難用描述性分析進行解釋。正是如此,這裡的“優秀”指的是“高效和謙虛”。如果一個高效但粗心的程式員無法融入團隊,他們自然會離開,而這也證明瞭自己對業務反應敏捷。
04 統計學家
現在,我們已經找到幫助我們分析資料的員工了,而統計學家能夠協助決策者在分析資料後得到嚴謹、有依據的結論。
我們最好還是控制一下這種”喂資料”的瘋狂。如果你能剋制住學習真實情況之外的衝動的話,那麼看“Nessie”這張圖沒問題。但是你會剋制住嗎?儘管人類非常擅長於合理分析圖片,但其他資料型別似乎無法用常理解釋。所以,統計學家的出現可能有助於團隊在分析資料後得到嚴謹、有據的結論。
例如,如果你的機器學習系統正在一個資料集上工作,那麼所有你能得出的結論都是基於該資料集的。換句話說,你的系統在該資料集上是起作用的,但它在生產過程中也一定會起作用嗎?你能得出這個結論嗎?這時候你就需要一些額外的技能來處理這些問題,統計方面的知識或許能幫到你。
靈感是很便宜,但嚴謹的態度是昂貴的。很多時候我們可以用純粹的靈感來滿足自己。
在你需要認真做出一個決定之前,如果還沒有完全地認識到事實真相的話,那麼請放慢速度,謹慎思考。
05 應用型機器學習工程師
對於一個應用型的 AI /機器學習工程師來說,最好的品質並不是知曉演演算法如何工作。工程師的日常工作是使用這種演演算法,而不是構建它們 (這是研究人員所做的事)。我們需要的是那些擁有與現有演演算法匹配的程式設計能力,並應用於資料集的工程能力。
除了需要快速程式設計的能力,這類工程師還需要具備能應對失敗的品質。你可能永遠不會知道你正在做什麼,即使你的意識裡覺得自己正在做。透過演演算法盡可能快地執行資料,並檢視演演算法是否能夠正常工作……在這過程中你可能會經歷遠多於成功的失敗過程。這類工作很大一部分需要工程師去不斷地嘗試,因此你需要不斷應對失敗的過程;同時,具備從容應對失敗的能力,將讓你更好地勝任這份工作。
由於日常所碰到的業務問題是無法在教科書中找到,因此你事先也無法知道什麼演演算法會起作用,你也不能期望在第一時間獲得完美的結果。你只能盡可能快地嘗試很多方法,並不斷迭代以找到最好的解決方案。
談到“針對什麼資料用什麼演演算法”這個問題,對於分析師而言,他們會認為這些輸入很有意思。這也不難理解為什麼要先有資料分析師了。
雖然在問題解決過程會碰到很多磕磕絆絆,但機器學習工程師必須要嚴謹地深入方法評估這個至關重要的部分。得到的解決方案是否真的適用於新資料呢?幸運的是,你在之前已經有了一個明智的決定,現在需要做的是將這個接力棒傳給統計學家。
此外,最強的應用型 ML 工程師要非常清楚應用不同方法所需要的時間。
06 資料科學家
在這裡,我所說的資料科學家,是具備前面提到的三個角色技能的全面專家。不是每個人都使用我這裡的定義,也有具備三選一的專家能力時也自稱自己是“資料科學家”,在這裡需要註意區分一下。
在資料科學團隊中,我將這個角色排在第6位,因為能夠聘請到一個真正集三者技能於一身的資料科學家,是一個昂貴的選擇。如果你有足夠的預算,那麼這是一個不錯的選擇。但如果沒有充裕的經費,可以考慮培養現在具備單一技能的專家。
07 分析經理/資料科學領導
分析經理是一個是資料科學家和決策者的混合體角色。他們在團隊中的角色是凝聚整個團隊的力量,以確保團隊中的人員不會分崩瓦解,而不是為日常業務增加價值。這是一個非常少見、也非常難僱傭的角色。
每天他都需要保持清醒的頭腦,思考諸如“如何設計問題更合理? 如何做決策?如何最好地分配我們的專家?什麼值得做?技能和資料是否符合要求?如何確保輸入資料的質量?”等問題。
如果你能夠聘請到一位這樣的分析經理,那麼恭喜你和你的團隊,你們很幸運,請盡可能地留住這樣的人才,永遠不要讓他離去。
08 定性專家/社會科學家
有時候,你的決策者是一名優秀傑出的領導者,經理人,激勵者,影響者或導航者……但他們在做決策時可能並不具備藝術性和科學性。做決策不僅僅需要天分。如果你的決策者在這方面沒有很扎實的能力,那麼他們帶來的損害可能多與收益。
請不要解僱一個技能不夠純熟的決策者,你可以透過專家定性幫助他們提升自身技能。
這類人通常具有社會科學和資料科學的背景,如行為經濟學家,神經經濟學家和接受過專業培訓的 JDM 心理學家,而那些自學成才的人也能夠擅長這份角色。這項工作是幫助決策者理清思路,審視所有角度,並將模稜兩可的直覺感受轉化為成熟的、語言形式的指令,使團隊的其他成員也能夠輕鬆地執行。
通常,定性專家在會完全瞭解並掌握所有的情況的基礎上,幫助決策者進行決策,而不是片面地對某些情況。他們是值得信賴的顧問,頭腦風暴的夥伴,以及決策者的參謀人。他們的參與可以確保專案朝著正確的方向進行。
09 研究者
許多經理在招聘時認為,團隊的第一個成員需要有過當教授的經驗,但實際上你並不需要那些博士學位的人才,除非你已經知道這一領域的現有演演算法都已經不能滿足你的需求了。但大多數的團隊通常都不會提前知道,因此只能按照正常招聘流程,這就好比你想在太空中使用一支筆之前,你得先保證這支筆是能夠正常地工作。你可以先試著開始,當現有的方法都不能解決你的問題時,再考慮聘請相關的研究人員。
不要給研究者貼上特殊的標簽。最好的是,等到團隊發展到一定程度,足以意識到需要研究人員的時候再考慮請他們加入。但這樣也會存在一個問題,換句話說,等到你用完所有可用的工具之後,再僱用你所需要的人,通常需要更昂貴的成本。
▲在發明在太空筆之前,請檢查現有筆是否能夠正常工作並滿足我們的需求
10+ 額外人員
除了以上提到的這些角色,下麵我還列舉了一些我比較喜歡的角色,這些角色也將在未來的智慧決策專案中發揮重要的重要:
-
領域專家
-
倫理專家
-
軟體工程師
-
可靠性工程師
-
UX 設計師
-
互動式視覺化/圖形設計師
-
資料收集專家
-
資料產品經理
-
專案經理
許多專案離不開這些角色,之所以沒將這些列入前10名,主要是因為做決策並不是他們的主要業務。相反,他們都是各自學科的人才,並能為各自領域專案的資料學習和決策制定做出有用的工作。可以把這些角色想像成各自領域的專家,並對智慧決策充滿興趣。
大團隊 or 小團隊?
讀到這裡,你可能已經不堪重負了。這麼多需要瞭解的角色!深吸一口氣,根據自己的需要,你可以從前幾個角色中獲得足夠多有價值的資訊。
我曾將應用型機器學習比作在廚房中烘焙:如果您個人想要開一家工業規模的比薩店,那麼你需要一個大的製作團隊或需要與一些供應商/顧問合作。如果你想利用週末時間製作一兩個獨特的披薩,如焦糖鳳尾魚披薩,
那麼你仍需要考慮我們所提到的所有角色,包括你要決定做什麼 (角色1),使用哪些配料 (角色2和3),在哪裡獲得配料 (角色0),如何定製食譜 (角色5),以及如何測試披薩的口味 (角色4),以便製成品能給人留下深刻印象。但如果你只是想用來消遣的話,你可以自己承擔所有的工作。
當然,如果你的標的只是製作標準的傳統披薩,那麼你甚至不需要上述提到的這一切:你只需要拿來別人已經嘗試和測試過的配方和配料(無需親自重覆發明),就可以開始烤披薩啦!
原文連結:
https://hackernoon.com/top-10-roles-for-your-data-science-team-e7f05d90d961
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞
檢視更多優質內容!
PPT | 報告 | 讀書 | 書單 | 乾貨
Python | 機器學習 | 深度學習 | 神經網路
區塊鏈 | 揭秘 | 高考 | 福利
猜你想看
Q: 你是其中的哪種角色?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視