原文:DoingData Science Right — Your Most Common Questions Answered
作者:Jeremy Stanley, Daniel Tunkelang
品覺導讀:
-
資料產品利用資料科學和工程技術來提升產品表現,通常會帶來更準確的搜尋結果、更好的建議和自動決策。
-
資料監測需要整個公司的一致努力,要確定每款產品需要收集何種資料,同時還要建立起收集及維護這些資料的基礎設施和流程。要取得成功,資料測量需要資料科學家、工程師和產品經理通力協作,而這些都需要公司管理層的支援和投入。
-
決策科學利用資料來分析業務指標——比如增長率、互動情況、盈利驅動因素以及使用者反饋——從而為戰略和關鍵業務決策提供資訊支援。
-
你把資料科學放在公司架構中的哪個位置,這件事非常重要——對團隊本身,對其他部門以及對公司的整體成功來說,都是如此。目前有三種常見方案:獨立團隊,嵌入式團隊,以及整合型團隊。
原文翻譯:
本文的兩位作者分別是Instacart負責資料科學業務的副總裁傑裡米·斯坦利(JeremyStanley),以及技術顧問、LinkedIn前資料業務負責人丹尼爾·唐克朗(DanielTunkelang)。傑裡米編寫的資料科學家招聘指南是同類作品中最為全面的。
很難相信,“資料科學家”到2008年才成為一項真正的職務頭銜。Facebook的傑夫·哈梅巴赫(JeffHammerbacher)和LinkedIn的D.J.帕蒂爾(DJ Patil)創造了這個詞語,以充分體現市場對跨學科技能的新需求。如今,市場對資料科學家的需求與日俱增,隨之而來的還有另一種需求,即如何才能壯大這些團隊。
我們兩人都親歷過資料科學的興衰,併在多家公司領導過團隊或是擔任顧問,它們屬於不同的行業,也曾處於不同的發展階段。我們看到的挑戰不僅在於如何招聘到頂尖的資料科學家,還包括如何發揮他們的功效,以及在人才競爭激烈的市場中如何留住他們。
在這篇文章中,我們解釋了為什麼資料科學對許多初創公司都如此重要,公司應該何時對資料科學進行投資,如何在公司中安排資料科學的位置,以及怎樣打造一種讓資料科學蓬勃發展的文化。
首先,你想達到什麼目的?
資料科學服務於兩個重要但並不相同的標的:提升使用者所使用的產品以及改進公司做出的決策。
-
資料產品利用資料科學和工程技術來提升產品表現,通常會帶來更準確的搜尋結果、更好的建議和自動決策。
-
決策科學利用資料來分析業務指標——比如增長率、互動情況、盈利驅動因素以及使用者反饋——從而為戰略和關鍵業務決策提供資訊支援。
二者的區別可能聽起來簡單,但在你打造自己的資料科學團隊時,記住它們之間的區別非常重要。下麵,我們會進一步探究這兩個領域。
利用資料科學打造更好的產品
資料產品利用資料科學來提升產品表現。它們依賴一種良性迴圈,產品收集的資料能夠改進演演算法,而演演算法的改進又會提升使用者體驗。
在你收集到這些資料前會發生什麼呢?產品的最初版本必須解決資料科學所謂的“冷啟動”問題——它必須提供“足夠好的”體驗來開啟資料收集和資料驅動的良性迴圈。要拿出這種足夠好的解決方案,我們要依賴產品經理和工程師。
舉例來說,當Instacart的使用者訪問網站時,我們的應用會在“再次購買”標簽下展示其最近購買的商品。這是一項使用者喜歡的功能,但它幾乎不需要用到資料科學——或者大量資料。當我們希望向使用者推薦他們之前沒有買過的產品時,資料科學就有了用武之地。這需要分析所有使用者的購買行為,找出哪些使用者是相似的,最終基於相似使用者的購買記錄來推薦產品。這就是資料科學的舞臺,利用資料創造價值,讓使用者能夠輕易發現自己可能忽視的新產品。
為了提升產品,資料科學家必須跟工程師長期密切合作。你還需要決定,是讓資料科學家獨自完成產品的提升,還是讓他們與工程師合作。兩種方式都可以,但最好將之規範化,併在整個公司內形成一種預期。否則,產品改進將難以應用到生產中,而且你會失去那些有才華的資料科學家,因為他們感到勞無所獲,遭到輕視。
利用資料科學做出更好的決策
決策科學利用資料分析和視覺化技術來為業務和產品決策提供資訊支援。決策者可能身在公司的任何位置——可能是需要確定優先事項的產品經理,也可能是負責公司戰略決策的高管團隊。
決策科學涵蓋的範圍很廣,但它們往往具有幾個共性:它們是公司之前沒有遇到過的新問題;它們往往是主觀性的,需要資料科學家應對未知變數和缺失的背景資訊;它們是複雜的,涉及大量缺乏明確因果關係的不確定因素。與此同時,決策科學又至關重要——決策的結果是具體的,對業務有著重大影響。
以上所說的可能很像是資料分析,實際上,資料分析與決策科學之間的差異並不總是很明顯。儘管如此,決策科學不應該僅僅只是製作報表和指示板,資料科學家所做的工作不應是那種可以利用現成商業工具便可完成的工作。
LinkedIn的高管團隊利用決策科學做出了一項關鍵的業務決策,即讓使用者資料出現在搜尋結果中。以往情況下,只有付費使用者才可以看到自己網路中所有人的完整資料。可見性的規則很複雜,LinkedIn希望簡化它們——但使用的方法不能損害公司營收。這裡面的賭註是巨大的。
LinkedIn提出的可見性樣式是對非付費使用者的每月用量進行限制,超出用量即停止服務。該公司的決策科學家模擬了這一改動帶來的影響,他們利用歷史行為資料來預測營收和使用者黏性可能受到的影響。分析結果表明,公司可以走出這一步。
結果,新樣式不僅對公司業務產生了積極影響,也令數百萬使用者拍手稱贊,不僅如此,它還消除了產品開發過程中的一大難題。有些人對用量限制發出抱怨,但這部分人正是LinkedIn認為應該付費的使用者。
並非所有的決策都需要運用決策科學。有些決策太過瑣屑,運用資料科學所產生的成本並不值當。其他決策可能很重要,但公司可能缺乏能夠進行有效分析的資料。在這些情況下,公司需要依靠直覺和實驗來進行決策。優秀的決策科學家瞭解自身的侷限性,並可以判斷自己的努力是否會徒勞無功或適得其反。
雖然決策科學和資料產品需要某些相同的技能,但很少有資料科學家能夠同時擅長兩個領域。決策科學依靠的是業務和產品意識、系統思維以及強大的溝通能力。而資料產品則要求機器學習知識和生產層面的工程學技能。如果你有一支小型資料科學團隊,你可能需要找到同時擅長這兩個領域的優秀人才。不過,隨著團隊規模的擴大,你將從專業分工中受益。
你是否應該投資於資料科學?
資料科學並不是適合所有人。只有當資料科學對你的成功至關重要時,你才需要對它進行投資,否則這件事就會幹擾你,讓你付出高昂的代價。
在組建資料科學團隊之前,你應該問自己四個問題:
1. 你是否願意利用資料科學為戰略決策或資料產品提供支援?
如果答案是否定的,就不要招聘資料科學家。
資料科學家可以幫你做出戰略決策,但前提是你願意為他們營造這種氛圍。你可能不會從一開始就需要他們,但招到合適的人才需要時間——而且,他們瞭解公司的資料和業務也需要時間。在他們能夠利用資料科學來驅動決策之前,你需要把這些工作都做好。
資料產品可以透過提升最佳化程度和相關性來創造價值並取悅使用者。如果你的產品路線圖上有這些標的,你應該儘早招聘資料科學家,他們做出的設計決策能夠為你帶來長久的成功。資料科學家可以在產品設計、資料收集和系統架構方面做出重要決策,這些都是打造偉大產品的關鍵基礎。
2. 你能夠收集到所需的資料,並基於它採取行動嗎?
公司的創始工程師可以基於少量的產品和設計指導,打造出一款最小化可行產品。資料科學需要資料,而資料只有透過測量和規模化才能獲得。推薦系統依靠監測產品來追蹤使用者行為,最佳化業務決策則要依靠對關鍵活動和結果進行精密的評估。
不過,僅僅收集資料是不夠的。只有在資料能夠驅動行動時,資料科學才有價值。
資料應該為產品迭代提供資訊方面的支援,並驅動公司的關鍵績效指標。
資料監測需要整個公司的一致努力,要確定每款產品需要收集何種資料,同時還要建立起收集及維護這些資料的基礎設施和流程。要取得成功,資料測量需要資料科學家、工程師和產品經理通力協作,而這些都需要公司管理層的支援和投入。
同樣,資料驅動的決策也需要一種自上而下的承諾。包括執行長在內,公司必須利用資料來做決策,而不是誰的薪水高誰就說了算。
3. 你能從資料中挖掘出足夠多的資訊,得到有意義的啟發嗎?
很多人在大資料與資料科學之間劃等號,但資料的規模並不代表著一切。資料科學的意義在於濾掉雜音,找到資料中的有用訊號。
可用的訊號不僅取決於資料的規模,還在於“信噪比”。
舉例來說,一款廣告產品可能從數十億次的廣告曝光中收集資料,但只有在使用者跟廣告進行互動的少數情況下,資料才承載了有用的訊號。因此,大量的資料往往只能產生少量的訊號。除非資料集中擁有大量訊號,否則資料科學無法帶來有意義的啟發。
4. 你需要資料科學成為自己的核心競爭力嗎,還是可以外包出去?
打造一支資料科學團隊困難重重,而且代價高昂。如果你能透過外包滿足自己對資料科學的需求,你也許應該這樣做。一種選擇是利用外部諮詢團隊;而更好的選擇是利用現有解決方案,它們會利用應用程式介面來獲取資料、建立模型、實現自動化操作,並提供關鍵性的分析報告。你可能無法找到完美契合自身需求的解決方案,但如果能加速業務發展,讓核心團隊能夠聚焦於創造最大價值的領域,那麼在這上面做一些妥協往往也是值得的。
在何種情況下,你需要讓資料科學成為自身的核心競爭力?如果資料科學正在解決的問題對公司的成功至關重要,那麼你就不能把這些工作外包。此外,現成的解決方案往往有些死板。如果你的公司是在用一種獨特的方式解決問題(比如收集全新型別的資料,或是用全新的方法來使用資料),那麼現成的解決方案可能缺乏靈活度,它將無法滿足你的需求。
你應該從何時起步?
資料科學需要基於資料進行科學分析,而大多數公司一開始並不會掌握太多資料。
在招聘資料業務主管或建立團隊之前,要確保他們有工作可做。同時,要儘早開始收集關鍵資料,這樣,資料科學團隊就能早早地發揮作用了。
如果你還沒有掌握資料,那麼應該由誰來告訴你該收集什麼樣的資料以及何時進行收集?此人並不一定要是資料科學家,但最好要瞭解不同資料集的作用,並能夠對公司的資料投資戰略做出強硬決策。如果你已經知道會在資料收集方面花費大量的時間和金錢,那麼現在,或許是時候至少以最低限度的投資,招聘第一位資料科學家了。
如果你的業務是提供資料產品,那麼你可能立刻就需要資料。但情況更有可能是,你的最小化可行產品不需要由資料驅動。你會根據直覺來押註,並觀察市場反應。在這種情況下,過早地投資於資料收集和資料科學將浪費你寶貴的時間和金錢,而這些資源本該用於把你的最小化可行產品推向市場。
一旦你擁有可供資料科學家處理的資料,並準備好投入大量的產品、工程和業務資源來為資料科學提供支援,你應該馬上開始組建團隊。
在公司培育一種重視資料的文化,此事宜早不宜遲。從併購到產品釋出,業務決策應該基於資料而不是個人意見。儘早把資料科學引入公司,這樣做的好處之一是幫助大家形成一個觀念,即資料是最好的資產。
不過,不要僅僅因為資料科學行業很“性感”就急著去招聘。這個領域儼然已成為當下的熱門話題,因此很多人產生了一種緊迫感,想要儘快組建資料科學團隊。胸懷大志的公司急切地想招攬資料分析人才,但過早建立團隊會產生高昂的代價,不僅讓員工變得消極,還可能對企業文化產生持續的負面影響。
如果非要我們給出一則最重要的建議,那就是:在完成對最小化可行產品的驗證之後,你就可以考慮投資資料科學了。
一次成功的產品釋出應該可以產生足夠的資料以供分析,而你需要跟上“資料流”的步伐,辦法就是招聘那些可以從中找到價值、並獲得啟發的人才。
資料科學在公司架構中處於什麼位置?
你把資料科學放在公司架構中的哪個位置,這件事非常重要——對團隊本身,對其他部門以及對公司的整體成功來說,都是如此。目前有三種常見方案:獨立團隊,嵌入式團隊,以及整合型團隊。每一種方案都各有利弊,讓我們一一來分析。
獨立樣式
在獨立樣式下,資料科學團隊將成為與工程技術部門平行的獨立部門。資料科學團隊的主管將成為公司的主要領導者,通常向產品主管或工程主管報告——甚至直接向執行長彙報工作。
獨立樣式的優勢是自主權,這種型別的資料科學團隊可以自主決定去解決自己眼中最有價值的問題。此外,獨立團隊還有一個象徵性的優勢:它表明公司將資料視為一種重要資產,這將有助於公司吸引到一流人才。
決策科學團隊使用獨立樣式的效果尤為明顯。儘管決策科學家會與產品團隊密切合作,但獨立性可以讓他們發出更強硬的聲音,比如告訴產品經理,他們的產品指標還不夠好,不適合釋出。此外,決策科學家也能從團隊之間的溝通中獲益,既能更好地理解產品指標的相互依賴性,也能在實驗和資料分析方面實現相互分享。
這種獨立性的弊端在於邊緣化風險。隨著公司規模擴大,組成一個個產品團隊,他們往往傾向於自給自足。雖然與資料科學家的合作可以給產品團隊帶來好處,但他們不願依賴自己無法控制的資源。他們想依靠自己把事情做好,甚至會以“研究工程師”等名目,招聘自己的資料科學家。如果產品團隊拒絕與獨立的資料科學團隊合作,那麼後者就會被邊緣化,無法發揮應有作用。那時,公司就又會開始流失優秀人才。
LinkedIn最初的資料科學團隊就是獨立的,這使得他們可以在公司的多個產品上做出重要貢獻,比如更準確地找出使用者“可能認識的人”,以及檢測虛假賬號。不過,隨著LinkedIn的發展,獨立的資料科學團隊越來越難以同產品團隊協作,尤其是後者自身也招聘了具有類似技能的工程師。最終,該公司決定撤銷獨立的資料科學團隊。這也是意料之中的結果。
嵌入式樣式
在嵌入式樣式下,資料科學團隊負責引進人才,然後把他們派遣到公司的其他部門。公司依然會設立資料科學主管的崗位,但他(或她)更多地是扮演招聘經理和培訓師的角色。
嵌入式樣式和獨立樣式截然相反:它放棄了自主權來確保效用。在最理想的情況下,資料科學家會加入最需要他們的產品團隊,針對公司的一系列問題開展工作。
嵌入式樣式的弊端在於,並不是所有的資料科學家都願意放棄自主權。資料科學家的職位描述中強調創造性和主動性,而嵌入式角色往往要求他們聽命於自己所服務團隊的主管。
還有一種風險是,作為嵌入團隊的成員,資料科學家可能會覺得自己是“二等公民”——團隊主管覺得他們的職業發展和幸福感與自己無關,而直屬上司又覺得他們的工作不歸自己管。
我們看到一些公司在團隊中設定了資料科學經理一職,但這種方法奏效的前提是,公司的資料科學團隊要比較龐大才行。
在LinkedIn,丹尼爾親身體會了嵌入式樣式的利與弊。實際上,決策科學團隊早已利用嵌入式樣式取得了蓬勃發展。決策科學家會確保,產品團隊會基於資料資訊做出決策,尤其是涉及產品釋出的決策。與此同時,集中式管理促進了知識共享,也推動了員工的職業發展。但就像前面提到的,隨著公司規模不斷擴大,獨立資料產品團隊的發展會遭遇困難。最終,LinkedIn決定把資料科學工作整合到工程部門,丹尼爾轉任工程部門崗位,並擔任整合型團隊的主管,負責搜尋結果的質量——這個領域尤其要求工程師和資料科學家緊密合作。
整合型樣式
在整合型樣式中,公司不會設立資料科學團隊。產品團隊自主招聘並管理資料科學家。
這種樣式有利於公司內部的密切合作。透過讓資料科學家成為產品團隊的主要成員,整合型樣式彌補了獨立樣式和嵌入式樣式在這方面的缺點。在整合型樣式下,資料科學家、軟體工程師、設計師以及產品經理有著相同的工作標的,這增加了他們的團隊歸屬感。這樣,就可以避免團隊標的南轅北轍抑或是凝聚力不夠所導致的裂痕。
整合型樣式的弊端在於,它會弱化資料科學家的身份認同感。資料科學家的身份是與自己所在的產品團隊聯絡在一起,而不是一個集中的資料科學團隊。此外,這種樣式也缺乏嵌入式樣式的靈活性,因為你很難基於資料科學家的技能和興趣進行調崗。還有一點,整合型樣式為資料科學家的職業發展設定了障礙,因為整合型團隊的主管可能不是評估或獎勵他們的最佳人選。
在Instacart,資料科學家已被完全整合到產品團隊中。這些團隊有自己的產品領域,可能是實時的訂單執行工具,也可能是使用者在購物時使用的應用,或者是搜尋和推薦服務(該公司內部有15支這樣的團隊)。
每一支團隊都有工程師、資料科學家、設計師和產品經理,其中工程師和資料科學家向技術主管彙報工作——技術主管自己可能就是工程師或資料科學家。這種架構確保了工程師能夠與資料科學家密切合作,並且讓他們有權去做任何事,只要是服務於團隊標的即可。作為Instacart的資料科學副總裁,傑裡米充當著資料科學家及其團隊主管的導師。他把資料科學家聚攏在一起,服務於不同的產品團隊。他還領導著整個公司的資料科學專案。
這三種樣式各有利弊,你必須確定哪一種最適合自己的公司,還要想清楚你希望它今後如何發展。隨著需求的變化,要做好準備隨時調整。有時候,最佳方案並不是單一的樣式,而是相互結合。正如安迪·格魯夫(Andy Grove)在《高產出管理》(HighOutput Management)一書中寫道的:
優秀的管理是集權和分權的調和,是在響應市場和發揮組織力量之間,求取最佳組合的平衡藝術。
【end】
本次轉自:品覺 微信公眾號(pinjueche.com)
車品覺簡介
暢銷書《決戰大資料》作者;國信優易資料研究院院長;紅杉資本中國基金專家合夥人;浙江大學管理學院客席教授;全國信標委員;資料標準工作組副組長;美麗心靈基金會桑珠利民基金副主席。
原阿裡巴巴集團副總裁,首任阿裡資料委員會會長;現擔任中國資訊協會大資料分會副會長、中國計算機學會大資料專家委員會副主任、粵港資訊化專家委員、中國計算數學學會第九屆理事、清華大學教育指導委員(大資料專案)、浙江大學管理學院客席教授等職。