沒有商業意識的資料科學就像下棋沒有國王在棋盤上。對於每個企業來說,使其產品或服務更好是資料科學專案的最終標的。不考慮這一點是荒謬的。
【需要加入資料人圈子,請加微信:luqin360】
您的資料團隊可以使用最好的程式員和最好的統計人員,但是如果他們不知道他們的資料專案的實際業務應用,那麼整個事情將毫無意義。
商業資料科學思維
你註意到我寫的標的是提高產品或服務的質量,而不是產生更多的利潤嗎?這並不意味著你不會因為你的資料科學專案而賺更多的錢。我想強調一下重點。
在高層次上,您可以透過資料科學實現兩件事。
1 更好地理解你的聽眾。瞭解他們的需求、他們的掙扎、他們的動機、他們的習慣以及他們與你的產品或服務的關係。
2 利用這種認識創造更好的產品或服務,並將其轉化為利潤。
順序很重要。
你的首要任務應該是幫助你的使用者。這樣做,你的產品或服務將蓬勃發展。更好的產品或服務將為你帶來更多的使用者,更多的回頭客,最終帶來更多的收入。
如果你喜歡這種心態,你就會喜歡這篇文章。如果不是,那可能不是為你所喜。
註:我寫這篇文章主要是為了線上商務。如果您沒有經營線上業務,您仍然可以進行類比,並將您在這裡學到的東西應用到您自己的特定用例中。
一個逐步的資料科學專案
從資料到資訊——從資訊到更好的決策一個逐步的資料科學專案
在其核心,(幾乎)每個資料專案在您的業務中扮演相同的角色。資料科學幫助你做出更簡單、更快、更好的決定。
這聽起來很簡單,但在現實生活中卻很複雜。
讓我們來看看資料科學專案的六個典型步驟:
- 資料獲取
- 資料儲存
- 資料清洗
- 資料分析
- 溝通和資料視覺化
- 資料驅動決策
每一步都有自己的挑戰。讓我們一個一個地看一遍,這樣我就可以向你展示在每一步你應該意識到的主要挑戰——預防或解決它們。
(1)資料收集——許多企業已經失敗了
“垃圾進,垃圾出。”——正如眾所周知的資料原則所說。,這是真的。
太多的資料專案在第一步就失敗了。太多的公司收集了不完整、不可靠的資料,之後他們所做的一切都是一團糟。
來自真實公司的真實故事:我們做了一個a /B測試,作為為期兩個月的綜合研究的最後階段。這是一個複雜的實驗,包括許多漏斗步驟和網頁。它應該執行30天,以收集足夠的資料點,以獲得具有統計意義的結果……
唯一的問題是,在實驗的第二週快結束時,一個新聘請的初級開發人員從我們測試的一個網頁上刪除了我們的一個跟蹤程式碼。(他說他不知道程式碼片段做了什麼,所以刪除了它。我很憤怒。當我回想起這個故事時,我仍然是這樣。)
重點是:我們只是在30天測試期結束時才意識到程式碼被刪除了。即使它只是一個很小的子頁面(這個問題導致了大約5-10%的資料差異),我們也不得不丟棄整個A/B測試專案,並從第一天開始重新啟動它,因為有一半的實驗是基於傾斜的資料。
這個故事中最糟糕的不是我們必須重新執行A/B測試,而是我們再也不能信任我們的資料了。在得出結論之前,我們總是要反覆檢查每一件事。這讓我們慢了好幾個月。
這個故事的啟示是:正確的跟蹤和資料收集對於每一個從事資料科學的企業都是至關重要的。我的具體建議是,在您的團隊中至少有一個人負責資料收集,並且每個月至少檢查一次與資料相關的所有內容。
收集什麼?
我收到很多關於收集什麼和不收集什麼的問題。我將在以後的文章中詳細討論這個問題。在此之前,我的一般回答是:這取決於許多因素。
在我工作的公司裡,我們幾乎總是舉辦研討會來確定我們需要收集什麼以及如何收集。
一般的想法是收集所有你能收集到的東西——因為現在資料儲存相對便宜。
但你必須記住,你在網站上追蹤的東西越多:
- 您應該分配更多的工程時間來實現和維護跟蹤。
- 你的網站或應用程式將執行得越慢(這裡我們說的是微秒——但是它可以很容易地累加起來)。
- 您的資料基礎設施變得越複雜。
- 等等…
註意:還要考慮法律和倫理方面!
(2)資料儲存和(3)資料清理——自動化,不要忘記維護它
資料儲存和資料清洗是資料工程師的職責。這是一項技術性很強的工作,但通常你不必太擔心。它只是一個定義明確的工作,所以當你僱傭一個(好的)資料工程師時,她將確切地知道如何處理你的資料業務的這一部分。沒有太多的陷阱。另外,它的很大一部分可以自動化,所以非常方便。
雖然這對您的業務不是一個主要威脅,但是我有一個故事,我的一個(資料科學家)朋友早上來到他的辦公室,開啟他的膝上型電腦,發現他們在一夜之間丟失了大約40%的歷史資料。
那天我在他們的辦公室,我可以告訴你:我從來沒有見過資料工程師有這麼大的壓力。永遠。(順便說一句,這個問題是一個意外的軟體更新,導致一個重要的資料清理指令碼中斷。)幸運的是,他們足夠聰明地為這個事件做了準備,並且在其他伺服器上備份了他們的歷史資料。
儘管如此,這很好地說明瞭資料儲存和資料清洗是一個應該持續維護的專案,也是一個應該為“危機情況”做好準備的地方。
大資料
關於資料儲存,還有一件事……這是談論“大資料”的好地方。
這是商業資料科學中的一個常見術語。很多書都有一個朗朗上口的標題——“大資料”。“許多記者在文章中使用它。許多經理喜歡這麼說……
丹·艾瑞里說對了:
大資料就像青少年性愛:每個人都在談論它,沒有人真正知道怎麼做,每個人都認為其他人在做,所以每個人都聲稱自己在做…… DAN ARIELY
什麼是大資料?
首先,這是一個技術概念。
讓我再講一個故事來解釋它是什麼。(它也會幫你弄清楚什麼時候你需要它。)
在我工作過的一家初創公司,當我們第一次設定自動化資料清理和分析指令碼時,大約有10萬使用者。每個午夜都會執行一些指令碼,當我們到達辦公室時,更新後的數字已經自動新增到公司的儀錶板上。
一切都很好很乾凈。
然而,公司發展迅速。
快進2.5年:我們有~ 10000000 使用者(使用者)100倍,更複雜的資料日誌(因為我們想收集更詳細的資料),更多的自動資料指令碼(因為我們想監控更多的事情)…一句話:我們的資料伺服器要處理一個指數級別和不斷日益繁重的工作負擔。
直到有一天,我們到了辦公室,新的每日資料才顯示在儀錶盤上。我們看了一下指令碼——它們仍然在執行。儘管我們使用了一個非常強大(而且昂貴)的伺服器來完成所有的計算,並且我們的指令碼編寫得非常高效,但是它們最終運行了10個多小時。
這就是大資料技術發揮作用的時候。大資料的概念是連線多臺計算機來管理所有這些計算。根據公司(和資料)的大小,它可以很容易地成為由10臺、100臺甚至1000臺計算機組成的叢集。聽起來很簡單,但從技術角度來看,使用大資料可能非常具有挑戰性。
總之,這就是大資料。
再次強調:這是一項技術性很強的工作,如果你僱傭優秀的(大)資料工程師,他們會知道該怎麼做。
註意:如果您想瞭解更多關於技術部分的資訊,您想要谷歌的關鍵字是“apache spark”和“apache hadoop”。
(4)資料分析——提取價值
這就是商業資料科學令人興奮的地方——至少對商業人士來說是這樣。
資料分析師是雕刻家。
她得到一個資料塊,然後不斷地雕刻,直到她得到一些真正特別的東西。
這確實是一個創造性的過程。
我本質上是一名資料分析師,從我的經驗中我知道,當你面前有一大堆資料時,可能會非常嚇人。
通常,你不知道從哪裡開始。
但是有一些指導方針可以幫助你。以下是幫助我的前三件事:
1. 好問題。
為了得到有用的答案,你必須問正確的問題。這通常來自管理層(或其他同事),他們已經根據自己的經驗產生了懷疑。
在這種情況下,資料分析師的主要工作是證明或反駁這些懷疑(讓我們稱之為假設)。
註:一個常見的誤解是,推翻一個假設是倒退一步。人們把它看作是一個想法的失敗,但這是錯誤的思維方式。當一名優秀的資料分析師證明或反駁一個想法時,她會在整個過程中發現許多新東西,因此她可以提供一個或多個比最初的想法更好的替代解決方案。
讓我也強調“好問題”這句話的好處。回答錯誤的問題會大大推遲資料專案的進度。不好的問題可能是:
- 不重要的問題(“如果我們改變一個畫素的標誌大小會發生什麼?”)
- 與業務無關的問題。
- 模糊的問題(“人們如何喜歡我們?”)
- 或者是我們沒有(也不會)資料來回答的問題。
2. 定性研究。
通常,當我不知道從哪裡開始我的資料分析時,我就會去我所諮詢的公司的UX部門,看看他們的可用性測試結果。另外,我真的很喜歡參加可用性測試(或者觀看記錄)。
沒有什麼比看到一個真正的使用者與您的產品進行互動更好的了。只看5-6個UX測試就能給你至少10-20個開始分析專案的想法。
3.最佳實踐。
現在我是一個更有經驗的資料分析師,我知道一些資料分析技術,值得我開始研究。
它實際上取決於給定的資料專案和特定的業務用例。
但在線上企業,我通常從漏斗分析、分群或留存分析專案開始我的發現過程。(關於這一點的更多資訊將在後面的文章中介紹。)
如果你今天從商業分析開始
如果你從今天的商業資料科學開始,我建議你在做其他事情之前先專註於一件特定的事情。
這就是找到你最重要的指標。
你會發現很多關於這個主題的書都有這樣的名字:
- OMTM – One Metric That Matters (by Croll & Yoskovitz)
- WIG – Wildly Important Goal (by McChesney & Covey)
- North Star Metric (by Sean Ellis)
- Etc.
不同的名字,相同的觀點:
你必須找出你最重要的度量指標。
你應該把這個指標放在所有其他指標之上——衡量它,並把它作為你的主要關註點。
- 一個好的最重要的度量指標是:
- 簡單(這樣你公司的每個人都能立即理解)
- 可測量的(所以它是一個實際的數字)
- 描述你的商業標的非常好(所以它實際上很重要),而且……
- 只有一個!(是的,我知道,很難找到一個度量指標。但這是可能的——一旦你擁有了它,它將非常有用!)
(註意:實際上還有更多的因素可以構成一個好的主要度量指標……但是讓我們首先嘗試滿足這四個條件!)
讓我們舉一個最簡單的例子:一家成熟的電子商務企業。
對於運營了10年以上的線上電子商務企業來說,什麼是最佳的頭號關鍵指標?
當然,這是收入!為什麼?因為它是簡單的。(例如,對你公司的每個人來說,計算和理解利潤就會困難得多。)這很容易測量。它反映了公司的商業標的。它是一個單一的指標。完美的。
對於成熟的電子商務企業來說,情況很簡單。在其他業務中(例如早期初創企業,更複雜的業務模型,等等),要弄清楚可能要困難得多。對於我的許多客戶來說,找到一個最重要的指標需要幾個小時的內部研討會。
但到目前為止,每個人都能找到它。所以你能!
(5)資料溝通——資料和資訊傳遞給業務人員
這是大多數資料科學專案失敗的地方。
很有趣,不是嗎?
你可以用世界上最好的資料集做最好的分析師,但是如果你不能有效地交流你的發現,你將沒有任何影響。
這是每個資料專家的噩夢。
這裡有相當多的障礙。我也見過他們所有人:資料懷疑論者(或者乾脆是愚蠢的)同事、過於複雜的簡報、難以閱讀的圖表……
事實上,為了建立一種人們可以交流和使用資料的文化,公司中的每個人都需要參與進來。
我有兩個具體的建議:
1 教育!
資料專業人士應該每週都做報告——不僅要介紹他們最近的發現,還要說明為什麼資料科學對公司很重要。從資料分析師做什麼、資料科學業務如何工作、同事如何為自己構建自我服務的資料解決方案等方面入手。
商業人士也應該教育資料科學家。他們應該幫助他們創造和發表更好的演講。我真的很感謝我工作的公司,因為他們經常送我去參加演講培訓。另外,在我向整個公司展示我的簡報之前,我的經理們也和我一起坐下來回顧了我的簡報——這樣我們就能確保我真的把它寫在了舞臺上。它對每個人都有很大的幫助。
保持簡單。
你的交流應該盡可能的簡單!
- 沒有花哨的科學詞彙(你不想炫耀),
- 沒有複雜的圖表(你不必展示所有東西),
- 沒有無窮無盡的電子郵件(你想讓人們讀你寫的東西)。
如果你能在一個折線圖中展示你的資料驅動的結論,並用一句話解釋它們,你就應該這麼做。每個人都會為此感到高興。
註意:我在本文中編寫了更多關於資料演示原則的內容:資料專業人員的演示技巧。
(6)資料驅動決策——為什麼資料驅動的管理者很重要?
你聽說過“HIPPO”這個縮略語嗎?
它代表著高薪人士的意見,幾十年來一直是一種完善的商業決策方法。
多虧了資料科學,情況不再如此。
然而,並不是每個經理都準備好迎接這種變化。即使是一個執行得非常好的資料專案,在這一點上也可能(並且將會)失敗,因為您傷害了某人的感情或自尊。我知道這聽起來很糟糕,但這是難以忽視的事實。(尤其是在員工超過500人的大公司。)
可以透過儘早建立資料驅動的公司文化來防止這種情況。(當你有10-50名員工時,我通常建議你開始考慮你的資料策略。)
在一家更大的公司,讓你的組織以資料為驅動的難度將呈指數級增長。
同樣重要的是,讓你的經理參加資料研討會,並確保他們有著正確的心態。
商業資料科學=將100億個資料點壓縮成一個“是”或“不是”!
以下是線上商業資料科學專案的六個步驟:
- 資料收集
- 資料儲存
- 資料清理
- 資料分析
- 溝通、資料視覺化
- 資料驅動的決策
您能看出這是如何將無限數量的資料壓縮成一個簡單的是或否的決策嗎?
這就像從花叢中提取精華。
這需要努力工作,但在任何意義上都是有回報的。
如果你能收集到正確的資料並很好地加以利用,你就能更快、更容易地做出更好的決定。這將帶來更好的產品,更快樂的客戶,最終帶來更多的收入。這就是商業資料科學的意義所在。
三大資料科學商業應用
我想多談談步驟(3)資料分析,因為這是一個非常廣泛的主題。
將資料轉化為價值的機會有很多。
更具體地說,在線上企業中,以下是資料科學的三個最常見的實際應用:
(A)業務分析(又稱描述性分析)。
它回答了“過去發生了什麼?”和“我們現在在哪裡?”
(例如報告,測量留存率,找到合適的使用者群,漏斗分析等)
(B)預測分析
它回答了這樣一個問題:“未來會發生什麼?”
(例如:早期預警(預測下個月哪個使用者會取消她的訂閱),預測下個季度你需要的營銷預算,等等)
(C)基於資料的產品
使用歷史資料的產品。
(例如自學聊天機器人、推薦系統、影象識別、語音識別等)
其中哪一個帶來了最大的商業價值?
要回答這個問題,你的關鍵詞是:
ROI -投資回報。
從純業務的角度來看,資料科學是對資源的一種投資,您希望從中獲得某種回報。
問題是:上述三個專案中,哪一個對你現在的業務最有價值?
業務分析?預測分析?或者開發基於資料的產品?
這是一個開放的問題,只有你知道答案。但我總是能從我的客戶那裡看到一個普遍的樣式。
每個人都對預測分析、機器學習和基於資料的產品(如聊天機器人)非常感興趣。然而,許多這樣的公司:
- 沒有一個清晰的漏斗(他們一步一步地測量)
- 不太瞭解他們的關鍵指標(更不用說最重要的指標了),
- 在重要的使用者群上沒有明確的數字
- 見鬼,有時候他們甚至不知道他們有多少使用者(或付費使用者)
- 等等
這些都是(A)商業分析和描述性分析問題。
在您知道這些問題(以及其他簡單但重要的業務問題)的答案之前,您還不應該進行機器學習專案。
如果你認識自己,我強烈建議你:首先投資商業分析和簡單的報告。透過回答這些基本問題,您將產生巨大的業務價值:您將看得更清楚,您將更好地理解您的受眾。
誰知道呢,也許透過瞭解使用者的需求,您就可以在您的產品中描繪出使用者對影象識別系統的需求,並且在幾個月內(當業務資料科學基礎已經設定好),您也可以開始著手於此。
計算投資回報,先做簡單的資料科學專案!
結論
綜上所述,您的商業資料科學專案將包括六個主要步驟:
- 資料收集
- 資料儲存
- 資料清理
- 資料分析(在這裡,您可以從事業務分析或預測分析專案——或基於資料的產品)
- 溝通、資料視覺化
- 資料驅動的決策
所有這些步驟都伴隨著獨特的挑戰,它們共同構成了一個複雜的系統。本文為您提供了一些實用的技巧,但是當您開始構建自己的資料基礎設施時,您將瞭解全域性並將所有內容置於背景關係中。
這是一個困難的專案,但它將給你帶來各方面的價值:更好的產品,更快樂的客戶和更多的收入!
如果這篇文章對你有用,請考慮給這篇文章點贊,並與朋友和/或同事分享。
如有任何問題或其他討論,請隨時發表留言。
朋友會在“發現-看一看”看到你“在看”的內容