歡迎光臨
每天分享高質量文章

【智慧】資料科學管道初學者指南


筆者邀請您,先思考:

1 如何學習和應用資料科學?

一端是帶入口的管道,另一端是出口。 管道上還標有五個不同的字母:“O.S.E.M.N.”

“信不信由你,你和資料沒什麼不同。 把自己置身於資料之中,你會明白為什麼。“

曾幾何時,有一個名叫Data的男孩。 在他的一生中,他總是試圖瞭解他的目的是什麼。 我有什麼價值觀? 我可以對這個世界產生什麼影響? 資料來自哪裡? 看到你和資料之間的任何相似之處? 這些問題始終在他的腦海中,幸運的是,憑藉純粹的運氣,Data終於遇到了一個解決方案,並經歷了一次巨大的變革。

這一切都始於資料沿著行走,當他遇到一個奇怪但有趣的管道時。 一端是帶入口的管道,另一端是出口。 管道上還標有五個不同的字母:“O.S.E.M.N.”。 像他一樣好奇,Data決定進入管道。 長話短說……來了資料和出來的洞察力

說明:本文將簡要介紹對典型資料科學管道中的預期的高階概述。 從構建業務問題到建立可操作的見解。 不要擔心這將是一個容易閱讀!

資料科學是OSEMN

你真棒。 我真棒。 資料科學是OSEMN。 您可能會問為什麼資料科學“很棒”? 好吧,作為有抱負的資料科學家,你有機會磨練你的巫師和偵探的力量。 透過巫師,我的意思是擁有自動預測事物的能力! 透過偵探,它能夠找到資料中未知的樣式和趨勢!

瞭解資料科學管道如何工作的典型工作流程是邁向業務理解和解決問題的關鍵步驟。 如果您對資料科學管道的工作原理感到恐懼,請不要再說了。 這篇文章適合你! 我從Hilary Mason和Chris Wiggins那裡找到了一個非常簡單的首字母縮略詞,您可以在整個資料科學管道中使用它。 那是O.S.E.M.N.

OSEMN管道

O – 獲取我們的資料
S – 清洗我們的資料
E – 探索/視覺化我們的資料將使我們能夠找到樣式和趨勢
M – 對我們的資料建模將為我們提供作為嚮導的預測能力
N – 解釋我們的資料

業務問題

因此,在我們開始OSEMN管道之前,我們必須考慮的最關鍵和最重要的步驟是瞭解我們試圖解決的問題。 讓我們再說一遍。 在我們開始使用“資料科學”做任何事情之前,我們必須首先考慮我們試圖解決的問題。 如果你想解決一個小問題,那麼最多你會得到一個小解決方案。 如果您有一個大問題要解決,那麼您將有可能獲得一個大的解決方案。

問你自己

  • 我們如何將資料轉換成美元?

  • 我想對這些資料產生什麼影響?

  • 我們的模型帶來了什麼商業價值?

  • 什麼會為我們節省很多錢?

  • 如何才能使我們的業務更有效地運營?

“把錢拿出來!”

瞭解這一基本概念將帶您走得更遠,並帶領您邁向成為“資料科學家”的更大步驟(我相信…對不起我不是一個!)但是,這仍然是您必須邁出的非常重要的一步 做! 無論您的模型預測得多好,無論您獲得多少資料,無論您的OSEMN管道如何 ……您的解決方案或可操作的洞察力只會與您為自己設定的問題一樣好。

“好的資料科學更多地是關於你對資料提出的問題,而不是資料處理和分析” – 萊利紐曼

獲取您的資料

在沒有任何資料的情況下,您無法做任何資料科學家的事情。 根據經驗,在獲取資料時必須考慮一些事項。 您必須識別所有可用資料集(可以來自Internet或外部/內部資料庫)。 您必須將資料提取為可用格式(.csv,json,xml等)。

所需技能:

  • 資料庫管理:MySQL,PostgresSQL,MongoDB

  • 查詢關係資料庫

  • 檢索非結構化資料:文字,影片,音訊檔案,檔案

  • 分散式儲存:Hadoops,Apache Spark / Flink

擦洗/清潔您的資料

清理第5列! 管道的這個階段應該需要最多的時間和精力。 因為您的機器學習模型的結果和輸出僅與您投入的結果和輸出一樣好。 基本上,垃圾進垃圾出。

目的

  • 檢查資料:瞭解您正在使用的每個特徵,識別錯誤,缺失值和損壞記錄

  • 清理資料:丟棄,替換和/或填充缺失的值/錯誤

所需技能

  • 指令碼語言:Python,R,SAS

  • 資料處理工具:Python Pandas,R

  • 分散式處理:Hadoop,Map Reduce / Spark

“準備好的人將他的戰鬥打了一半” – 米格爾·德塞萬提斯

探索(探索性資料分析)

現在,在探索階段,我們試圖瞭解資料的樣式和值。 我們將使用不同型別的視覺化和統計測試來支援我們的發現。 在這裡,我們將能夠透過各種圖表和分析得出我們資料背後隱藏的含義。 出去探索!

“港口的船舶是安全的 – 但這不是船舶的建造目的。” – 約翰A.謝德。

目的

  • 透過視覺化和圖表發現資料中的樣式

  • 透過使用統計來識別和測試重要變數來提取特徵

所需技能:

  • Python:Numpy,Matplotlib,Pandas,Scipy

  • R:GGplot2,Dplyr

  • 推論統計

  • 實驗設計

  • 資料視覺化

提示:進行分析時,您的“蜘蛛感覺”會刺痛。 有意識發現奇怪的樣式或趨勢。 一直在尋找有趣的發現!

設計考慮:大多數時候人們直接進入視覺“讓它完成”。 這都是關於終端使用者的解釋。 專註於您的受眾

建模(機器學習)

有趣的來了。 模型是統計意義上的一般規則。將機器學習模型視為工具箱中的工具。 您將可以訪問許多演演算法並使用它們來實現不同的業務標的。 您使用的特徵越多,您的預測能力就越好。 清理資料併發現最重要的特徵後,將模型用作預測工具只會增強您的業務決策。

Predictive Analytics正在成為改變遊戲規則的方式。 而不是向後看以分析“發生了什麼?”預測分析幫助管理人員回答“下一步是什麼?”和“我們應該怎麼做?”(福布斯雜誌,2010年4月1日)

預測能力示例:在沃爾瑪的供應鏈中可以看到一個很好的例子。 沃爾瑪能夠預測,他們會在颶風季節期間在他們的一家商店銷售他們所有的草莓流行撻。 透過資料挖掘,他們的歷史資料顯示,在颶風事件發生之前銷售的最受歡迎的專案是Pop-tarts。 聽起來很瘋狂,這是一個真實的故事,並提出了不低估預測分析能力的觀點。

目的

  • 深入分析:建立預測模型/演演算法

  • 評估和最佳化模型

所需技能

  • 機器學習:監督/非監督演演算法

  • 評估方法

  • 機器學習庫:Python(Sci-kit Learn)/ R(CARET)

  • 線性代數和多元微積分

“模型是數學中的意見” – 凱茜奧尼爾

解釋(講資料故事)

這是故事時間!最重要的一步是瞭解並學習如何透過溝通解釋您的發現。講述故事是關鍵,不要低估它。它是關於與人交往,說服他們,並幫助他們。理解您的受眾並與他們聯絡的藝術是資料敘事的最佳部分之一。

“我相信講故事的力量。故事讓我們的心靈開啟了一個新的地方,這開啟了我們的思想,往往導致行動“ – 梅琳達蓋茨

情感在資料敘事中起著重要作用。人們不會神奇地理解你的發現。產生影響的最佳方式是透過情感講述你的故事。我們作為人類自然受到情緒的影響。如果你可以利用你的觀眾的情緒,那麼你的朋友,你是可以控制的。當您呈現資料時,請記住心理學的力量。理解您的受眾並與他們聯絡的藝術是資料敘事的最佳部分之一。

最佳實踐:我強烈建議加強您的資料講故事的一個好習慣是一遍又一遍地進行排練。如果您是父母,那麼對您來說是個好訊息。而不是在睡覺前向您的孩子閱讀典型的Dr. Seuss書籍,請嘗試使用您的資料分析結果讓他們入睡!因為如果一個孩子理解你的解釋,那麼任何人都可以,尤其是你的老闆!

“如果你無法向六歲的孩子解釋,你自己就不明白。” – 愛因斯坦

目的

  • 確定業務洞察:回歸業務問題

  • 相應地視覺化您的發現:保持簡單和優先順序驅動

  • 講述一個清晰且可操作的故事:有效地與非技術受眾溝通

所需技能

  • 業務領域知識

  • 資料視覺化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn

  • 溝通:演講和報道/寫作

更新您的模型

不要擔心你的故事不會在這裡結束。在您的模型投入生產時,根據您接收新資料的頻率,定期更新模型非常重要。您收到的資料越多,更新的頻率就越高。讓我們說你是亞馬遜,你為客戶推出了一項新功能,購買“鞋功能”。你是舊模型沒有這個,現在你必須更新包含此功能的模型。如果沒有,您的模型會隨著時間的推移而降級,並且效能不會很好,從而使您的業務也會降級。新功能的引入將透過不同的變化或可能與其他功能的相關性來改變模型效能。

結論

綜上所述,

  • 形成您的業務問題

  • 獲取您的資料

獲取資料,清理資料,使用視覺化探索資料,使用不同的機器學習演演算法建模資料,透過評估解釋資料以及更新模型。

請記住,我們與資料沒有什麼不同。我們都有這個世界存在的價值觀,目的和理由。

事實上,您將面臨的大多數問題都是工程問題。即使有一個偉大的機器學習上帝的所有資源,大多數影響將來自偉大的特徵,而不是偉大的機器學習演演算法。所以,基本方法是:

  1. 確保您的管道端到端堅固

  2. 從合理的標的開始

  3. 直觀地瞭解您的資料

  4. 確保您的管道保持穩固

希望這種方法可以賺很多錢,並且/或者讓很多人在很長一段時間內感到高興。

所以…下次有人問你什麼是資料科學。告訴他們:

“資料科學是OSEMN”

我希望你們今天學到了一些東西!如果您想在本文中新增任何內容,請隨時留言並不要猶豫!任何形式的反饋都非常值得贊賞。不要害怕分享這個!謝謝!

作者:Randy Lao
原文連結

https://www.kdnuggets.com/2018/05/beginners-guide-data-science-pipeline.html

版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。

資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!

點選閱讀原文,進入資料人網。

公眾號推薦:

鏈達君,專註於分享區塊鏈內容。

艾鴿英語,專註於英語口語教育。

贊(0)

分享創造快樂