2018年努力成為一名資料科學家
1 一個資料科學家是比軟體工作者更擅長統計學,比統計工作者更擅長軟體工程。
2 一個資料科學家是研究和解決有價值的資料問題,他(她)遨遊於資料的海洋中,從資料中學習,實現資料到商業價值的轉換。
3 一個資料科學家是一名資料“通才”,在有所專長的基礎上,儘量的懂得與資料相關的多個領域。
2018年,玩資料和用資料的朋友們,努力成為一名資料科學家。
一 戰略層面
戰略層面如何成為一名資料科學家,借用曾國藩的一段話。
士人讀書,第一要有志,第二要有識,第三要有恆。
有志,則斷不甘為下流。
有識,則只學問無盡,不敢以一得自足;如河伯之觀海,如井蛙之窺天,皆無見識也。
有恆,則斷無不成之事。
此三者缺一不可。
簡單地說,就是“三要”。
-
一要立志向,立什麼志向,成為什麼樣的人。
-
二要長見識,見多識廣,方知學問無盡,才要學無止境。
-
三要守恆持,持之以恆,滴水穿石。
二 戰術層面
戰術層面如何成為一名資料科學家,可以考慮下麵六個步驟。
步驟一:資料理解
1 解決資料問題需要什麼資料?
2 資料在哪裡?
3 資料怎麼獲取?
這個步驟用來培養和構建資料科學思維,熟悉資料庫技術,掌握資料爬蟲技術。
思維訓練
1 喜歡品酒的朋友,想識別青島啤酒和百威啤酒,需要什麼資料,資料在哪裡,如何獲取這些資料?
2 您喜歡聽歌,音樂產品想給您推薦喜歡的歌曲,需要什麼資料,資料在哪裡,如何獲取這些資料?
步驟二:學習程式設計
1 玩資料的工具?
2 開源軟體和商業軟體?
這個步驟用來熟練掌握和綜合使用R語言和Python語言,或者SAS/SPSS/Matlab等商業化軟體。學習程式設計的唯一方法,就是堅持寫程式碼,寫程式碼,寫程式碼!!!
思維訓練
1 R語言和Python語言共同點和差異性分別是什麼?
步驟三:資料視覺化
1 原始資料如何探索?
2 資料結果如何表示?
這個步驟用來掌握資料探索性分析和培養講資料故事的能力。
思維訓練
1 R語言ggplot2包如何繪製公開出版的折線圖和氣泡圖?
2 Python語言如何繪製可互動式地動態圖?
步驟四: 資料處理
1 臟資料,如何清洗?
2 資料是分散的,如何整合?
3 資料有異常值,如何發現和處理?
這個步驟用來掌握和熟練原始資料精加工的能力,經過資料處理後,生成可以用於分析和建模的資料,並輸出中間資料。
思維訓練
1 R語言如何做資料處理?
2 Python語言如何做資料處理?
3 R語言和Python語言綜合如何做資料處理?
步驟五:統計學和機器學習
1 統計學的假設檢驗和機器學習的交叉驗證,理解嗎?
2 統計學的P值,機器學習的偏差與方差,欠擬合與過擬合,明白嗎?
3 統計學和機器學習的關係?
4 經典機器學習和深度學習適合什麼應用場景?
這個步驟用來熟悉統計學和機器學習的知識,並且服務於具體的資料問題。
思維訓練
1 統計學用來解決什麼問題?
2 機器學習適合解決什麼問題?
步驟六:加入資料人圈子和參與分享與創造
1 您為這個資料世界貢獻了什麼?
2 您身邊有資料科學圈子嗎?
3 您喜歡分享嗎?
這個步驟用來培養交流和溝通的能力,讓資料洞見和知識服務於更多相關人士。
思維訓練
1 如何生成自動化資料報告?
2 如何做資料報告?
屈原說:
路漫漫其修遠兮,吾將上下而求索。
資料科學家之路,需要勤奮求索,果敢實踐!!!
想加入資料人圈子,請加微信:luqin360。
關於資料科學更多內容,請閱讀原文。
文章推薦:
2 資料科學家修煉記
3 資料科學經典書籍
圖片賞析:
【溫馨提示:需要原圖,加微信:luqin360】
閱讀原文,更多精彩!
分享是收穫,傳播是價值!