筆者邀請您,先思考:
1 資料科學家如何構建知識體系?
根據30年的商業經驗,下麵的串列是我認為首先應該在資料科學課中講授的(非全面的)內容選擇。 這是我文章的後續內容為什麼Logistic回歸應該最後講解。
我不確定下麵這些主題是否在資料營或大學課堂上討論過。 問題之一是招聘教師的方式。 招聘過程是有利於以學業成就或其“明星”身份而聞名的個人,並且他們傾向於在數十年內反覆教導同一事物。 厲害的專業人士對成為老師毫無興趣(俗話說:如果你做不到,就寫出來,如果你寫不出來,就教你。)
它不一定是那樣。 大量合格的專業人士,儘管不是明星,但他們會成為完美的老師,並不一定是受到金錢的激勵。 他們在實戰中獲得大量的經驗,可能會是很棒的老師,幫助學生處理真實的資料。 他們不需要成為資料科學家,許多工程師完全有能力(並且有資格)提供強大的資料科學培訓。
在資料科學課程中應該儘早講解的主題
我的建議如下:
-
概述演演算法如何工作
-
不同型別的資料和資料問題(資料缺失,資料重覆,資料錯誤)以及探索真實樣本資料集,並且有建設性地批判他們
-
如何確定有用的度量指標
-
資料科學專案的生命週期
-
程式語言簡介和基本命令列指令(Unix命令:grep,sort,uniq,head,Unix管道等)。
-
將結果傳達給非專家並理解決策者的請求(將請求轉化為資料科學家的行動專案)
-
概述常見技術的優缺點,以及何時使用它們
-
實體探究
-
能夠識別有缺陷的研究
相比之下,傳統資料科學課程中首先討論了一個典型的主題串列:
-
機率論,隨機變數,最大似然估計
-
線性回歸,邏輯回歸,方差分析,一般線性模型
-
K-NN(最近鄰居聚類),層次聚類
-
假設檢驗,非引數統計,馬爾可夫鏈,時間序列
-
NLP,尤其是詞雲(適用於小樣本Twitter資料)
-
協同過濾演演算法
-
神經網路,決策樹,線性判別分析,樸素貝葉斯
這些技術沒有什麼根本性的錯誤(除了最後兩個),但是你不可能在職業生涯中使用它們 – 而不是在課堂上提出的基本版本 – 除非你是在一群志同道合的人中全部使用相同的老式黑盒子工具。確實應該教他們,但也許不是一開始。
資料科學課程中應包含的主題
下麵列出的不應該在一開始就教,但是非常有用,很少包括在標準課程中:
-
模型選擇,工具(產品)選擇,演演算法選擇
-
經驗法則
-
最佳實踐
-
將非結構化資料轉換為結構化資料(建立分類法,編目演演算法和自動標註)
-
如此處所述,混合多種技術以獲得最佳效果
-
測量模型表現(R-Squared是最差的指標,但通常是課堂上教授的唯一指標)
-
資料增強(找到外部資料集和功能以獲得更好的預測能力,將其與內部資料混合)
-
建立你自己的自製模型和演演算法
-
大資料的詛咒(與維度的詛咒不同)以及如何區分相關和因果關係
-
應該更新資料科學實現(例如查詢表)的頻率
-
從設計原型到生產樣式部署:警告
-
蒙特卡洛模擬(一種簡單的替代方案,可以計算置信區間和測試統計假設,甚至不需要知道隨機變數是什麼)。
原文連結:
https://www.datasciencecentral.com/profiles/blogs/the-first-things-you-should-learn-as-a-data-scientist-not-what-yo
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
您有什麼見解,請留言。
文章推薦:
加入資料人圈子或者商務合作,請新增筆者微信。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!
點選閱讀原文,進入資料人網,獲取資料知識。
公眾號推薦:
鏈達君,專註於分享區塊鏈內容。
腳印英語,專註於分享英語口語內容。