導讀:本文是老司機給資料科學家新手的一些建議,希望每個致力於成為資料科學家的人少走彎路。
作者:Pranav Dar
翻譯:和中華
來源:資料派THU(ID:DatapiTHU)
本文目錄
一、只學習理論概念但不應用
二、沒有學習先決條件就直接應用機器學習技術
三、完全依靠證書和學位
四、誤以為現實生活中的工作就像在機器學習競賽中所看到的一樣
五、關註模型準確性超過關註它在領域內的適用性和可解釋性
六、在簡歷中使用過多的資料科學術語
七、優先關註工具和庫而不是業務問題
八、沒有花費足夠的時間探索和視覺化資料(好奇心)
九、沒有採用結構化方法來解決問題
十、試圖一次學習多個工具
十一、沒有堅持學習
十二、遠離討論和競賽
十三、沒有加強溝通技巧
00 簡介
你已經決定把資料科學當做是適合你的領域了?如今越來越多的企業正在變得以資料驅動,世界變得越來越緊密,以致於看起來每個企業都需要資料科學實踐。因此,對資料科學家的需求是巨大的。甚至更好的是,業界資料科學人才短缺已經成為共識。
然而,要成為一名資料科學家並不容易。需要掌握多種技能,才能真正成為一名資料科學家。這些技能包括解決問題、結構化思考、程式設計和其他專業技能。如果你不是技術出身或者數學出身,就很有可能透過書籍和影片課程來學習,但大多數並沒有教你那些當前業界渴望從資料科學家身上尋找到的東西。
這是想要成為資料科學家的人正在努力彌合自我教育與現實世界工作之間的差距的原因之一。
在本文中,我會討論資料科學家新手常犯的錯誤(我自己也犯了其中一些),並提供了相關資源,旨在幫助你避免資料科學之旅中的這些陷阱。
01 只學習理論概念但不應用
▲Source: Cognitive Class – YouTube
正如我在另一篇關於實踐問題的文章中提到的那樣 – 掌握機器學習技術背後的理論是很好的:
文章連結:
https://www.analyticsvidhya.com/blog/2018/07/learn-and-test-your-machine-learning-skills-with-avs-new-practice-problems-and-free-courses/
但如果你不應用,它們就只是理論概念。當我剛開始學習資料科學時,我也犯了同樣的錯誤——我學了書籍和線上課程,但並沒有經常用它們來解決實際問題。
因此,當遇到某個挑戰或問題,並且有機會可以應用我所學到的所有東西時,我卻連一半都記不起來!有很多東西需要學習 – 演演算法,推導,研究論文等,你很有可能半途而廢。我已經看到很多想要成為資料科學家的人這樣半途而廢了。
如何避免該錯誤?
在學習過程中,必須保持理論和實踐之間的良好平衡。一旦你學習了一個概念,請立即訪問Google,找一個可以應用它的資料集或問題,進而你會發現你比以前更好地記住了這個概念。還可以使用AV的DataHack平臺解決實際問題和參與正在進行的競賽。
你得接受一個事實:一口吃不成個胖子。在練習時填補空白,你將學到更多東西!
02 沒有學習先決條件就直接應用機器學習技術
▲Source: Imperial College London – YouTube
想要成為資料科學家的人大多數都是受到機器人影片或者很牛的預測模型的鼓舞,有時甚至是這個崗位的高薪。壞訊息是(很抱歉令你失望!),前進的路上從來都不會一路暢通。
在應用技術解決問題之前,你應該瞭解技術的工作原理。這樣有助於你瞭解一個演演算法是如何工作的,可以做哪些操作來微調它以及如何在現有技術的基礎上應用它。數學對於瞭解某些概念總是很有幫助,所以它在這裡發揮著重要作用。在日常的企業資料科學家角色中,你可能不需要瞭解高階微積分,但有一個宏觀的瞭解肯定有所幫助。
如果你好奇機器學習技術的工作原理,或者想要進入研究它的角色之中,那麼在深入瞭解核心機器學習之前,需要瞭解的四個關鍵主題是:
-
線性代數
-
微積分
-
統計
-
機率
如何避免該錯誤?
正如房子是由磚塊砌成的,資料科學家也是由所有獨特技能所整合的。有大量的資源可以幫助你學習這些主題,下麵我給每個主題列出一個資源,可以幫助你入門:
A Comprehensive Beginners Guide to Linear Algebra for Data Scientists
https://www.analyticsvidhya.com/blog/2017/05/comprehensive-guide-to-linear-algebra/
Khan Academy’s Calculus Course
https://www.khanacademy.org/math/calculus-home
Basics of Probability for Data Science Explained with Examples
https://www.analyticsvidhya.com/blog/2017/02/basic-probability-data-science-with-examples/
你還可以檢視Analytics Vidhya的“資料科學入門”課程,其中包括一個有關統計和機率的綜合模組。
Analytics Vidhya《資料科學入門》課程
https://trainings.analyticsvidhya.com/courses/coursev1:AnalyticsVidhya+DS101+2018T2/about
03 完全依靠證書和學位
招聘經理和招聘專員經常抱怨求職者完全依賴於證書和學歷。自從資料科學變得非常受歡迎,各種相關的證書和學位如雨後春筍般湧現出來,隨處可見。瞥一眼我的LinkedIn主頁,至少有5張證書赫然顯示在那。雖然獲得這些證書並非易事,但完全依賴它們是一種災難。
網上現在有很多這樣提供證書的課程冒出來,而這些已經被成千上萬個想要成為資料科學家的人刷完。如果這些課程曾經為你的資料科學簡歷添光溢彩,那麼現在它們已經不再那麼有吸引力了。招聘經理對這些證書已經不太在意——他們更看重你的知識以及在現實生活中應用它們的能力。
為了真正地成為一名資料科學家,你需要瞭解如何與客戶打交道,如何應對deadlines,如何瞭解資料科學專案生命週期以及如何設計適應現有業務框架的模型,當然,你需要瞭解的還遠不止這些事項。因此,僅僅依靠證書或學位是不夠的。
如何避免該錯誤?
不要誤解我的意思——證書是很有價值的。但只有當你將知識應用到課堂之外並將應用結果公之於眾時,證書才有價值。使用真實世界的資料集,無論你做了什麼分析,確保你把它們寫下來。建立自己的部落格,在LinkedIn上釋出,並徵求社群的反饋意見。這樣顯得你有學習的意願和足夠的靈活性,願意採納建議並將這些建議應用專案之中。
無論目前的經驗水平如何,你應該對實習的想法保持開放的態度。這樣,你會學到很多關於資料科學團隊如何工作的知識,進而在另一場面試時受益。
如果你正在尋找下一個專案,那麼你來對地方了。 我們有一個很棒的、按照難度劃分的專案串列,你可以現在就開始:
專案串列連結:
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
04 誤以為現實生活中的工作就像在機器學習競賽中所看到的一樣
對於渴望成為資料科學家的人來說,這是目前最大的誤解之一。當我們參加競賽和駭客馬拉松時,它們提供乾凈整潔的資料集(好吧,我說的有點過,但你的確輕鬆不少),你下載這些資料集,並開始解決問題。即使這些資料集列中有缺失值,你也不需要耗費太多腦細胞 ,只需找出一種插補技術補齊缺失值即可。
不幸的是,現實世界的專案並不像那樣。通常,有一群人參與一個端到端的資料流程,所以你幾乎總是要處理雜亂和不乾凈的資料。老話說:需要花費70-80%的時間來收集和清理資料,這是真實的。這部分工作令人筋疲力盡,你會(很可能)不喜歡做,但它最終會成為日常工作的一部分。
我們將在下一節更詳細地介紹這一點:準確性不一定總是最終標的,所以簡單的模型將優於任何複雜的、組合的整合模型。這將是你在工作中學到的最明顯不同的事情之一。
如何避免該錯誤?
諷刺的是,消除這個誤會的關鍵因素之一是經驗。你獲得的經驗越多(在這種情況下實習能給予很多幫助),你就能越好地區分這兩者。你還可以在社交媒體派上與資料科學家取得聯絡,借鑒他們的經驗。
另外,建議瀏覽這個Quora帖子:
https://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do
這裡面有來自世界各地的資料科學家就這個確切的問題提供他們的意見。在競賽排行榜上獲得的好成績非常適合度量你的學習進度,然而,面試官更想知道你為了讓模型生效是如何最佳化演演算法的,但不僅僅是為了提高準確性。你可以透過瞭解如何開展一個資料科學專案以及一個團隊有哪些不同的崗位(從資料工程師到資料架構師)來給出合理的回答。
閱讀這篇LinkedIn帖子,其中解釋了分析模型的標準方法:
http://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post
05 關註模型準確性超過關註它在領域內的適用性和可解釋性
如先前所述,業務並非總是追求準確性。誠然,一個模型能夠以95%的準確率預測貸款違規是好的,但是,如果你無法解釋模型是如何實現的,有哪些特徵促成了它,以及在構建模型時你的想法是什麼,你的客戶將會拒絕它。
你將會發現,在商業應用中很少有人使用深度神經網路,原因是無法向客戶解釋神經網路(更不用說深度網路)是如何與隱藏層,摺積層等一起工作的。所以,我們永遠第一位要做的是確保能夠理解模型內部正在發生什麼。如果無法判斷貸款申請被拒是因為年齡,或是家庭成員數量,或是歷史信用記錄,那麼貸款業務將如何運作?
另一個關鍵是你的模型是否適合組織的現有框架。如果生產環境無法支援,那麼使用10種不同型別的工具和庫構建的模型將會失敗得非常慘,因為你將不得不使用更簡單的方法從頭開始設計和訓練模型。
如何避免該錯誤?
防止自己犯這個錯誤的最好方法是與業內人士交談,因為沒有比經驗更好的老師了。選擇一個領域(財務,人力資源,營銷,銷售,運營等),並與選定領域的業內人士取得聯絡,瞭解他們的專案是如何運作的。
除此之外,還可以練習簡單一點的模型,並向非技術人員解釋這些模型,隨後,為模型新增複雜性並持續這樣做,直到你不理解模型下麵發生了什麼為止。這將讓你明白何時該停止以及為什麼在實際應用中總是優先考慮簡單模型。
06 在簡歷中使用過多的資料科學術語
如果你以前這樣做過,就會知道我在說什麼。如果你的簡歷目前就有此問題,請立即糾正!你可能知道很多技術和工具,但只是簡單地將它們羅列出來,這會讓你錯過潛在的招聘經理。
簡歷是已取得的成就及其取得過程的概述,而不是簡單記下來的事情清單。當招聘人員檢視你的簡歷時,他/她希望以簡潔和總結的方式瞭解你的背景以及你所取得的成就。但是,如果簡歷一半寫滿了模糊的資料科學術語,如線性回歸,XGBoost,LightGBM,沒有任何解釋,你的簡歷可能無法透過簡歷篩選階段。
如何避免該錯誤?
消除簡歷雜亂的最簡單方法就是使用專案符號。只需要列出你在取得某些成就過程中所採用的技術(可能是一個專案或一個競賽),再寫一兩句話,解釋你是如何使用這些技術的,這有助於招聘人員理解你的想法。
當申請入門級工作時,你的簡歷需要反映出你可以為業務增加哪些潛在影響。你可能正在申請不同領域中的崗位,因此,最好有一組簡歷模板。從而,只需更改故事,就可以展現你對選定領域的興趣。
Kunal Jain撰寫的這篇文章是瞭解資料科學家如何準備優秀簡歷的絕佳資源:
文章連結:
https://www.analyticsvidhya.com/blog/2014/11/tips-prepare-cv-data-science-roles/
07 優先關註工具和庫而不是業務問題
讓我們舉個例子來解釋為什麼這是一個錯誤。想象一下,給你一個房價資料集,你需要預測未來房地產的價值。這個資料集有200多個變數,包括建築物數量、房間數量、租戶數量、家庭規模、庭院大小以及是否有水龍頭等等,很可能你不知道某些變數的含義。然而,你仍然可以構建具有良好準確率的模型,卻不知道刪除某個變數的原因。
最後結果表明,這個變數是現實世界中的一個關鍵因素。這是一個災難性的錯誤。
掌握扎實的工具和庫知識是非常好的,但它只會幫你到這。將這些知識與領域中的業務問題相結合,才是是真正的資料科學家該介入的地方。因此,你至少應該瞭解你感興趣(或正在申請)的行業中基本挑戰是什麼。
如何避免該錯誤?
這裡有很多選擇:
-
如果你正在申請特定行業的資料科學家崗位,請瞭解該領域的公司正在如何使用資料科學。
-
如果可能,搜尋特定行業中的資料集並嘗試對其進行處理。這將是你簡歷中的一個亮點。
-
閱讀下麵這篇優秀的紐約時報文章,瞭解為什麼領域知識是資料科學的主要推動力:
紐約時報文章:
https://www.forbes.com/sites/kalevleetaru/2016/06/12/why-we-need-more-domain-experts-in-the-data-sciences/#44d76b893b50
08 沒有花費足夠的時間探索和視覺化資料(好奇心)
資料視覺化是資料科學中一個很有趣的方面,但許多想成為資料科學家的人更喜歡一筆帶過,直接進入模型構建階段。這種方法可能在競賽中有效,但在實際工作中必然會失敗。你將要做的最重要的事情是瞭解你手裡的資料,模型的結果將反映出這一點。
透過花時間瞭解資料集,嘗試不同的圖表,你將對挑戰或者問題有更深入的瞭解,僅僅透過這樣做,就可以發現資料中的樣式、趨勢、故事以及最佳部分,你會對如此之多的洞見感到很驚訝。視覺化也是向客戶展示發現的最佳方式。
作為一名資料科學家,你天生具備好奇心。資料科學的偉大之處在於,你越是好奇,你問的問題將會越多。這樣可以促使你更好地理解資料,也有助於解決你最初不知道的問題。
如何避免該錯誤?
實踐!下次處理資料集時,請花更多時間在此步驟上。你會驚訝於它將為你帶來的洞察力。問問題!詢問主管,詢問領域專家,在網際網路上搜索解決方案,如果沒有找到,請在社交媒體上詢問。太多選擇了!
為了幫助你入門,下麵提供了一些參考資源:
Comprehensive Guide to Data Visualization in R
https://www.analyticsvidhya.com/blog/2015/07/guide-data-visualization-r/
A Comprehensive Guide to Data Exploration (Highly Recommended)
https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/
18 Free Exploratory Data Analysis Tools For People who don’t code well
https://www.analyticsvidhya.com/blog/2016/09/18-free-exploratory-data-analysis-tools-for-people-who-dont-code-so-well/
09 沒有採用結構化方法來解決問題
結構化思維以多種方式幫助資料科學家:
-
有助於你將問題陳述分解為不同邏輯部分。
-
有助於你將全盤分析問題陳述和設計解決方法的過程視覺化。
-
有助於終端使用者或客戶以邏輯和易於理解的方式理解你的框架順序。
關於結構化思維為何有幫助,還有很多理由。正如你可以想象的那樣,一個人沒有具備結構化思維,這是違反直覺的。你的工作、解決問題的方法都將是隨意的,當遇到複雜的問題時你會無法跟蹤自己的步伐等等。
當進行資料科學面試時,面試官會不可避免地要求你分析一個案例研究,或者進行猜測估值,或者解決疑難問題。由於面試室內空中瀰漫的壓力和時間限制,面試官會觀察你是如何構建你的想法得出最終結果的。在許多情況下,這關係到最後你能否獲得這份工作。
如何避免該錯誤?
你可以透過簡單的培訓和嚴謹的訓練來培養自己的結構化思維方式。我在下麵列出了一些文章,可以幫助你開始:
The Art of Structured Thinking and Analysis
https://www.analyticsvidhya.com/blog/2013/06/art-structured-thinking-analyzing/
Tools for Improving Structured Thinking
https://www.analyticsvidhya.com/blog/2014/02/tools-structured-thinking/
Must for Data Scientists & Analysts: Brain Training for Analytical Thinking
https://www.analyticsvidhya.com/blog/2015/07/brain-training-analytical-thinking/
10 試圖一次學習多個工具
這個問題太常見了。由於每個工具都提供了獨特功能,人們傾向於一次學習所有工具。但,你最終哪個都沒掌握,因而這是個壞主意。工具是實踐資料科學的一種手段,而不是最終標的。
如何避免該錯誤?
選擇一個工具並堅持下去,直到你掌握它為止。如果你已經開始學習R,那麼不要被Python誘惑。堅持使用R,端對端學習,然後再嘗試將另一種工具融入你的技能組閤中,這種方式會讓你學到更多。
每個工具都有一個出色的使用者社群,你可以在遇到困難的任何時候使用。使用我們的論壇來提問,線上搜尋,不要放棄:
論壇連結:
https://discuss.analyticsvidhya.com/
目的是透過工具學習資料科學,而不是透過資料科學學習工具。
如果你還未確定應該使用哪種工具,請檢視這篇精彩的文章,其中列出了每個工具的優點和缺點(還包括SAS):
文章連結:
https://www.analyticsvidhya.com/blog/2017/09/sas-vs-vs-python-tool-learn/
11 沒有堅持學習
這適用於所有資料科學家,而不僅僅適用於新人。人天生容易轉移註意力,所以我們學習了一段時間(比如說,一個月),然後在接下來的兩個月裡休息一下。之後,試圖回到原來的狀態就像一場噩夢,因為大多數早期學過的概念都忘了,筆記丟失了,感覺之前學習的時間都白費了。
我個人也經歷過這一點。由於已經經歷很多事情,我們可以找到各種沒有回到學習中的藉口和理由。但這最終是我們的損失 ,原因是資料科學並非只是開啟教科書然後吸取知識那樣簡單,要不然今天滿大街都是資料科學家了。它需要持續的努力和學習,而這兩樣是人失去後才會珍惜的品質。
如何避免該錯誤?
為自己設定目標。繪製出時間表並貼在牆上,計劃你想要學習的方式和內容,併為自己設定截止日期。例如,當想瞭解神經網路時,我給了自己幾個星期,然後在駭客馬拉松比賽中測試我學到的東西。
你既然決定要成為一名資料科學家,就應該準備好投入時間。如果你不斷尋找不學習的藉口,那麼資料科學家這個崗位可能不適合你。
12 遠離討論和競賽
這是我們在上述幾點中看到的一些事情的組合。想成為資料科學家的人傾向於迴避線上釋出他們的分析,因為擔心受到批評。但是,如果沒有收到社群的反饋,你就不會成長為資料科學家。
在資料科學領域中,討論、想法和頭腦風暴都是至關重要的。因此,你需要合作並理解其他資料科學家的觀點,這意味著你不能在孤島中工作。同樣,人們因為覺得自己不會贏而不參加比賽,這是一種錯誤的心態!你參加比賽是用來學習的,而不是隻為了贏。獲勝是獎勵,學習是標的。
如何避免該錯誤?
這很簡單,請開始參與討論和比賽!沒有進入前5%也沒關係。如果你從整個過程中學到一種新技術,那你已經贏了。
13 沒有加強溝通技巧
溝通技巧是資料科學家絕對必須擁有的,但卻最少被評價和談論的方面之一。我還沒有遇到一個強調這一點的課程。你可以學習所有最新技術,掌握多種工具並製作最佳圖表,但如果無法向客戶解釋你的分析,那就不是一個好資料科學家。
而且不僅僅是客戶,你還要與不熟悉資料科學的團隊成員合作,如IT,人力資源,財務,運營等。可以確信的是,面試官會一直考察你的溝通能力。
作為一個思考練習,假設你使用邏輯回歸構建了一個信用風險模型,請花一點時間思考如何向非技術人員解釋你是如何得出最終結論的。如果使用過任何技術詞彙,你需要儘快加強溝通能力!
如何避免該錯誤?
如今大多數資料科學家都來自電腦科學背景,所以我理解這可能是一項難以獲得的技能。但要成為一名成功的資料科學家併在職位上有所提升,你別無選擇,只能磨練自己的個性。
我認為最有用的一點是向非技術人員解釋資料科學術語,這可以幫助衡量我對問題認識的清晰度。如果你在中小型公司工作,請在營銷或銷售部門找一個人並與他們一起做這個練習。從長遠來看,它將會給你帶來很大的幫助。
網際網路上有大量的免費資源可以幫助你入門,但請記住,練習是關鍵。請確保你今天就開始這樣做。
結語
致力於成為資料科學家的人往往會犯很多其他錯誤,所以,這絕對不是一個詳盡的清單。但,如前所述,這些是我見過的最常見的錯誤。我的標的是幫助其他人(盡可能多地)避免這些。
我很想聽聽你對這些觀點的看法,以及在類似問題上的個人經歷。請在下麵的評論部分告訴我們!
原文標題:
13 Common Mistakes Amateur Data Scientists Make and How to Avoid Them?
原文連結:
https://www.analyticsvidhya.com/blog/2018/07/13-common-mistakes-aspiring-fresher-data-scientists-make-how-to-avoid-them/
關於譯者:和中華,留德軟體工程碩士。由於對機器學習感興趣,碩士論文選擇了利用遺傳演演算法思想改進傳統kmeans。目前在杭州進行大資料相關實踐。加入資料派THU希望為IT同行們盡自己一份綿薄之力,也希望結交許多志趣相投的小夥伴。
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞
檢視更多優質內容!
PPT | 報告 | 讀書 | 書單
Python | 機器學習 | 深度學習 | 神經網路
區塊鏈 | 揭秘 | 乾貨 | 數學
猜你想看
Q: 這些常見錯誤,你中了幾槍?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視