翻譯:盧苗苗、梁傅淇;校對:呂艷芹;作者:Matthew Mayo
原文連結:http://www.kdnuggets.com/2017/02/5-career-paths-data-science-big-data-explained.html
本文長度為4970字,建議閱讀6分鐘
本文為你提供如何切引數與到資料科學和/或大資料職業道路的建議。
最近有許多人聯絡我(大部分都是透過領英)尋求著手資料科學和/或大資料的建議。這些人普遍對切入這個“領域”感興趣,並且需要些關於如何切入方面的指導。
然而,我懷著極大的尊重來說這個話,這些請求的中心含義體現出請求者對自己所要求的事情其實並不理解。是的,不論在學習什麼,每個人都需要從某個地方開始。我不會再一個個去回答這些相似的問題,這篇文章會列出和資料科學和/或大資料職業道路相關的一些基本的概念,並且,很希望提供一點如何切引數與到這個複雜領域的建議。
預備閱讀
▼
在我們繼續深入之前,讀一讀這些文章。我是說真的,讀,這些,文章。
-
解析資料科學謎題
(http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html)
-
再析資料科學謎題
(http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html)
-
解析資料科學和大資料
(http://www.kdnuggets.com/2016/11/big-data-data-science-explained.html)
-
預測性科學 VS 資料科學
(http://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html)
第一篇文章概覽資料科學中一些最主要的概念,而第二篇文章則是今年早些時候對這些概念的更新。第三篇文章更深入地解析了資料科學和大資料之中的概念。最後一篇文章對比了一些其他術語,對“資料科學”這個術語的複雜性和微妙性進行了簡短的探討。
我將眾多的職業可能性拆分成五條能夠輕鬆掌控的道路。雖然可能有很多人強烈反對這種角色劃分並且因此感到恐慌,但它確實對技能和職業責任進行了高度的分類。因此,我相信接下來的內容能有效地幫助新來者在這個專業領域中所存在的令人混淆和迷惑的無數機會之中確認方向。
分析性職業的粗略分析(點選圖片放大)
資料管理專員
這本質上是一個IT職業,類似於資料庫管理員。資料管理專員被認為和管理資料以及支援資料管理的設施有關。這個職位和資料分析只有很少關聯,也類似Python和R語言的使用也不是很必要。可能會用到SQL語言,以及和Hadoop相關的查詢語言,比如Hive和Pig。
關鍵技術以及需要關註的技能:
-
Apache Hadoop和它的生態系統
-
Apache Spark和它的生態系統
-
SQL以及關係資料庫
-
NoSQL資料庫
延伸閱讀:
-
解析大資料關鍵術語
(http://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html)
-
解析資料庫關鍵術
(http://www.kdnuggets.com/2016/07/database-key-terms-explained.html)
-
解析Hadoop關鍵術語
(http://www.kdnuggets.com/2016/05/hadoop-key-terms-explained.html)
-
解析Apache Spark關鍵術語
(http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html)
-
解析雲端計算關鍵術語
(http://www.kdnuggets.com/2016/06/cloud-computing-key-terms-explained.html)
-
七步理解NoSQL資料庫(http://www.kdnuggets.com/2016/07/seven-steps-understanding-nosql-databases.html)
-
七步掌握資料科學所需的SQL
(http://www.kdnuggets.com/2016/06/seven-steps-mastering-sql-data-science.html)
資料工程師
這是一條非分析大資料職業道路。記得在剛剛的職業道路之中提到的資料設施嗎?是的,它們需要被設計和執行,資料工程師就承擔了這部分工作。如果說資料管理專員是汽車修理師,那麼資料工程師就是汽車工程師。不過不要搞錯了,這兩個角色都對你的汽車的行駛和持續工作至關重要,對你從A點駕駛到B點同樣重要。
說句實話,資料工程師和資料管理專員所需要的技術和技能是相似的,然而,他們各自在不同的層次理解和使用同樣的概念。我不會重覆之前一種職業中所提到的那些資訊(所有這些資訊對資料工程師都很重要),但我會專門給資料工程師補充延伸閱讀的清單。
延伸閱讀:
-
頂級NoSQL資料庫引擎
(http://www.kdnuggets.com/2016/06/top-nosql-database-engines.html)
-
頂級大資料處理框架
(http://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html)
-
頂級Spark系統環境項
(http://www.kdnuggets.com/2016/03/top-spark-ecosystem-projects.html)
-
Hadoop和大資料:對於前六大問題的回答
(http://www.kdnuggets.com/2016/01/hadoop-and-big-data-questions.html)
-
為什麼資料科學家和資料工程師需要理解雲中的虛擬化
(http://www.kdnuggets.com/2017/01/data-scientist-engineer-understand-virtualization-cloud.html)
商業分析師
在本文裡,商業分析師指的是與資料分析和資料呈現緊密相關的角色。包括報告,儀錶板和任何被稱為“商業智慧”的東西。 這種角色通常要求與關係資料庫和非關係資料庫以及大資料框架的互動(或查詢)。
雖然前兩種角色與設計基礎設施來管理資料以及實際管理資料有關,但商業分析師主要關註從那些或多或少存在的資料中提取資訊。 這與以下兩個角色(機器學習研究者/從業者和以資料為導向的專業人員)形成對比,兩者都側重於從資料或資料以外已知的一些錶面資訊中獲得洞察力。 因此,商業分析師需要在所呈現的這些角色中具有獨特的技能。
關鍵技術以及需要關註的技能:
-
SQL和關係型資料庫
-
NoSQL資料庫
-
經常會用到商業報告和儀錶盤封裝技術
-
報告從本質來講是沒有固定樣式的,快速掌握工具的使用是關鍵
-
資料倉庫
延伸閱讀:
-
2016年人工智慧的10大趨勢
(http://www.kdnuggets.com/2015/12/10-business-intelligence-trends-2016.html)
-
嵌入式分析:人工智慧的未來
(http://www.kdnuggets.com/2016/09/embedded-analytics-future-business-intelligence.html)
-
自建還是購買–分析表盤(視覺化分析)
(http://www.kdnuggets.com/2016/07/build-buy-analytics-dashboards.html)
機器學習研究員/從業者
機器學習研究人員和從業者指的是那些製作和使用預測和相關工具進行資料利用的人。 機器學習演演算法允許以較高的速度應用統計分析,並且那些操作這些演演算法的人不滿足於讓資料以其當前形式呈現出來。 資料詢問是機器學習愛好者的工作方式,但是具有足夠的統計理解才能知道何時推進的足夠遠,以及什麼時候提供的答案不可信。
統計和程式設計是機器學習研究者和實踐者最大的財富。
關鍵技術以及需要關註的技能:
-
統計學!
-
代數與演算(從業者的中級水平,研究員的高階水平)
-
程式設計技能:Python,C ++或其他一些通用語言
-
學習理論(從業者的中級,研究員的高階水平)
-
理解機器學習演演算法的內部工作原理(演演算法越多越好,理解越深越好!)
延伸閱讀:
-
機器學習與統計學
(http://www.kdnuggets.com/2016/11/machine-learning-vs-statistics.html)
-
解析機器學習關鍵術語(http://www.kdnuggets.com/2016/05/machine-learning-key-terms-explained.html)
-
用Python7步掌握機器學習
(http://www.kdnuggets.com/2015/11/seven-steps-machine-learning-python.html)
-
進入機器學習生涯之前必讀的5本書
(http://www.kdnuggets.com/2016/10/5-free-ebooks-machine-learning-career.html)
-
機器學習演演算法:簡短技術概述
(https://www.linkedin.com/pulse/machine-learning-algorithms-concise-technical-overview-matthew-mayo)
-
機器學習工程師需要知道的10中演演算法
(http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html)
-
演演算法教程綜述
(http://www.kdnuggets.com/2016/09/great-algorithm-tutorial-roundup.html)
-
10種資料挖掘演演算法
(http://www.kdnuggets.com/2015/05/top-10-data-mining-algorithms-explained.html)
-
資料科學的15堂數學慕課
(http://www.kdnuggets.com/2015/09/15-math-mooc-data-science.html)
資料導向專業人員
對於可以被稱為“真正的”資料科學家,這是我可以想出的最好的描述。你知道,獨角獸。除了,沒有獨角獸,說不同的話的人都是在撒謊。
資料管理專業人員和資料工程師關註資料的基礎設施。商業分析人員關註從資料中提取事實。機器學習研究者和從業者關註推進和使用相關工具,以利用資料來進行預測和相關分析。這兩種角色都是基於演演算法(開發或利用或兩者兼具)。資料導向的專業人員主要關註資料本身以及它可以告訴的事實,並不涉及執行任務時所需要的技術或工具。
面向資料的專業人員可能使用上面任何角色中列出的任何技術,這取決於他們的具體職責。這是與“資料科學”有關的最大的問題之一;該術語並沒有什麼具體的實際意義,但在整體上又包括了一切。這個角色是就像是資料世界的萬金油:(可能)知道如何讓一個Hadoop生態系統建立和執行;如何對儲存在其中的資料執行查詢;如何抽取資料,並且載入到非關係型資料庫;如何獲取非關係型資料並將其提取到平面檔案( flat file);如何在R或Python語言中辨別這個資料;如何在進行初步探索性描述分析後設計特徵;如何選擇適當的機器學習演演算法來對資料進行預測分析;如何統計分析所述預測任務的結果;如何將結果視覺化,以方便非技術人員使用;如何用剛剛描述的資料處理流水線的最終結果告訴管理人員一個令人信服的事實。
這隻是資料科學家可能擁有的一些技能。然而,無論如何,這個角色的重點是資料,以及從資料中可以得到什麼。同時,在這一個角色中,專業知識佔很大的分量,這顯然不是這裡可以教授的。
關鍵技術以及需要關註的技能:
-
統計學
-
程式語言:Python, R, SQL
-
資料視覺化
-
溝通能力
延伸閱讀:
-
R語言學習路線:7步教你從菜鳥到專家
(http://www.kdnuggets.com/2016/03/datacamp-r-learning-path-7-steps.html)
-
資料科學入門:講給初學者的基本概念
(https://www.linkedin.com/pulse/data-science-primer-basic-concepts-beginners-matthew-mayo)
-
資料科學統計101
(http://www.kdnuggets.com/2016/07/data-science-statistics-101.html)
-
要在資料科學中做到卓越需要什麼樣的統計話題?
(http://www.kdnuggets.com/2016/08/statistics-topics-needed-excelling-data-science.html)
-
資料科學家使用的頂尖演演算法和方法
(http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html)
作為一篇介紹性文章,我有意地忽略了物聯網。原因有以下兩個:第一,我不想為試圖吸取所有這些新資訊的人增加困惑;第二,物聯網只是一個特殊的資料情況。可能進行一些改進,這些角色都可以適用於物聯網資料。但本質來講還是一樣的。
我希望這個介紹能夠對那些想要從事“資料科學”或“大資料”行業但不知從哪裡或者怎樣開始的人們有所幫助。 請記住,對於文章中所提到的任何角色。這裡的介紹都不能包羅永珍。 但是,對於對資料專業瞭解不多的人來講,這是一個很好的起點。
如果你對這個話題的不同看法感興趣,可以讀一讀Zachary Lipton的Will the Real Data Scientists Please Stand Up(http://www.kdnuggets.com/2015/05/data-science-machine-learning-scientist-definition-jargon.html)?
END
作者介紹:
盧苗苗:北京語言大學英語專業在讀。一個帶有理科思維的文科生。 愛思考善分析,腦洞大想法多,喜歡在複雜事物中發現潛在聯絡。既喜歡仰望星空,也喜歡腳踏實地。作為資料派的活躍分子,希望能同各位大們好好學習。
梁傅淇:軟體工程本科在讀,主修大資料分析,喜好搜尋、收集各類資訊。希望能在THU資料派平臺認識更多對資料分析感興趣的朋友,一起研究如何從資料挖掘出有用的模型和資訊。