翻譯:張玲 校對:吳金笛
本文約3000字,建議閱讀5分鐘。
關於三種資料科學工具Python、R和SAS,本文從8個角度進行比較分析併在文末提供記分卡,以便你隨時調整權重,快速做出選擇。
簡介
我們喜歡比較!
從比較三星、蘋果、HTC的智慧手機,iOS、Android、Windows的移動作業系統到比較即將選舉的選舉候選人,或者選擇世界盃隊長,比較和討論豐富了我們的生活。如果你喜歡討論,你所要的就是在一個充滿激情的群體中丟擲一個相關問題,然後看著它爆炸式地發展!這個過程的美妙之處在於,社群裡的每個人都是一個知識淵博的人。
我在這裡也引發類似的討論,比較SAS、R和Python。SAS和R孰好孰壞可能是資料科學領域的最大爭論,而Python是目前發展最快的語言之一,自其誕生以來,已經走過很長的路。我開始這個討論的原因並不是想看它爆炸(不過那也很有趣),而是知道我們都會從討論中受益。
這也是我在這個部落格上最常見的問題之一,所以我會和所有的讀者、訪客一起討論這個問題。
SAS
https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-business-analyst-sas/
R
https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/
資料科學領域
https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2?utm_source=blog&utm;_medium=PythonvRvSASarticle
Python
https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-Python/
關於這個話題不是已經說了很多了嗎?
可能是的,但我仍然覺得有必要談論,原因如下:
-
資料科學行業是一個充滿活力的行業,兩年前進行的任何比較都有可能和資料科學不再相關。
-
傳統上,Python不在比較範圍內,但現在我認為這不僅僅是一個值得考慮的問題。
-
在我即將討論語言全球趨勢的同時,我將新增有關印度分析行業(處於不同發展水平)的特定資訊。
所以,不要再拖延了,讓討論開始吧!
背景
以下是對3種資料科學工具的簡要描述:
-
SAS:毋庸置疑,SAS一直是商業分析領域的市場領導者。該軟體提供了大量的統計功能,具有良好的圖形使用者介面(Enterprise Guide&Miner;),便於人們快速學習,並提供出色的技術支援。然而,最終它成為最昂貴的選擇,還不具備豐富的最新統計功能。
-
R:R是SAS的開源版本,傳統上用於學術和研究。由於其開源特性,最新的統計功能很快就會釋出,而且網際網路上有很多學習檔案,R是一個非常划算的選擇。
-
Python:Python作為一種開源語言,它的使用與日俱增。如今,它的擴充套件程式庫(numpy、scipy和matplotlib)和功能幾乎可以用於您可能想要進行的任何統計操作/模型構建。自從引入panda後,它在結構化資料操作方面變得非常強大。
比較屬性(比較角度)
我將在以下8個屬性上比較這些語言:
1. 可用性/成本
2. 易學性
3. 資料處理能力
4. 圖形功能
5. 工具進展
6. 工作情形
7. 深度學習支援
8. 客戶服務支援和社群
我從分析師的角度比較這些,所以,如果你想為公司購買一個工具,你可能無法在這裡得到完整的答案,但下麵的資訊仍然有用。對這三種工具,我就每個比較屬性進行評分(1–低;5–高)。
這些比較屬性的權重取決於你從事的職業和抱負。
1.可用性/成本
SAS是一種商業軟體,很昂貴,對於大多數專業人員(以個人身份)來說仍然遙不可及。然而,它在私營機構中佔有最高的市場份額。因此,除非您所在的組織購買了SAS,否則可能很難接觸它。雖然,SAS提供了一個免費的大學版本,可以使用Jupyter筆記本,但它仍有一些限制!
另一方面,R&Python;是完全免費的。以下是我在這個引數上的評分:
SAS – 3
R – 5
Python – 5
2.易學性
SAS很容易學習,並且為已經瞭解SQL的人提供了簡單的選項(PROC
-SQL)。即使不這樣,它的知識庫中也有一個很好的、穩定的圖形使用者介面。在資源方面,各個大學的網站上都有教程,SAS有一個全面的檔案。有來自SAS培訓機構的認證,但需要花錢才能獲得。
在這裡列出的3種工具中,R的學習曲線最陡,因為需要你學習和理解編碼。R是一種低階程式語言,因此簡單的過程可能需要較長的程式碼。
SQL
https://www.analyticsvidhya.com/blog/2015/03/basics-sql-rdbms/
proc-sql
https://www.analyticsvidhya.com/blog/2015/04/data-exploration-sas-data-step-proc-sql/
Python在程式設計領域以其簡單性而聞名,這對於資料分析也是如此。雖然到目前為止還沒有廣泛使用的圖形介面,但我希望Python notebooks會越來越成為主流,這會為檔案和共享提供了很棒的功能。
SAS – 4.5
R – 2.5
Python – 3.5
3.資料處理能力
在過去,這一直是SAS的優勢。R在記憶體(RAM)中進行所有的計算,因此計算受到32位機器上RAM數量的限制,但情況不再是這樣了。這三種工具都具有良好的資料處理能力和平行計算選項,我覺得這不再是一個很大的區別。他們都可以整合Hadoop和Spark整合,同時也支援Cloudera和ApachePig。
SAS – 4
R – 4
Python – 4
4.圖形功能
SAS具有良好的功能圖形功能,然而,只是功能性的。任何對繪圖的自定義都是困難的,需要你理解複雜的SAS圖形(程式擴充套件)包。
R和Python都具有非常高階的圖形功能,有許多軟體(程式擴充套件)包將為您提供高階圖形功能。
現在,隨著這兩種工具都引入plotly並且Python引入了Seaborn,自定義繪圖變得前所未有的簡單。
SAS – 3
R – 4.5
Python – 4.5
5.工具進展
這3個工具都具有最基本基本和最需要的所有功能,只有在研究最新的技術和演演算法時,這個特性才重要。
由於其開放性,R&Python;可以快速獲得最新特性,而SAS在新版本的推出中更新了其功能。由於R在學術界廣泛應用,因此新功能的發展很快。
儘管如此,SAS在受控環境中釋出更新,因此它們經過了很好的測試。另一方面,R&Python;是開放的,在最新功能的開發中有出錯的可能。
SAS – 4
R – 4.5
Python – 4.5
6.工作情形
在全球範圍內,SAS仍然是市場領導者,大多數大型組織仍然在SAS上工作。另一方面,R/Python對於初創企業和尋求成本效益的公司來說是更好的選擇。此外,據報告,在過去幾年裡,R/Python相關的工作數量有所增加。這是一個在網際網路上廣泛釋出的趨勢,顯示了R和SAS工作數量的趨勢。用於資料分析的Python工作與R工作具有類似或更高的趨勢:
在下圖中,藍色代表R,橙色代表SAS。
在下圖中,藍色代表R,橙色代表Python。
資料科學工作中使用的工具分佈情況如下:
SAS – 4
R – 4.5
Python – 4.5
7.客戶服務支援與社群
R和Python擁有最大的線上社群,但沒有客戶服務支援。所以,如果你有麻煩,你就靠自己了。不過,你會得到很多幫助的。
SAS提供了專門的客戶服務社群。因此,如果你在安裝方面遇到問題或任何其他技術挑戰,你可以聯絡他們。
SAS – 4
R – 3.5
Python – 3.5
8.深度學習支援
SAS的深度學習仍處於起步階段,還有很多工作要做。
Python在該領域有著巨大的進步,它有許多(程式擴充套件)包,如tensorflow和keras。
R最近增加了對這些包以及一些基本包的支援。R中的kerasR和keras包充當Python包keras的介面。
SAS – 2
Python – 4.5
R – 3
其他因素:
以下是一些值得註意的要點:
-
Python廣泛應用在Web開發中,如果你從事線上業務,使用Python可以同時進行Web開發和分析。
-
SAS過去在部署端到端基礎架構(視覺化分析、資料倉庫、資料質量、報告和分析)方面具有很大優勢,但現在可以透過在SAP HANA和Tableau等平臺上整合/支援R,這種優勢已不再明顯。儘管它距離SAS這樣的無縫整合還有很遠的距離,但這段旅程已經開始。
結論
在今天的情況下,我們看到市場對Python略有傾斜。考慮到行業的動態性,押註什麼即將佔據上風,時機尚未成熟。根據你的情況(職業階段、財務狀況等),你可以增加你自己的權重,並想出可能適合你的方案。以下是一些特定的場景:
-
如果你是一個剛進入分析行業的人(特別是在印度),我建議你學習SAS作為你的第一語言。學習容易,就業市場佔有率最高。
-
如果你是一個已經在這個行業中一段時間的人,你應該嘗試學習一個新工具來多樣化你的專業知識。
-
對於業內的專家和專業人士,人們至少應該知道其中的兩個,這將為未來增加許多靈活性,並開啟新的機會。
-
如果您是初創企業/自由職業者,R/Python更有用。
從戰略上講,具備更多實際操作幫助和培訓的企業機構可以選擇SAS作為選項。
研究人員和統計學家選擇R作為替代方案,因為它有助於進行大量的計算。正如他們所說,R是為了完成工作,而不是為了讓你的電腦更輕鬆。
由於其輕量級的特性和不斷增長的社群,Python明顯已經成為當今初創企業的選擇,這也是深度學習的最佳選擇。
下麵是最後的記分卡:
以上是我對這一比較的看法。現在輪到你透過下麵的評論來分享你的觀點了。
原文標題:
Python vs. R (vs. SAS) – which tool should I learn?
原文連結:
https://www.analyticsvidhya.com/blog/2017/09/sas-vs-vs-Python-tool-learn/
譯者簡介:張玲,在崗資料分析師,計算機碩士畢業。從事資料工作,需要重塑自我的勇氣,也需要終生學習的毅力。但我依舊熱愛它的嚴謹,痴迷它的藝術。資料海洋一望無境,資料工作充滿挑戰。
轉自:資料派THU 公眾號;
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
朋友會在“發現-看一看”看到你“在看”的內容