(點選上方公眾號,可快速關註)
英文:learn4master,編譯:伯樂線上/李趴趴要化身女超人
Python 對於資料科學家來說幾乎是一項必備技能。正如你看到的那樣,很多資料科學家的崗位要求具備 Python 程式設計的能力。這篇文章將會針對資料科學介紹幾種常用的 Python 包。在與資料挖掘、機器學習以及資料分析相關的專案中,這些 Python 包通常會得到廣泛應用。
1. SciPy
SciPy (發音為“Sigh Pie”) 是一個基於 Python 的開源軟體生態系統,主要用於數學、科學和工程學等領域,給資料科學家提供了大量的演演算法和數學工具。
2. NumPy
Numpy是用 Pyhton 進行科學計算時的基礎包,為 Python 提供了出色的數學功能。
3. Scikit-learn
Scikit-learn 是 Python 中最著名的機器學習包,包含了大量不同的分類方法、交叉檢驗及其他模型選擇方法、降維技術、回歸和聚類分析的模組以及非常實用的資料預處理的模組。
4. Pandas
Pandas 是一個用於處理具有類表格結構資料的庫,通常與強大的資料框物件一起使用。DataFrame 是高效處理資料的多維陣列物件,類似 Numpy 的 narray ,同時也有些附加的功能。
5. IPython
IPython 是一個命令列shell,相對於自帶的 Python 直譯器,具有很多有用的增強功能。
IPython Notebooks 對於科學計算來說是個不錯的環境:不僅僅可以執行程式碼,同時也能透過 Markdown 、 HTML 、 LaTeX 、內建圖片、內建資料圖表(例如 matplotlib 等)增加資訊化檔案,還能為平行計算提供高效能的工具。
6. Requests
Requests 是 Python 中為人們搭建的優雅而簡單的 HTTP 庫。作為一名資料科學家,你或許需要從網上採集資料,而Requests 則為你提供了強大的工具。
7. Scrapy
Scrapy 是從網際網路上採集資料的開源和協同框架,使用了快速、簡單並且可擴充套件的方式。
8. Statsmodels
使用者可以透過 Statsmodels 這個 Python 模組去挖掘資料、搭建預測統計模型和進行統計檢驗。它是個可擴充套件的串列,用來描述資料、統計檢驗、繪圖以及為不同型別的資料和每一種預測提供統計結果。
9. Theano
如果從事深度學習專案,通常會需要 theano 。你可以用它這個 Python 庫去定義、最佳化、高效評估包括多維陣列在內的數學運算式。
10. gensim
genism 是最穩健、高效和省事的軟體之一,透過純文字實現無監督的語意建模,可以很容易地訓練主題模型。如果想要在文字資料中應用主題模型,那你應該去試試 genism。
11. SymPy
SymPy 是進行符號數學計算的 Python 庫,擁有大量的特徵,包括微積分、代數、幾何學、離散數學,甚至還有量子物理學。同時在 LaTeX 的支援下具備基礎繪圖和輸出功能。
12. PyMC
PyMC 的核心是貝葉斯統計和模型擬合的大量演演算法(包括Markov Chain Monte Carlo, MCMC)。
13. matplotlib
matplotlib 是 python 的平面繪相簿,能以硬複製格式和跨平臺互動環境的多種形式輸出高質量的圖形,對於任何資料科學家或資料分析師來說都是必備的。
14. BeautifulSoup
如果想要提取些資料出來,那麼 BeautifulSoup 正是你所需要的,可以用它在網頁中提取內容。
15. nltk
Natural Language Toolkit (NLTK) 是使用人類語言資料搭建 Python 專案的領先平臺。如果你在從事 NLP 相關的專案,那麼 NLTK 是個必備工具。
16. sqlite3
這個工具能幫助你輕而易舉地儲存資料。它為 Python 連線 SQLite 資料庫提供了介面。搭建開源的 SQL 資料庫引擎對於小團隊來說是個理想的選擇,因為它是獨立的本地儲存資料庫檔案(最多140Tb),不像SQL那樣,它不需要任何伺服器基本結構。
以上是我在資料挖掘專案中經常使用到的包。如果你有任何想法或建議,請在下麵留言。
【關於投稿】
如果大家有原創好文投稿,請直接給公號傳送留言。
① 留言格式:
【投稿】+《 文章標題》+ 文章連結
② 示例:
【投稿】《不要自稱是程式員,我十多年的 IT 職場總結》:http://blog.jobbole.com/94148/
③ 最後請附上您的個人簡介哈~
看完本文有收穫?請轉發分享給更多人
關註「資料分析與開發」,提升資料技能