歡迎光臨
每天分享高質量文章

資料科學和 ML 領域常用的 Python 庫

(點選上方公眾號,可快速關註)


英文:learn4master,編譯:伯樂線上/李趴趴要化身女超人


Python 對於資料科學家來說幾乎是一項必備技能。正如你看到的那樣,很多資料科學家的崗位要求具備 Python 程式設計的能力。這篇文章將會針對資料科學介紹幾種常用的 Python 包。在與資料挖掘、機器學習以及資料分析相關的專案中,這些 Python 包通常會得到廣泛應用。


1. SciPy


SciPy (發音為“Sigh Pie”) 是一個基於 Python 的開源軟體生態系統,主要用於數學、科學和工程學等領域,給資料科學家提供了大量的演演算法和數學工具。


2. NumPy


Numpy是用 Pyhton 進行科學計算時的基礎包,為 Python 提供了出色的數學功能。


3. Scikit-learn


Scikit-learn 是 Python 中最著名的機器學習包,包含了大量不同的分類方法、交叉檢驗及其他模型選擇方法、降維技術、回歸和聚類分析的模組以及非常實用的資料預處理的模組。


4. Pandas


Pandas 是一個用於處理具有類表格結構資料的庫,通常與強大的資料框物件一起使用。DataFrame 是高效處理資料的多維陣列物件,類似 Numpy 的 narray ,同時也有些附加的功能。


5. IPython


IPython 是一個命令列shell,相對於自帶的 Python 直譯器,具有很多有用的增強功能。


IPython Notebooks  對於科學計算來說是個不錯的環境:不僅僅可以執行程式碼,同時也能透過 Markdown 、 HTML 、 LaTeX 、內建圖片、內建資料圖表(例如 matplotlib 等)增加資訊化檔案,還能為平行計算提供高效能的工具。


6. Requests


Requests 是 Python 中為人們搭建的優雅而簡單的 HTTP 庫。作為一名資料科學家,你或許需要從網上採集資料,而Requests 則為你提供了強大的工具。


7. Scrapy


Scrapy 是從網際網路上採集資料的開源和協同框架,使用了快速、簡單並且可擴充套件的方式。


8. Statsmodels


使用者可以透過 Statsmodels 這個 Python 模組去挖掘資料、搭建預測統計模型和進行統計檢驗。它是個可擴充套件的串列,用來描述資料、統計檢驗、繪圖以及為不同型別的資料和每一種預測提供統計結果。


9. Theano


如果從事深度學習專案,通常會需要 theano 。你可以用它這個 Python 庫去定義、最佳化、高效評估包括多維陣列在內的數學運算式。


10. gensim


genism 是最穩健、高效和省事的軟體之一,透過純文字實現無監督的語意建模,可以很容易地訓練主題模型。如果想要在文字資料中應用主題模型,那你應該去試試 genism。


11. SymPy


SymPy 是進行符號數學計算的 Python 庫,擁有大量的特徵,包括微積分、代數、幾何學、離散數學,甚至還有量子物理學。同時在 LaTeX 的支援下具備基礎繪圖和輸出功能。


12. PyMC


PyMC 的核心是貝葉斯統計和模型擬合的大量演演算法(包括Markov Chain Monte Carlo, MCMC)。


13. matplotlib


matplotlib 是 python 的平面繪相簿,能以硬複製格式和跨平臺互動環境的多種形式輸出高質量的圖形,對於任何資料科學家或資料分析師來說都是必備的。


14. BeautifulSoup


如果想要提取些資料出來,那麼 BeautifulSoup 正是你所需要的,可以用它在網頁中提取內容。


15. nltk


Natural Language Toolkit (NLTK) 是使用人類語言資料搭建 Python 專案的領先平臺。如果你在從事 NLP 相關的專案,那麼 NLTK 是個必備工具。


16. sqlite3


這個工具能幫助你輕而易舉地儲存資料。它為 Python 連線 SQLite 資料庫提供了介面。搭建開源的 SQL 資料庫引擎對於小團隊來說是個理想的選擇,因為它是獨立的本地儲存資料庫檔案(最多140Tb),不像SQL那樣,它不需要任何伺服器基本結構。


以上是我在資料挖掘專案中經常使用到的包。如果你有任何想法或建議,請在下麵留言。

【關於投稿】


如果大家有原創好文投稿,請直接給公號傳送留言。


① 留言格式:
【投稿】+《 文章標題》+ 文章連結

② 示例:
【投稿】
《不要自稱是程式員,我十多年的 IT 職場總結》:http://blog.jobbole.com/94148/


③ 最後請附上您的個人簡介哈~

看完本文有收穫?請轉發分享給更多人

關註「資料分析與開發」,提升資料技能

贊(0)

分享創造快樂