【知識】2017年資料科學Top12的Python庫-知識星球

Python深受資料科學家和資料工程師的喜愛。

本文總結2017年資料科學的Top12的Python庫。

核心庫

1 numpy

它是最基礎庫，是眾多Python庫的依賴庫。
它提供了多維陣列和矩陣的豐富運算。

2 scipy

它包含線性代數、最佳化、統計學和數值運算等操作。

3 pandas

它是Python做資料處理的優秀工具。
它可以快速而簡單地實現資料操作、資料整合和資料視覺化的功能。
它提供兩種資料結構：序列和資料框。

資料視覺化

4 matplotlib

它是Python的資料視覺化基礎庫。
它可以實現你所想的圖形，例如：折線圖、散點圖、柱狀圖、直方圖、餅圖、莖葉圖、等高圖等。

5 seaborn

它是在matplotlib的基礎上專註於統計模型結果的視覺化。

6 bokeh

它是實現動態化資料視覺化效果。

機器學習

7 scikit-learn

它是Python的經典機器學習庫。
它能夠簡單地把機器學習演演算法應用到產品。

深度學習

8 tensorflow

它出自Google，開源的深度學習框架。
它採用資料流圖計算方式。

9 keras

它是一個開源庫，基於高階藉口構建神經網路。
它採用tensorflow作為後端。

自然語言處理

10 nltk

它是經典的自然語言處理工具。
它可以完成NLP許多工，例如：文字標記、文字分類、文字分詞，名稱物體標識、語意推理等。

11 gensim

它是實現向量空間模型VSM和主題模型topic modeling的開源庫。
它實現了這些演演算法，例如：HDP、LSA和LDA等

統計學

12 statsmodel

它是利用統計知識進行資料探索的Python開源庫。

參考資料：
1 Top 15 Python Libraries for Data Science in 2017

您在閱讀中，關於資料科學的Python庫，有什麼需要補充的，請留言。

想加入資料人圈子，請加微信luqin360。

閱讀原文，更多精彩！

分享是收穫，傳播是價值！

【知識】2017年資料科學Top12的Python庫

核心庫