Python深受資料科學家和資料工程師的喜愛。
本文總結2017年資料科學的Top12的Python庫。
核心庫
1 numpy
它是最基礎庫,是眾多Python庫的依賴庫。
它提供了多維陣列和矩陣的豐富運算。
2 scipy
它包含線性代數、最佳化、統計學和數值運算等操作。
3 pandas
它是Python做資料處理的優秀工具。
它可以快速而簡單地實現資料操作、資料整合和資料視覺化的功能。
它提供兩種資料結構:序列和資料框。
資料視覺化
4 matplotlib
它是Python的資料視覺化基礎庫。
它可以實現你所想的圖形,例如:折線圖、散點圖、柱狀圖、直方圖、餅圖、莖葉圖、等高圖等。
5 seaborn
它是在matplotlib的基礎上專註於統計模型結果的視覺化。
6 bokeh
它是實現動態化資料視覺化效果。
機器學習
7 scikit-learn
它是Python的經典機器學習庫。
它能夠簡單地把機器學習演演算法應用到產品。
深度學習
8 tensorflow
它出自Google,開源的深度學習框架。
它採用資料流圖計算方式。
9 keras
它是一個開源庫,基於高階藉口構建神經網路。
它採用tensorflow作為後端。
自然語言處理
10 nltk
它是經典的自然語言處理工具。
它可以完成NLP許多工,例如:文字標記、文字分類、文字分詞,名稱物體標識、語意推理等。
11 gensim
它是實現向量空間模型VSM和主題模型topic modeling的開源庫。
它實現了這些演演算法,例如:HDP、LSA和LDA等
統計學
12 statsmodel
它是利用統計知識進行資料探索的Python開源庫。
參考資料:
1 Top 15 Python Libraries for Data Science in 2017
您在閱讀中,關於資料科學的Python庫,有什麼需要補充的,請留言。
想加入資料人圈子,請加微信luqin360。
閱讀原文,更多精彩!
分享是收穫,傳播是價值!