開源最前線(ID:OpenSourceTop) 猿妹 編譯
連結:https://www.itcodemonkey.com/article/2406.html
原文:https://www.kdnuggets.com/2018/02/top-20-python-ai-machine-learning-open-source-projects.html
近日,KDnuggets網站釋出了Python機器學習開源專案Top 20,直觀呈現了從2016年至今,最熱門的20個機器學習開源專案的發展趨勢。
進入機器學習和人工智慧領域並不是一件簡單的事情,目前市場上有許多大量的學習資源,但許多開發者和想要進入的愛好者往往很難找到適合自己的發展路徑。下麵就是《 Python 機器學習開源專案 Top 20》,希望能對你有所幫助
Tensorflow在貢獻者增長方面排行第一位。Scikit-learn下降到第二位,但仍有非常大的貢獻者群體。
與2016年相比,貢獻者人數增長最快的專案分別是:
● TensorFlow,增長 169%,從493個增加到1324個貢獻者
● Deap,增長86%,從21個增加到39個貢獻者
● Chainer,增長83%,從84個增加到154個貢獻者
● Gensim,增長81%,從145個增加到到262個貢獻者
● Neon,增長66%,從47個增加到到78個貢獻者
● Nilearn,增長50%,從46個增加到69個貢獻者
在2018年,還出現了兩個新面孔:
● Keras,629名貢獻者
● PyTorch,399名貢獻者
專案的規模大小與貢獻者的數量成正比,顏色代表貢獻者數量的變化 – 紅色越高,藍色越低。
不難發現,像TensorFlow,Theano和Caffe這樣的深度學習專案是目前最受歡迎的專案。
下麵的清單將會根據Github上貢獻者的數量從高到低排序。如果你對其中的專案感興趣,可以透過連結到GitHub上的檔案詳情頁面,開始學習使用Python的機器學習方法。
1、TensorFlow
TensorFlow最初是由谷歌機器智慧研究機構的Google Brain Team的研究人員和工程師開發的。該系統旨在促進機器學習方面的研究,TensorFlow一大亮點是支援異構裝置分散式計算,它能夠在各個平臺上自動執行模型,從手機、單個CPU / GPU到成百上千GPU卡組成的分散式系統。
貢獻者:1324(增長168%),提交數量:28476
GitHub地址: https://github.com/tensorflow/tensorflow
2、Scikit-learn
Scikit-learn是一個簡單而又高效的資料挖掘和資料分析工具,可在各種環境中重覆使用,基於NumPy,SciPy和matplotlib構建,遵循 BSD 許可且可進行商業使用。
貢獻者:1019(增長39%),提交數量: 22575
Github地址:https://github.com/scikit-learn/scikit-learn
3、Keras
Keras是一種高階神經網路API,用Python編寫,能夠在TensorFlow,CNTK或Theano上執行。
貢獻者:629,提交數量:4371
Github地址:https://github.com/keras-team/keras
4、PyTorch
PyTorch 是一個 Torch7 團隊開源的 Python 優先的深度學習框架,提供兩個高階功能:強大的 GPU 加速 Tensor 計算(類似 numpy);構建基於 tape 的自動升級系統上的深度神經網路
貢獻者:399,提交數量:6458
Github 地址:https://github.com/pytorch/pytorch
5、Theano
Theano允許您高效地定義,最佳化和模擬數學運算式計算,用於高效的解決多維陣列的計算問題。
貢獻者:327(增長24%),提交數量:27931
Github網址:https://github.com/Theano/Theano
6、Gensim
Gensim是一個免費的Python庫,具有可擴充套件的統計語意,分析用於語意結構的純文字檔案,語意相似性檢索等功能。
貢獻者:262(增長81%),提交數量:3549
Github網址:https://github.com/RaRe-Technologies/gensim
7、Caffe
Caffe是一個深度學習框架,由運算式,速度和模組化組成。Caffe 是 Berkeley Vision and Learning Center (BVLC) 社群貢獻者開發的。
貢獻者:260(增長21%),提交數量:4099
Github地址:https://github.com/BVLC/caffe
8、Chainer
Chainer是一個基於Python的深度學習的框架。Chainer提供靈活,直觀和高效能的方法來實現全面的深度學習模型,其中包括遞迴神經網路和變分自動編碼器等。
貢獻者:154(增長84%),提交數量:12613
Github地址:https://github.com/pfnet/chainer
9、Statsmodels
Statsmodels是一個Python模組,包含統計模型、統計測試和統計資料挖掘python模組。對每一個模型都會生成一個對應的統計結果。統計結果會和現有的統計包進行對比來保證其正確性。
貢獻者:144(增長33%),提交數量:9729
Github網址: https://github.com/statsmodels/statsmodels/
10、Shogun
Shogun是一個機器學習工具箱,它提供了許多統一且高效的機器學習(ML)方法。還包含有大量的線性方法,如線性判別分析(LDA),線性規劃機(LPM),(核心)的感知,和演演算法訓練隱馬爾可夫模型。
貢獻者:139(增長32%),提交:16362
Github網址:https://github.com/shogun-toolbox/shogun
11、Pylearn2
Pylearn2是一個機器學習庫。其大部分功能都建立在 Theano之上 。這意味著您可以使用數學運算式編寫Pylearn2外掛(新模型,演演算法等),Theano將為您最佳化和穩定這些運算式,並將它們編譯為您選擇的後端(CPU或GPU)。
貢獻者數量:119(增長3.5%),提交數量:7119
Github網址:http://github.com/lisa-lab/pylearn2
12、NuPIC
NuPIC是一個開源的人工智慧平臺,它基於一種名為Hierarchical Temporal Memory(HTM)的新大腦皮層理論。部分HTM理論已經在應用中實施,測試和使用,而HTM理論的其他部分仍在開發中。
貢獻者數量:85(增長12%),提交數量:6588
Github地址:http://github.com/numenta/nupic
13、Neon
Neon是Nervana System基於Python的深度學習庫。它在實現易用性的同時還提供最高的效能表現。
貢獻者數量:78(增長66%),提交數量:1112
Github地址: https://github.com/NervanaSystems/neon
14、Nilearn
Nilearn是一個Python模組,用於在NeuroImaging資料上進行簡單快速的統計學習。它利用 scikit-learn Python工具箱進行多變數統計,並提供預測建模,分類,解碼或連線分析等應用。
貢獻者數量:69(增長50%),提交數量:6198
Github地址: http://github.com/nilearn/nilearn
15、Orange3
Orange3是一套開源機器學習和資料視覺化方案,能同時滿足新手和專家的需求,其中的大規模工具集可實現互動資料分析工作流。
貢獻者數量:53(增長33%),提交數量:8915
Github網址:https://github.com/biolab/orange3
16、PyMc
PyMC是一個實現貝葉斯統計模型和馬爾科夫鏈蒙塔卡洛取樣工具擬合演演算法的Python庫。PyMC的靈活性及可擴充套件性使得它能夠適用於解決各種問題。
貢獻者數量:39(增長5.4%),提交數量:2721
Github網址:https://github.com/pymc-devs/pymc
17、Deap
Deap是用於快速原型設計和思路測試的新型計算框架。旨在使演演算法更加明確並提升資料結構的透明性。其與多行程及 SCOOP 的並行機制能夠完美契合。。它與多處理和 SCOOP等並行機制完美協調 。
貢獻者數量:39(增長86%),提交數量:1960
Github網址:https://github.com/deap/deap
18、Annoy
Annoy是一個C ++庫,它使用Python系結來搜尋空間當中與給定查詢點相信的各點。它還可建立基於檔案的大型只讀資料結構並將其對映至記憶體當中,以便多行程可以共享相同的資料。
貢獻者數量:35(增長46%),提交數量:527
Github網址:https://github.com/spotify/annoy
19、PyBrain
PyBrain 是Python的模組化機器學習庫。其標的在於為各類機器學習任務及多種預定義環境提供靈活且易於使用的強大演演算法,從而測試並比較各類演演算法。貢獻者數量增加 3%。
貢獻者數量:32(增長3%),提交數量:992
Github地址: http://github.com/pybrain/pybrain
20、Fuel
Fuel是一個資料管道框架,它為開發者的機器學習模型提供所需的資料。該專案只給Blocks和Pylearn2神經網路庫使用。
貢獻者數量:32(增長10%),提交數量:1116
Github地址:http://github.com/mila-udem/fuel
以上資料均取自GitHub上2月份的資料。
●本文編號355,以後想閱讀這篇文章直接輸入355即可
●輸入m獲取文章目錄