未來資料科學家必備的
核心演演算法與常用模型
機器學習和統計學是資料科學的兩個主要理論基礎。本文為您盤點資料科學家必備的核心機器學習演演算法和常用統計模型。
1Machine Learning 核心演演算法
1)回歸/分類樹
2)降維(PCA、MDS、tSNE等)
3)經典的前饋神經網路
4)Bagging ensembles方法(隨機森林、KN N回歸整合)
5)Boostingensembles方法(梯度提升、XGBoost演演算法)
6)引數調整或設計方案的最佳化演演算法(遺傳演演算法,量子啟髮式演化演演算法,模擬退火/simulated annealing,粒子群最佳化/ particle-swarm optimization)
7)拓撲資料分析工具,特別適用於小樣本量的無監督學習(持續同調/persistent homology,Morse-Smale聚類,Mapper …)
8)深度學習架構(通用深度學習架構)
9)用於區域性建模的KNN方法(回歸,分類)
10)基於梯度的最佳化方法/Gradient-based optimization methods
11)網路度量/Network metrics和演演算法(中心度量,跳數,多樣性,熵,拉普拉斯運算元,疫情傳播/epidemic spread,譜聚類/spectral clustering)
12)深層架構中的摺積和池化層/pooling layers(特別適用於計算機視覺和影象分類模型)
13)分層聚類(與k均值聚類和拓撲資料分析工具相關)
14)貝葉斯網路(路徑挖掘/pathway mining)
15)複雜性和動態系統(與微分方程有關)
此外,部分領域還可能需要與自然語言處理、計算機視覺相關演演算法。
2 Statistical Models 常用模型
1)廣義線性模型(是多數監督機器學習方法的基礎,如邏輯回歸和Tweedie回歸)
2)時間序列方法(ARIMA,SSA,基於機器學習的方法)
3)結構方程建模(針對潛變數之間關係進行建模)
4)因子分析(調查設計和驗證的探索型分析)
5)功效分析/試驗設計(特別是基於模擬的試驗設計,以避免分析過度)
6)非引數檢驗(MCMC)
7)K均值聚類
8)貝葉斯方法(樸素貝葉斯,貝葉斯模型平均/Bayesian model averaging,貝葉斯適應性試驗/Bayesian adaptive trials等)
9)懲罰性回歸模型(彈性網路/Elastic Net,LASSO,LARS …)以及對通用模型(SVM,XGBoost …)加罰分,這對於預測變數多於觀測值的資料集很有用,在基因組學和社會科學研究中較為常用)
10)樣條模型/Spline-based models(MARS等):主要用於流程建模
11)馬爾可夫鏈和隨機過程(時間序列建模和預測建模的替代方法)
12)缺失資料插補方法及其假設(missForest,MICE …)
13)生存分析/Survival analysis(主要特點是考慮了每個觀測出現某一結局的時間長短)
14)混合建模/Mixture modeling
15)統計推斷和組群測試(A/B測試以及用於營銷活動的更複雜的方法)
備 註 :1.本文原作者:Colleen M. Farrelly,源文URL: https://www.kdnuggets.com/2018/04/ key-algorithms-statistical-models-aspiring-data-scientists.html
2.由朝樂門負責翻譯與編輯。本文已獲 資料科學DataScience 授權轉發!
END
如果你對人工智慧與機器學習感興趣,請加交流群:群號:139482724 ;
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀: