解決現實世界問題的四大機器學習策略
原文: Four machine learning strategies for solvingreal-world problems
來: https://blogs.sas.com/content/subconsciousmusings/2018/10/17/four-machine-learning-strategies-for-solving-real-world-problems/
導讀:
有的線上學習演演算法還會“適應”,即隨時調整模型,跟隨或追蹤資料的變化。具體而言,它們會逐漸“遺忘”過時資料,從而適用於環境/模型隨時變動的應用程式。
原文翻譯:
機器學習有四種廣受認可的形式:監督式、無監督式、半監督式和強化式。在研究文獻中,這些形式得到了深入的探討。它們也被納入了大多數機器學習演演算法的入門課程。下表對這四種形式作了總結。
Style of Learning |
Definition |
Characteristic |
Examples |
Supervised |
Supervised learning algorithms make predictions based on a set of examples. |
Data has known labels. |
Insurance underwriting and fraud |
Unsupervised |
With unsupervised learning, there is a focus on finding patterns and gaining insight from data. |
Labels or output are unknown. |
Customer clustering and market basket analysis |
Semi-supervised |
With semi-supervised learning, you use unlabeled examples with a small amount of labeled data to improve the learning accuracy. |
Labels or output are known for a subset of data. |
Medical predictions where tests and expert diagnoses are expensive and only part of the population receives them. |
Reinforcement |
Reinforcement learning analyzes and optimizes the behavior of an agent based on the feedback from the environment. |
Focus on making decisions based on previous experience. |
Robotics, gaming, navigation, complex decision problems and reward systems. |
但一個並不廣為人知的概念是機器學習策略,即以創造性的方式,運用基本的機器學習演演算法,解決現實世界問題。我對這些策略產生了濃厚的興趣。在這篇文章中,我將探討四種策略:線上學習、遷移學習、整合學習和深度學習。好在,這四項策略適用於表格中任意一種機器學習形式。
一、線上學習
線上學習使用瞬息萬變的資料。這類模型跟著資料及時更新,並不儲存先前的資料。有的線上學習演演算法還會“適應”,即隨時調整模型,跟隨或追蹤資料的變化。具體而言,它們會逐漸“遺忘”過時資料,從而適用於環境/模型隨時變動的應用程式。批次(或離線)學習使用靜態的資料,可以充當線上學習的熱身。在批次學習中,模型一次性完成所有資料的學習。很多線上學習演演算法使用一個批次/離線演演算法(以一小批資料為基礎),為模型作啟動前的熱身。這種做法可以顯著加快演演算法的收斂(convergence)速度。
二、遷移學習
遷移學習將一個領域的知識應用到另一個領域。它將舊的資料、模型和引數用於新問題的解決,對於機器學習模型的終身學習而言至關重要。遷移學習是人與生俱來的能力。舉個例子,我們會將已經掌握的語言知識(詞彙、語法等),應用到新語言的學習中。兩種語言越是接近,知識遷移就越簡單。
三、整合學習
單學習器模型只用一個學習器(演演算法),而整合學習使用多個學習器。一般的整合演演算法包含梯度提升、引導聚集、決策森林、堆疊整合和超級學習器。整合學習可以結合相對較弱(很多情況下,預測精度只略高於隨機猜測)的學習器,產生強大、準確的模型。
四、深度學習
深度學習包含多個層,可以學習資料的層級化或多尺度特徵。與之相對的是“淺層學習”,即簡單地運用普通的機器學習建模演演算法。通常,淺層學習離不開特徵工程(feature engineering),以保障輸入以適當的形式呈現給模型,而深度學習在訓練時,就自然而然地學會了這些特徵。
在用機器學習演演算法解決日常業務難題時,機器學習策略是我們要考慮的又一個方面。
「完」
本次轉自:品覺 微信公眾號(pinjueche.com)
車品覺簡介
暢銷書《決戰大資料》作者;國信優易資料研究院院長;紅杉資本中國基金專家合夥人;浙江大學管理學院客席教授;全國信標委員;資料標準工作組副組長;美麗心靈基金會桑珠利民基金副主席。
原阿裡巴巴集團副總裁,首任阿裡資料委員會會長;現擔任中國資訊協會大資料分會副會長、中國計算機學會大資料專家委員會副主任、粵港資訊化專家委員、中國計算數學學會第九屆理事、清華大學教育指導委員(大資料專案)、浙江大學管理學院客席教授等職。
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀:
80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系
合作請加qq:365242293
更多相關知識請回覆:“ 月光寶盒 ”;
資料分析(ID : ecshujufenxi )網際網路科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。