歡迎光臨
每天分享高質量文章

AI、ML、統計學、資料挖掘之間有什麼區別?

(點選上方公號,快速關註我們)


英文:shakthydoss,編譯:伯樂線上 – 藍楓紫葉 

http://blog.jobbole.com/84713/

【伯樂線上導讀】:前段時間,作者在 stats.stackexchange.com(譯註:國外的一個系列問答網站,其中Stack Overflow是其中一個子站)看到一個很有意思的問題,引起了他的註意。經過閱讀和分析 StackExchange 上的所有答案後,他覺得有必將其想法寫下來。

以下是 StackExchange 上的問題:

人工智慧、機器學習、統計學和資料挖掘有什麼區別?


是否可以這樣說,它們是利用不同方法解決相似問題的四個領域?它們之間到底有什麼共同點和不同點?如果它們之間有層次等級的區分,應該是怎樣一回事?

我假定題主是想得到一個清晰的圖,上面有各個領域清晰的分界線。因此,在這裡我嘗試用我最簡單的方式來解釋這個問題。

機器學習是一門涉及自學習演演算法發展的科學。這類演演算法本質上是通用的,可以應用到眾多相關問題的領域。

資料挖掘是一類實用的應用演演算法(大多是機器學習演演算法),利用各個領域產出的資料來解決各個領域相關的問題。

統計學是一門研究怎樣收集,組織,分析和解釋資料中的數字化資訊的科學。統計學可以分為兩大類:描述統計學和推斷統計學。描述統計學涉及組織,累加和描繪資料中的資訊。推斷統計學涉及使用抽樣資料來推斷總體。

機器學習利用統計學(大多是推斷統計學)來開發自學習演演算法。

資料挖掘則是在從演演算法得到的結果上應用統計學(大多是描述統計學),來解決問題。

資料挖掘作為一門學科興起,旨在各種各樣的行業中(尤其是商業)求解問題,求解過程需要用到不同研究領域的不同技術和實踐。

1960年求解問題的從業者使用術語Data fishing來稱呼他們所做的工作。1989年Gregory Piatetsky Shapiro使用術語knowledge Discovery in the Database(KDD,資料集上的知識發掘)。1990年一家公司在商標上使用術語資料挖掘來描述他們的工作。現如今現如今資料挖掘和KDD兩詞可以交換使用。

人工智慧這門科學的目的在於開發一個模擬人類能在某種環境下做出反應和行為的系統或軟體。由於這個領域極其廣泛,人工智慧將其標的定義為多個子標的。然後每個子標的就都發展成了一個獨立的研究分支。

這裡是一張人工智慧所要完成的主要標的串列(亦稱為AI問題)

1、Reasoning(推理)
2、Knowledge representation(知識表示)
3、Automated planning and scheduling(自動規劃)
4、Machine learning(機器學習)
5、Natural language processing(自然語言處理)
6、Computer vision(計算機視覺)
7、Robotics(機器人學)
8、General intelligence or strong AI(通用智慧或強人工智慧)

正如串列中提到的,機器學習這一研究領域是由AI的一個子標的發展而來,用來幫助機器和軟體進行自我學習來解決遇到的問題。

自然語言處理是另一個由AI的一個子標的發展而來的研究領域,用來幫助機器與真人進行溝通交流。

計算機視覺是由AI的標的而興起的一個領域,用來辨認和識別機器所能看到的物體。

機器人學也是脫胎於AI的標的,用來給一個機器賦予實際的形態以完成實際的動作。

它們之間有層次等級的區分嗎,應該是怎樣一回事?

解釋這些科學和研究層次關係的一個方法是分析其歷史。

科學和研究的起源

統計學——1749年
人工智慧——1940年
機器學習——1946年
資料挖掘——1980年

統計學的歷史公認起源於1749年左右,用來表徵資訊。研究人員使用統計學來表徵國家的經濟水平以及表徵用於軍事用途的物質資源。隨後統計學的用途擴充到資料的分析及其組織。

人工智慧的歷史碰巧存在兩種型別:經典的和現代的。經典人工智慧可在古時的故事和著作中看得到。然而,1940年當人們在描述用機器模仿人類的思想時才出現了現代人工智慧。

1946年,作為 AI 的分支,機器學習的起源出現了,它的標的在於使機器不透過程式設計和明確的硬接線進行自我學習來對標的求解。

是否可以這樣說,它們是利用不同方法解決相似問題的四個領域?

可以這麼來說(統計學,人工智慧和機器學習)是高度相互依賴的領域,沒有其他領域的引領和幫助,他們不能夠單獨存在。很高興能看到這三個領域是一個全域性領域而非三個有所隔閡的領域。

正如這三個領域是一個全域性領域,它們在解決共同標的時發揮了自己的優勢。因此,該方案適用於許多不同領域中,因為隱含的核心問題是一致的。

接下來是該資料挖掘出場了,它從全域性獲取解決方案並應用到不同的領域(商業、軍事、醫學、太空)來解決同一隱含本質的問題。這也是資料挖掘擴大其受歡迎程度的時期。

我希望我的解釋已經回答了答主所提問一切疑問,我相信這能清晰地幫助任何一個想要理解這四個領域關鍵點的人們。如果你對該話題有任何想要說的或者要分享的,請在評論裡寫下你的想法。

看完本文有收穫?請轉發分享給更多人

關註「資料分析與開發」,提升資料技能

贊(0)

分享創造快樂