歡迎光臨
每天分享高質量文章

學機器學習要走彎路?不存在的!

營長的一位轉型AI的朋友,最近對營長抱怨,“走過的最遠的路,就是機器學習過程中的彎路”,然後開始各種blablabla,從論文的坑,到模型的坑,再到培訓的坑…一路吐槽。

2

尤其是論文,他罵道:最討厭的就是那種,高高在上、假裝清高、站著說話不腰疼、戳不到痛點的論文。比如那一堆只能在理論中刷存在感,實際落地中只能呵呵噠的論文,根本就是浪費時間。

的確,對於現在剛剛入行的機器學習新人來說,不怕吃苦,但最怕走彎路,最怕白白浪費時間。

那麼,總結起來,都有怎樣的彎路呢?來看幾位點贊量頗高的知乎答主的總結:


那些年,他們在機器學習中走過的彎路

在知乎答主張馨宇(就職於百度地圖)看來,機器學習的彎路有以下四個

最大的彎路就是自己xjbxjb試,和加入一個真正能做出東西的團隊或跟隨真正的牛人一起學習相比,速度要慢十倍都不止。學是要學,但不要以為自己xjb學就夠了,差得遠呢。

第二大的彎路就是成天xjb看論文,以為這樣就能打通任督二脈,從來不復現論文或者嘗試自己做出一些東西,這都是〇。

第三大彎路淺嘗輒止,有些東西不往死裡懟屁都做不出來。

第四大彎路迷信複雜的東西和新技術,以為新東西懟上去肯定就效果爆棚。其實都是不存在的。

還有一位知乎答主ycszen,在他看來,最大彎路,就是迷信論文,不去實驗

DLML其實是一門實踐性的學科,只有透過實驗才能把握到其中的細節與真諦。雖說也是在寫程式,但是DL的程式基本上無法直觀地debug,所以非得自己去復現一下,實踐一下,用performance來說話,才知道有沒有出錯。

尤其是DL,研究發展到現在,論文和實際做的東西脫節已經是心照不宣的事了。正因為NN+GD的魯棒性,你xjb搞好像也能搞上去,所以寫論文很多純粹在編故事(好論文除外)

所以,我們最好不要一味相信論文所說,尤其是各種解釋(經典演演算法,優秀論文除外)NN就是個黑盒,誰也別說誰。而我們能做的,更重要的是,去實踐去復現,去去偽存真,去發現其中真正的本質所在。

而知乎答主:YukiRainCV/ML方向研究生在讀)則認為,非科班出身,剛轉型AI的程式員最大的彎路是:沒學好數學

而對於數學基礎好,科班出生的AI程式員來說,則應註意以下幾個問題

1.一開始沒人帶的時候,看論文喜歡看最新的,很大程度上忽視了很多比較老比較基礎的論文,嫌棄以前的方法performance不好什麼的……感覺我身邊一些人也走進過這個誤區……

2.永遠不要迷信某個特定的模型,不要因為random forest在某個任務上效果好,就以後遇到什麼任務都上random forest;也不要覺得深度學習就是萬能的,什麼都可以套神經網路解決;不要看到比賽裡面大家整天用xgboost就整人云亦云地複製。學各種演演算法的時候,書上一般會告訴你這個演演算法有balabala優點一堆,但是一般不會告訴你這個演演算法也有balabala一堆缺點,我花了蠻長時間在這個坑裡,慢慢摸索各種不同模型的特性。

3. 不要迷信一些理論性很強的論文,我一開始的時候,經常看到一大堆公式就下意識會覺得這個模型可能效果不錯。事實上很多論文的理論推導和它的程式碼毫無關聯(參見已經徹底回歸煉丹的WGAN GP),還有很多論文的推導需要很強的assumption支援(參見每年都會出現在頂會的一些給模型加riemannian geometry的論文),等等。

那麼面對這些彎路,又應該如何解決呢?

那就是走正統的教育路線,你follow的人一定是真正做事情的人。機器學習還沒有達到批次化流水生產的階段,因此一個好的老師傅比自學效果好很多。不僅如此,老師傅們一般都有自己多年經驗總結出來的經驗,往往可以避免很多不必要彎路。目前機器學習的資料有很多,動輒就有幾個G的材料可以下載或者觀看。而很多朋友都有收集癖,一下子購買十幾本書的人我也常常能夠看到。而機器學習的發展和變化速度很快,在入門期間,建議小而精的選擇資料。這不僅可以節約重覆學習的時間,也可以讀有品位的材料。

為了防止我們走更多的彎路,小象給我們提供了一個follow大牛的機會,幫助我們強化機器學習中需要的數學基礎知識,深入理解經典演演算法的數學原理,不僅可以掌握工業界廣泛應用的機器學習模型,還會培養用機器學習解決問題的思路。

《機器學習》全新升級版Ⅲ

原價     ¥ 899.00 

現超 300 人參團

僅售     ¥ 399.00 


點選文末閱讀原文立即參團


參團,諮詢,檢視課程,請點選【閱讀原文】

↓↓↓

贊(0)

分享創造快樂