小編邀請您,先思考:
-
您在使用機器學習的的挑戰是什麼?
-
機器學習能做什麼?不能做什麼?
1: “資料稀釋性”:訓練一個模型,需要大量(標註)資料,但是資料往往比較稀疏。比如,我們想訓練一個模型表徵某人 “購物興趣”,但是這個人在網站上瀏覽行為很少,購物歷史很少,很難訓練出一個 “meaningful model” 來預測應該給這個人推薦什麼商品等 …
2:“不平穩隨機過程產生的資料”:機器學習模型往往假設資料的產生是 “平穩隨機過程”。但是有些網際網路資料(比如 spam 郵件,spam 網站等)的產生是動態的,不平穩隨機過程 …
3~4:高數量和高質量 “標定資料” 是機器學習效果的保障,但是獲取標定資料需要耗費大量人力和財力。而且,人會出錯,人有主觀性。如何獲取高數量和高質量標定資料,或者用機器學習方法只標定 “關鍵” 資料 (active learning) 值得深入研究 …
5:”Scalability” 是網際網路的核心問題之一。搜尋引擎索引的重要網頁超過 100 億: 如果1臺機器每秒處理1000 網頁,需要至少100天。所以出現了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分散式計算構架。選擇什麼樣的計算平臺,和演演算法設計緊密相關 …
6:“速度” 是網際網路核心的使用者體驗。線下模型訓練可以花費很長時間:比如,Google 某個模型更新一次需要幾千臺機器,大約訓練半年時間。但是,線上使用模型的時候 要求一定要 “快,實時 (real-time)” …
7: 網際網路 每時每刻 都在產生大量新資料,要求模型隨之不停更新,所以 “online learning” 是機器學習的一個重要研究方向。人也是一樣: Life is an online learning process … “online learning” 也是人最重要的能力之一
8:“Cold- Start” (冷啟動) 是網際網路應用的典型問題:一個好網際網路產品,用的人多,得到的資料多;得到的資料越多,模型訓練的越好,產品會變得更好用,用的人就會更多 … 進入 “良性迴圈”。對於一個新產品,在初期,要面臨資料不足的 “冷啟動” 問題 …
9: 機器學習之美在於對於不同的問題需要不同建模方法。我去給講座的時候,經常聽有人說:“SVM 做過,Naive Bayes 做過 … 但效果不好”;做過很簡單,但能否 “做到極致”? 這個世界你能想到別人想不到的事情機率極低,只有一件你花十倍努力做到極致的事情!
10:“Human + Machine” 機器學習應用在一個特定領域,需要特定領域的專家知識:機器學習應用在 “醫學”,需要一個經驗豐富的醫生;應用在 “股票”,需要一個有10年以上經驗的操盤手;應用在 “網際網路”,需要一個上網時間超過 1萬小時的 PM …
親愛的讀者朋友們,您們有什麼想法,請點選【寫留言】按鈕,寫下您的留言。
資料人網(http://shujuren.org)誠邀各位資料人來平臺分享和傳播優質資料知識。
公眾號推薦:
好又樂書屋,分享有益處,有趣味的內容,傳播正能量。
閱讀原文,更多精彩!
分享是收穫,傳播是價值!