資料科學面臨的共同挑戰
原文: The current state of applied data science
來源: https://www.oreilly.com/ideas/the-current-state-of-applied-data-science
品覺導讀:
-
弱監督和資料程式設計可以用來訓練模型,不必使用大量手工標記的訓練資料。
-
需要用多少資料來訓練模型?模型推導的響應時間應該是多少?重新訓練模型和更新資料集的頻率應該是多少?後者說明你擁有可重覆的資料管道。
-
一個迫在眉睫的問題是,《一般資料保護條例》(GDPR)將於2018年5月生效。在其他領域,對抗性機器學習和安全性機器學習(包括能夠處理加密資料)的實踐研究開始出現。
-
使用者更喜歡可解釋的模型(某些情況下,黑盒模型不被人們所接受)。考慮到基本機制易於理解,可解釋的模型也更容易改進。
原文翻譯:
隨著我們進入2017年下半年,是時候看看那些使用資料科學和機器學習的公司面臨的共同挑戰。假設你的公司已經在大規模收集資料,需要用到分析工具,而且你已經認識到資料科學可以發揮重大作用(包括改善決策或企業經營、增加收入等等),併進行了優先排序。收集資料和識別感興趣的問題並非小事,但假設你已經在這些方面起了個好頭,那麼還剩下哪些挑戰呢?
資料科學是一個寬泛的話題,所以我要說明一下:本文主要探討的是督導式機器學習的使用現狀。
一切從(訓練)資料開始
假設你有一支處理資料攝取和整合的團隊,以及一支維護資料平臺(“真相來源”)的團隊,新的資料來源不斷出現,由領域專家負責找出這些資料來源。而且,由於我們主要探討督導式學習,因此,訓練資料的缺乏依然是機器學習專案的首要瓶頸,這一點毫不意外。
在迅速建立龐大的訓練資料集(或者加強現有的訓練資料集)方面,有一些很好的研究專案和工具。斯坦福大學的研究人員已經證明,弱監督和資料程式設計可以用來訓練模型,不必使用大量手工標記的訓練資料。深度學習研究人員對生成式模型的初步研究,已經在無督導式學習的計算機視覺和其他領域取得了可喜的成果。
“思考特性而不是演演算法”,這是在機器學習背景下評估資料的另一個有用方法。友情提示:資料擴充可能改善你的現有模型,在某些情況下,甚至有助於緩解冷啟動問題。大部分資料科學家可能已經利用開源資料或者透過第三方資料提供商,來擴充他們的現有資料集,但我發現,資料擴充有時會遭到忽視。人們覺得,獲取外部資料、使之規範化、並利用這些資料進行實驗,這不像開發模型和演演算法那麼具有吸引力。
從原型到產品
讓資料科學專案實現產品化,這是許多用例的標的。為了使這一過程更有效率,近來出現了一個新的工作角色——機器學習工程師。還有一套新的工具用於推進從原型到產品的轉變,幫助追蹤與分析產品有關的背景和元資料。
機器學習在產品中的應用還處於早期階段,最佳實踐才剛剛開始出現。隨著高階分析模型的普及,有幾點需要考慮,包括:
-
部署環境:你可能需要與已有的日誌或A/B測試基礎設施進行整合。除了把穩定、高效能的模型部署到伺服器以外,部署環境還越來越多地包括,如何以及何時把模型部署到邊緣側(移動裝置是常見的例子)。把模型部署到邊緣裝置的新工具和策略已經出現。
-
規模,延遲,新鮮度:需要用多少資料來訓練模型?模型推導的響應時間應該是多少?重新訓練模型和更新資料集的頻率應該是多少?後者說明你擁有可重覆的資料管道。
-
偏差:如果你的訓練資料不具有代表性,那麼你將得到不理想(甚至不公正)的結果。在某些情況下,你也許可以利用傾向得分或其他方法,相應地調整資料集。
-
監控模型:我認為人們低估了監控模型的重要性。在這個方面,學過統計學的人擁有競爭優勢。想知道模型何時退化以及退化了多少,這可能很棘手。概念漂移也許是一個因素。就分類器而言,一個策略是把模型預測的類別分佈與預測類別的觀測分佈進行比較。你也可以設立不同於機器學習模型評估指標的商業標的。比如,一個推薦系統的任務可能是幫助發現“隱藏或長尾”內容。
-
關鍵應用程式:與普通的消費者應用程式相比,在關鍵環境中部署的模型必須更加穩定。另外,這類環境中的機器學習應用程式必須能夠數月“連續”執行(不會發生記憶體洩漏等故障)。
-
隱私和安全:通常來說,如果你能讓使用者和企業相信他們的資料是安全的,那麼他們可能更願意共享資料。如上文所述,用額外特徵進行擴充的資料往往會帶來更好的結果。對於在歐盟經商的企業而言,一個迫在眉睫的問題是,《一般資料保護條例》(GDPR)將於2018年5月生效。在其他領域,對抗性機器學習和安全性機器學習(包括能夠處理加密資料)的實踐研究開始出現。
模型開發
媒體對模型和演演算法開發的報道越來越多,但如果你同資料科學家交談,他們中的大多數人都會告訴你,訓練資料的匱乏以及資料科學的產品化是更加緊迫的問題。通常來說,市面上已有足夠多的簡單明瞭的用例,讓你可以開發你喜歡的(基本或高階的)演演算法,併在以後進行調整或替換。
由於工具使演演算法的應用變得容易,因此,先回想一下如何評估機器學習模型的結果,這很有必要。儘管如此,不要忽視了你的業務指標和標的,因為它們未必與除錯得最好或表現得最好的模型完全相符。關註與公正和透明有關的事情進展,研究人員和企業正開始檢查、解決這方面的問題。對隱私的擔憂,加之裝置的激增,催生了不依賴於集中式資料集的技術。
深度學習正逐漸變成資料科學家必須瞭解的演演算法。深度學習最初用於計算機視覺和語音識別,現在開始涉及資料科學家能想到的各種資料型別和問題。其中的挑戰包括,選擇適當的網路結構(結構工程是新的特徵工程),超引數調整,以及描述問題和轉換資料以適合深度學習。(巧合的是,今年我見過的最有趣的大型資料產品之一,並不是基於深度學習。)
很多時候,使用者更喜歡可解釋的模型(某些情況下,黑盒模型不被人們所接受)。考慮到基本機制易於理解,可解釋的模型也更容易改進。隨著深度學習的興起,企業開始使用那些能解釋模型預測原理的工具,以及能解釋模型從何而來(透過追蹤學習演演算法和訓練資料)的工具。
工具
我不想列出一個工具清單,因為可列舉的工具實在太多了。幫助我們攝取、整合、處理、準備和儲存資料以及部署模型的工具都非常重要。以下是對機器學習工具的幾點看法:
-
Python和R是最流行的機器學習程式語言。對於那些想使用深度學習技術的人來說,Keras是最受歡迎的入門級語言。
-
雖然膝上型電腦似乎是不錯的模型開發工具,但整合開發環境(IDE)在R使用者中深受歡迎。
-
通用機器學習和深度學習的庫有很多,其中一些更善於推進從原型到產品的轉變。
-
推進從單機到叢集的擴充套件是重要的考慮事項。在這方面,Apache Spark是使用廣泛的執行框架。經過一系列的資料整理後,你的資料集往往適合部署到穩定的單一伺服器上。
-
供應商開始支援協作和版本控制。
-
最後,你可能需要資料科學工具來無縫整合現有的生態系統和資料平臺。
企業如果想評估哪些問題、哪些用例適合於運用機器學習,眼下就是一個很好的時機。我總結了一些近期的趨勢和尚未解決的瓶頸,你從中得出的主要結論應該是:現在可以開始使用機器學習了。先從已經擁有一部分資料的問題入手,然後建立出色的模型。
本次轉自:品覺 微信公眾號(pinjueche.com)
車品覺簡介
暢銷書《決戰大資料》作者;國信優易資料研究院院長;紅杉資本中國基金專家合夥人;浙江大學管理學院客席教授;全國信標委員;資料標準工作組副組長;美麗心靈基金會桑珠利民基金副主席。
原阿裡巴巴集團副總裁,首任阿裡資料委員會會長;現擔任中國資訊協會大資料分會副會長、中國計算機學會大資料專家委員會副主任、粵港資訊化專家委員、中國計算數學學會第九屆理事、清華大學教育指導委員(大資料專案)、浙江大學管理學院客席教授等職。
END
推薦:
死板、獃萌、宅、不解人意…作為一名敲程式碼為生的程式員,你是不是被旁人貼過太多不屬於你的標簽?
1024程式員節這天,100offer給你一個撕掉標簽的機會:關註100offer微訊號,傳送一段話/一張圖/一段影片/一條語音…展示你除了敲程式碼以外的神技能,還有最高價值1024元的“程式員興趣基金”等你拿!