實際上,與資料的規模相比,資料的質量、價值和多樣性更值得關註,即資料的“深度”重於“廣度”。本文從四個角度思考了大資料時代的問題並提出了一些建議的做法以改善這些問題。
作者:Stephen Smith
編譯:Alex,編輯:Debra
來源:AI前線(ID:ai-front)
最近一段時間,對大資料的炒作正在減弱。雲端計算,Hadoop 及其他類似的工具已經有效地解決了大資料的處理問題。
但是,仍有大部分人願意在基礎設施上加大投資力度,以期望處理、儲存和組織這些大型資料庫。一味的地追求“大”,會在基礎設施和人力資源方面產生一定程度上的不必要成本。
而現在,是時候將熱點從“大資料”改為“深資料”了。如今,我們對待資料應當更加深思熟慮,而不是不加篩選地收集所有可獲得的資料來實現“大資料”。我們現在需要讓一些資料落實到位,並尋求數量和質量的多樣性。這一舉措將帶來許多長期利益。
01 四種大資料神話
要理解從“大”到“深”的這種轉變,首先讓我們看一下對大資料的一些錯誤觀念。以下是一些嚴重誇大的大資料神話:
-
所有資料都可以並且應當被捕獲和儲存。
-
更多的資料總是有助於建立更準確的預測模型。
-
儲存更多資料的成本幾乎為零。
-
計算更多資料的成本幾乎為零。
然而:
-
來自物聯網和網路流量的資料顯然超過了我們的捕獲能力。很多資料都需要在獲取時進行預處理以便儲存和管理。我們需要依照其價值對資料進行分類與篩選。
-
重覆使用一千次相同的資料進行訓練並不會提高預測模型的準確性。
-
儲存更多資料的成本不僅僅是亞馬遜網路服務向您收取的以 TB 計費的美元。同時也包括系統在查詢和管理多個資料源的額外複雜性,以及員工移動和使用該資料的“虛擬重量”。這些成本通常高於儲存和計算費用。
-
人工智慧演演算法對計算資源的需求會快速超越彈性雲基礎設施所能提供的算力。在沒有專業的管理策略的情況下,計算資源會呈線性增長,而計算需求則會出現超線性增長,甚至指數級增長。
如果輕信了這些神話,你所構建的資訊系統可能看起來會像是紙上談兵,或從長期角度看起來很好,但在即時性的框架中實現起來則是複雜且低效的。
02 四種大資料問題
以下是在資料方面盲目相信“越多越好”會導致的四個問題:
-
重覆的資料對模型無益。在為 AI 構建機器學習模型時,訓練樣本的多樣性至關重要。原因是模型試圖確定概念邊界。例如,如果您的模型試圖透過年齡和職業來定義“退休工人”的概念,那麼像“32 歲的註冊會計師”這樣的重覆樣本對該模型並沒有什麼價值,因為這些人大都沒有退休。在 65 歲的概念邊界中獲得樣本並瞭解退休如何隨職業而變化則更具有價值。
-
低質量資料會對模型有害。在 AI 試圖學習兩個概念之間邊界的過程中,如果新資料是不精確的,或存在錯誤,那麼它會混淆這個邊界。在這種情況下,更多資料無濟於事,並且還有可能會降低現有模型的準確性。
-
大資料增加了時間成本。對於不同學習演演算法,在 TB 級的資料上構建模型可能會比在數 GB 的資料上構建模型多花費約千倍、甚至萬倍的時間。資料科學本就是快速實驗,雖不完美卻輕量的模型更具有前景。資料科學一旦失去了速度,則失去了未來。
-
大資料環境下易於實現的模型。任何預測模型的最終目的都是建立一個可用於商業部署的高度準確的模型。有時使用來自資料庫深處陰暗面的模糊資料可能會產生更高的準確性,但所使用的資料對於實際部署可能是有風險的。使用一個不太準確卻可以快速部署和執行的模型往往更好。
03 四種更好的措施
您可以採取一些措施來對抗大資料的“陰暗面”並轉為深度資料思維:
-
學會在準確性和執行性之前權衡。資料科學家普遍喜歡將標的定為更準確的模型。實際上,你應當根據準確性和部署速度,計算合理的 ROI 期望,然後再開始你的專案。
-
使用隨機樣本構建每個模型。如果你已經獲得了大資料,那麼沒有理由不使用它。如果可以使用好的隨機抽樣方法,那麼你可以先使用小樣本建立模型,然後在整個資料庫上進行訓練和除錯以獲得更準確的預測模型。
-
丟棄一些資料。如果您對來自物聯網裝置和其他來源的流資料感到不知所措,請拋棄一些資料,不要有太大的負擔。如果你無法購買足夠的磁碟來儲存多餘的資料,它會破壞你在資料科學生產線後期的所有工作。
-
尋找更多資料源。人工智慧最近的許多突破並不是因為更大的資料集,而是能夠將機器學習演演算法成功的運用於這些資料,這在之前是無法實現的。例如,如今普遍存在的大型文字,影象,影片和音訊資料集在二十年前並不存在。你應當不斷尋找新的資料以找到更好的機會。
04 四種得到的改善
如果您專註於深度資料而不僅僅是資料的廣度,您將享受到許多好處。以下是一些關鍵問題:
-
一切都會更快。使用較小的資料,您的資料遷移、實驗、訓練和模型測試都會快得多。
-
更少的儲存和計算需求。專註於深度資料意味著您將更加智慧地使用更小的磁碟以及雲平臺佔用空間。這將為你節省一筆可觀的基礎設施成本,用你節省的資金聘請更多資料科學家和 AI 專家吧!
-
低壓的 IT 人員和更高幸福感的資料科學家。憑藉深厚的資料文化,您的 IT 團隊將不會願意聽從資料科學家的意見行事,或者不得不終止所有因沉浸於雲資源而失控的作業。同樣,當資料科學家花費更多時間構建和測試模型,而不是將這些時間消耗在遷移資料或等待長時間的訓練過程時,他們會更加高興。
-
更難的問題可以解決。構建 AI 模型並不是一種神奇的體驗,只能由類似巫師的研究人員執行。事實上,邏輯遠比魔術更重要。這類似於一位藝術老師的故事,他告訴半個班級,他們的成績將取決於他們製作的藝術品的數量,另一半的成績將根據他們最好的作品的質量進行評分。很多學生都創造了大量的藝術品,並且令人震驚的是,這些藝術品的質量也都不差。數量和質量很多時候並不矛盾。這則例子是想說明:在相同資源約束下嘗試的更多模型可能意味著可以獲得質量更高的模型。
許多公司的決策過程都在逐漸轉變為資料驅動的方式,這與大資料及其技術方面的突破密不可分。隨著人工智慧的興起以及對這些強大資源的處理能力的飽和,我們現在需要更加精確地根據我們的資料需求建立一種理解深度資料而不僅僅是廣度資料的文化。
檢視英文原文:
https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html
據統計,99%的大咖都完成了這個神操作
▼
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞 檢視更多優質內容!
PPT | 報告 | 讀書 | 書單 大資料 | 揭秘 | 人工智慧 | AI Python | 機器學習 | 深度學習 | 神經網路 視覺化 | 區塊鏈 | 乾貨 | 數學
Q: 大資料遇到的問題,解決了嗎?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視