資料分析師花費一半以上的時間清理和轉換資料,而不是從中提取商業智慧,這並不稀奇。資料儲存的規模不斷增大,資料型別也在激增。新一代的工具蜂擁而至,並承諾把複雜的工具送到不依賴資料的科學家的手上。
技術領域最熱門的職位之一是資料科學家,或許只有最新出現的首席高管職位:首席資料科學家能超越他們。顯而易見,人們對這種趨勢一直存在質疑,來自美國科技網站InfoWorld的 Yves de Montcheuil曾取用過一則笑話,資料學家就是住在加利福尼亞州的商業分析師。
每個公司都需要把公司的資料轉換為商業智慧,這並不是什麼有趣的事,這就是資料科學家承擔主導責任的時候。但隨著資料數量和種類的激增,資料科學家發現,他們大部分的時間都花費在清理和轉換資料,而不是分析資料,並把它們告訴給企業經理。
最近,IT專案眾包公司CrowdFlower的資料科學家進行了一項調查(需要註冊可檢視)。調查發現,三分之二的分析人員認為清理和組織資料是它們最費時的工作,52%稱他們最大的障礙是資料質量差。受訪者說出了在它們工作中使用的48種不同的技術,最受歡迎的是Excel(55.6%),其次是開源語言研究(43.1%),和Tableau資料視覺化軟體(26.1%)。
▲來源:CrowdFlower公司
資料科學家認為它們最大的挑戰是清理資料花費時間,資料質量差,缺少分析時間,以及無效的資料建模。
是什麼抑制了資料分析的發展?被調查的資料科學家列舉出,包括缺少有效滿足他們工作需要的工具(54.3%),組織沒有清楚地說明標的和宗旨(52.3%),以及培訓投資不足(47.7%)。
▲來源:CrowdFlower公司
缺乏工具,標的不明確,不註重培訓被報告為影響資料科學家效率的主要障礙。
承諾將滿足大資料分析師需要的新工具
在技術領域有一個基本的課題:早期只有少數精英需要理解和使用知識、工具,隨著時間的推移,產品日益改進,價格降低,企業適應,技術逐漸成為了主流。新的資料分析工具蜂擁而至,承諾把技術的效益帶給非科研人員。
2014年8月17日,Steve Lohr在紐約時報上刊登了幾種產品的簡介。例如,ClearStory Data公司的軟體結合多個來源的資料,並轉換成圖表、地圖和其他圖形。在資料準備問題上Paxata公司採取了不同方式,他們的軟體透過各種視覺化工具對資料進行檢索、清理,和混合用於分析。
這家不以營利為目的的知識開放實驗室,號稱是一個為“公民駭客、資料管理者,以及對技術和資訊結合的可能性產生興趣的普通公民”提供的社群。這個組織正在招募“資料管理員”志願者,來維護核心資料集,例如國內生產總值和ISO程式碼。空軍總司令部的Rufus Pollock於2015年1月3日對該專案進行了描述。
▲來源:知識開放實驗室
知識開放實驗室正在尋找志願者程式員,策劃核心資料集並作為零阻力資料計劃的一部分。
沒有比使用Morpheus更簡單和直接的方式來管理異構MySQL、MongoDB、Redis和ElasticSearch資料庫。儀錶板上的一次單擊,Morpheus能使你在混合雲上無縫提供、監控和分析SQL、NoSQL和記憶體資料庫。你創造每個的資料庫實體都包括一個內建的容錯和故障的完整副本集。
譯文連結:https://dzone.com/articles/how-to-minimize-data-wrangling-and-maximize-data-i-1
來源:IT168編譯
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀:
80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系
合作請加qq:365242293
更多相關知識請回覆:“ 月光寶盒 ”;
資料分析(ID : ecshujufenxi )網際網路科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。