然而,所謂的企業資料從當前狀態變得日漸陳舊,雖然以某種形式進行儲存,但是難以進行分析和檢索。這些資料有著重大的意義,企業需要有一個專門的地方來分析它,以挖掘各種潛在的商機,這就是資料湖產生的原因,也是本文主要探討的問題。
作者:湯姆斯·約翰 潘卡·米斯拉
如需轉載請聯絡大資料(ID:hzdashuju)
企業資料主要分為3大類,具體如下:
-
主資料(master data),指的是詳細描述企業內部主要物體的資料。透過觀察主資料,可以瞭解企業涉及的業務。這些資料通常由不同部門管理和掌握。其他類別的資料,如後文所述,需要利用主資料來產生價值。
-
事務資料(transaction data),指的是各種應用程式(內部或外部)在處理企業內的各種業務流程時產生的資料。事務資料也包括人員相關的資料,雖然某些時候並不屬於業務資料,但這部分資料也非常重要。分析這部分資料,可以幫助企業最佳化業務。這些資料也依賴於主資料,並經常取用主資料。
-
分析資料(analytic data),實際上指的是來源於前兩類資料的資料。這部分資料是對企業中的各種物體(主資料)的深入分析,同時結合事務資料,為企業提供積極的建議,經過必要的調研之後,這些建議可以被企業採納。
前面已經解釋過這些型別的資料對企業的重要性,大多數企業都有管理這幾類資料的機制,通常叫作企業資料管理(Enterprise Data Management,EDM)。
圖1-2顯示了各種型別的企業資料以及它們是如何相互影響的。
▲圖1-2 不同型別的企業資料
如圖1-2所示,事務資料和分析資料都利用了主資料。分析資料也依賴於事務資料,並根據不同客戶的需求進行有意義的分析。
01 企業資料管理
組織具有能夠精確定義資料、輕鬆整合資料和同時為內部應用和外部通訊檢索資料的能力。
——維基百科
EDM強調資料的精確性、粒度和含義,關註資料內容如何整合到業務應用程式中,以及資料如何從一個業務流程轉移到另一個業務流程。
——維基百科
正如維基百科的定義中明確指出的那樣,EDM是定義了企業資料如何儲存、儲存的位置以及使用哪些技術來儲存和檢索這類資料的一整套策略。
此類資料價值巨大,必須處於正確的控制下以保證安全,並且需要以明確的方式進行掌握和管理。EDM還定義了資料如何與內部和外部的應用程式進行通訊。此外,資料交換的相關政策和流程也必須明確。
對企業來說實現EDM非常容易,但實際上卻是困難重重。一個企業有多個部門,每個部門都產生資料;基於這些部門的重要性,它們所產生的資料與整個組織密切相關。
由於彼此處境不同,不同資料的所有者在EDM中有著不同的利益點,這會產生衝突,從而給企業帶來危害。這就需要在EDM中制定各種政策和程式來明確資料的所有權。
02 企業中資料如何存放
企業資料以原始資料格式、二進位制檔案(圖片和影片)等形式儲存,存放的位置可以是各種內部應用程式的持久化儲存,也可以存放到外部的私有或公有的雲平臺中。首先,需要對資料型別進行劃分。按照資料存放位置劃分如下:
-
行內網(企業內部)
-
網際網路(企業外部)
另一種方式是按照資料儲存的格式劃分,具體如下:
-
持久化儲存引擎(RDBMS或者NoSQL)
-
傳統的資料倉庫(基於RDBMS、NoSQL等)
-
檔案儲存
下麵進一步詳細介紹這些資料型別。
1. 行內網(企業內部)
企業資料存放在自己的私有網路,即行內網中。
企業內部的各種應用程式也執行在私有網路中,並且只有指定的人員才能訪問。因此,從這些應用程式獲取的資料能以安全和私密的方式儲存於企業內部。
這些應用產生的資料可能是員工資料,也可能是日常使用中產生的事務資料。
企業用來構建行內網的技術包括區域網(LAN)和廣域網(WAN)。此外,企業內部還有多個應用平臺可以使用,資料可以以結構化方式儲存在不同的儲存引擎中,例如,傳統的RDBMS和NoSQL資料庫。除了這些儲存引擎,還有以各種檔案形式存放的非結構化資料。
另外,大資料企業都有傳統的資料倉庫,用來存放清洗後的資料以備分析之用。
2. 網際網路(企業外部)
大約從近10年開始,大多數企業都擁有自己的資料中心,幾乎所有的企業資料都存放於此。伴隨雲端計算的發展,企業開始把一些資料存放到私有資料中心以外的雲平臺上,加上健全的安全控制,未經授權的人根本接觸不到這些資料。
採用雲服務的方式能極大地降低企業的運營成本,這是雲服務最大的優勢。本文將進一步介紹這個領域,包括更細粒度的類別劃分。
2.1 雲託管業務應用程式
雲端計算供應商提供了各種服務,如SaaS、PaaS、IaaS等,企業可以把業務應用程式託管到雲中,同樣也能滿足企業管理的需求。因此,許多企業選擇把內部開發的應用程式託管到這些雲端計算提供商。
員工使用這些部署在雲中的應用程式,進行日常的一些操作,這和操作部署在企業自有的資料中心中的應用沒有區別。
2.2 第三方雲端計算方案
如今這麼多公司把自身的應用/服務託管到雲端,這些應用/服務用起來就跟部署在本地一樣,但是企業不必考慮維護和管理應用/服務所需的基礎架構。這些僅僅依賴雲端環境的產品,最吸引企業的一點是它們的收費方式。
基於這個優點,企業傾向於選擇這些雲產品,同時也由於雲產品的先天特點,企業現在也將資料(業務相關)儲存在其他的雲設施中,即使雲提供商完全掌控了這些資料。
Google的BigQuery就是這樣一款雲服務軟體,使用者可以把資料匯出到雲服務中,然後執行這個軟體來進行各種分析工作。
這類產品有一個優點,就是我們可以根據分析的結果來決定是否保留這些資料。雲服務具有天然的可伸縮性(硬體層面隨意擴充套件和收縮的能力),如果資料分析很複雜,可以臨時申請效能強勁的伺服器,分析結束之後又可以把伺服器的配置恢復到此前的水平。
當前階段,類似的解決方案仍在不斷地湧現,本文不再一一羅列。
與SaaS的方式類似,雲端還有很多業務應用程式也可以作為服務對外提供。Salesforce就是這樣的一個例子。
本質上,Salesforce是一個客戶關係管理(CRM)的解決方案,但是它還集成了很多其他特性。筆者在這裡並不是想幫助推銷Salesforce,但是希望介紹一些雲端業務應用的重要特性。Salesforce將所有的客戶資訊彙總到一起,幫助企業從銷售、業務分析和客戶服務等幾個維度來構建以使用者為中心的商業樣式。
因為部署在雲端,Salesforce也帶來了很多雲端SaaS的特性。
隨著雲服務對企業的影響越來越大,現在大量企業把資料儲存在網際網路(雲)上,同時,這些雲服務要明確保護客戶隱私和其他共同權益,以捍衛企業的商業標的。
2.3 社交資料(結構化與非結構化)
如今,企業的社交關係變得至關重要,即使企業的資料並沒有儲存在社交網站上,它仍然包含了豐富的資訊,這些資訊來自企業業務和其服務的真實客戶。
使用者在社交網站上留下各種評價和建議,企業可以利用這些資料重塑自己的業務和與使用者互動的方式。
如果企業忽視此類資訊,很可能會損害企業的聲譽和品牌。現在企業非常重視社交網站,因為這些網站上即使沒有企業的資料,也有客戶的評價資訊,在某種程度上,這些資訊代表了客戶對品牌的認知。
於是,我們傾向於將這部分資料歸類為非企業使用者提供的企業資料。在分析這類資料時,需要特別關註大資料的第4個V(見圖1-3),即精準性。因為有些人會利用這個渠道,在與企業進行業務往來時,獲得一些不正當的優勢。
另一個對企業資料進行分類的方式是按資料最終的儲存方式。
▲圖1-3 大資料的4V
3. 資料持久化儲存(RDBMS或者NoSQL)
無論是在企業內部(企業基礎架構)還是在雲服務中,資料通常都以結構化資料的方式儲存在所謂的傳統RDBMS或者新一代NoSQL持久化儲存中。資料透過業務應用程式寫入這些儲存系統,絕大部分資料在本質上是不相關的,企業可以很容易理解這些資料。
資料儲存在傳統的RDBMS類儲存系統中時,會遇到的一個常見的問題,即資料量超出了可接受的範圍。在這種情況下,對資料進行分析將耗費大量的時間和精力。
因此,企業被迫將資料分拆為生產資料(資料可以被業務應用查詢和使用)和非生產資料(從生產系統轉移到另外的儲存系統中的離線資料)。
由於這種拆分,資料分析通常跨越若干年,這種分析並不能改寫到企業的全部業務因素。
舉例來說,如果生產系統中有5年的銷售資料,而非生產系統儲存了15年的銷售資料,那麼使用者在進行銷售資料分析時,只能檢視過去5年的資料。可能存在週期剛好為5年的變化趨勢,只有對20年的銷售資料進行分析才能發現。
大多數時候,由於RDBMS的侷限,儲存和分析海量資料是不可能的。即使勉力為之,這種分析也十分耗時,也不能給分析師提供足夠的靈活性。這樣一來,分析師只能進行有限的分析,如果企業正在透過這些資料來調整業務流程,那麼可能會給企業帶來大麻煩。
新一代NoSQL(該領域中不同的資料庫具有不同的功能)讓資料分析更靈活,同時儲存資料的量也大大增加。這些儲存滿足了分析師們在效能以及其他某些方面的需求,但是在一些方面仍然存在不足。
即使資料儲存在一個業務應用中,各種業務應用的資料並沒有匯聚成一個單一的檢視,而建設一個合適的資料湖能幫企業解決這種問題。
4. 傳統的資料倉庫
由於生產系統的業務應用獲取的資料量巨大,幾乎所有的時間裡,生產系統的資料都與非生產系統分離。非生產系統的資料通常儲存在不同的區域中,並儲存在不同的資料儲存系統(通常是RDBMS或者NoSQL)中,這種儲存系統就是所謂的資料倉庫。
通常來說,根據資料分析師的需求,資料會被相應地清洗和刪除。刪除部分資料會限制分析師能執行的分析的類別。大多數情況下,都會有隱藏的有價值的資料尚未進入資料倉庫,這就會導致更多的分析,而企業可以基於這些分析來調整業務;然而,此類資料清理和刪除可能會扼殺潛在的創新。因此這方面需要改進。
而資料湖使得分析師可以引入生產系統中的任意業務應用資料,並根據具體情況進行各種分析。
目前,構建這類資料倉庫的方案是透過ETL(Extract,Transform,Load,即抽取、轉換、載入),從生產系統的資料庫提取資料並儲存到資料倉庫中。ETL流程會根據分析師的需求來清洗資料,而分析師會在資料倉庫中進行各種分析。
5. 檔案儲存
業務應用程式在不斷地變化,新的應用允許終端使用者以各種格式獲取資料,而不僅僅限於從鍵盤輸入的格式化資料。
終端使用者另一種輸入資料的渠道是提交不同格式的檔案。其中一些眾所周知的格式如下:
-
檔案(PDF、DOC、XLS等)
-
二進位制
圖片(JPG、PNG等)
音訊(MP3、RAM、AC3)
影片(MP4、MPEG、MKV)
正如前文中介紹的那樣,處理結構化資料本身就是一個大問題,現在又引入了非結構化資料的分析。但是,分析非結構化資料與分析結構化資料同等重要。透過構建資料湖,我們可以圍繞資料湖引入新的技術,利用大資料領域最新和最好的技術,可以從非結構資料中挖掘到巨大價值。
除了各種檔案格式的資料,有很多應用允許終端使用者以陳述句的形式獲取大量資料,這部分資料也需要分析。手動處理這些來自終端使用者的評論資料是一項艱難的任務,在現代化的今天,需要的是自動化地解析這些評論,並瞭解使用者的觀點。同樣,有很多這樣的技術可以理解這些資料(如自由文字流),讓企業能夠正確地處理它。
舉例來說,假如我們有一個獲取企業建議的系統,每天能獲取近1000條建議,由於該業務的天然屬性,很難對這些建議進行過濾分析。
這種場景中,我們可以利用一些技術來對這些評論進行情感分析,然後根據這些分析工具給出的評分進行初步的過濾,再將篩選後的建議交給能夠理解和利用這部分資料的人來處理。
03 企業現狀
企業資料當前的狀態可以總結為以下幾點:
1. 傳統DW(Data Warehouse)/BI(Business Intelligence)
-
使用ETL清洗來自生產業務應用的資料。
-
早於一定時間的資料會轉移到另外的儲存系統(如磁帶)中,但是很難對這部分資料進行檢索。
-
一些顯著的缺陷:
資料倉庫中儲存的是清洗後的生產資料的子集;在資料倉庫中新增任何資料元素都需要付出代價。
資料倉庫中儲存的是全量資料的一個子集,其餘資料會轉存到另外的持久儲存系統中去。
-
通常分析速度較慢,即使對查詢做了一定程度的最佳化。
2. 大資料孤島
-
一些部門在建設大資料時採取了正確的措施。但是部門間通常不會互相協作,這些大資料平臺就成了孤島,並沒有真正給企業帶來價值。
-
一些顯著的缺陷:
大資料平臺的孤立性再次限制了分析師,使得分析師們無法跨部門整合和查詢資料。
需要大量資金來構建、維護、管理這些資料孤島,時間一長就難以為繼。
3. 大量非連線應用
-
在企業內部和雲服務中部署大量應用程式。
-
除了產生結構化資料,應用程式也產生非結構化資料。
-
一些顯著的缺陷:
互相沒有通訊。
即使有通訊,資料科學家們既不能有效地利用這些資料,也不能對企業進行有益的改進。
各個業務應用在多個方面重覆使用各種技術。
這裡並不是說投資構建資料湖是解決上述所有缺陷的“銀彈”。但是這個方向一定是正確的,企業至少應該花時間去思考是否確實需要資料湖,如果答案是肯定的,就不要過多考慮,直接著手去構建。
構建資料湖是企業的一項戰略級決策,在構建時需要所有相關人員的認可與支援,而且需要高管層投入精力關註這個專案。基於資料湖,企業一定能找到改進業務流程的方法。它能讓高管人員更深入地瞭解業務,同時也能提升決策的成功率。
04 企業數字化轉型
數字化轉型指的是應用數字化技術,從根本上影響商業和社會的方方面面。
——infoworld.com
數字化轉型(DX)是一個流行的行業術語,每個企業都毫不猶豫地跟隨了這個趨勢。這個術語指的是企業向以資訊科技為核心轉型。技術領域的投入是這項轉型的一部分,但資料才是轉型的關鍵。
近年來,企業越來越多地認識到資料和資料分析的重要性,這無疑讓企業有了新思維。這種轉型就是一種以資料為中心的實踐。
作為商業轉型的一部分,企業絕對應該把資料湖列入重點投入專案串列,所有部門都應該欣然將資料歸集到資料湖來完成資料共享,而不能對它存有偏見。
-
企業轉型之路
埃森哲互動曾經委託Forrester諮詢公司進行過一項研究,該研究表明數字化轉型的關鍵驅動力是提升盈利能力、客戶滿意度和產品迭代速度。
實際上,很多企業已經走上了數字化的轉型之路。數字化轉型不再是一句空話,很多企業正竭力轉向把技術作為驅動力之一,而另一個驅動力,就是資料。
轉型中的企業有明確的標的。當然,這些標的與它們所處的具體行業有關。但是有些標的是公共的,具體如下:
-
從根本上改善客戶體驗。
-
削減成本。
-
增加收入。
-
差異化競爭。
-
調整業務流程,反過來改善商業樣式。
以下是轉型標的舉例,關於企業在該領域希望達到的標的,有一系列清晰的例子,部分如下:
-
能夠對客戶進行細分並提供個性化的產品。在恰當的時間向合適的客戶推送廣告。
-
引進更多的技術,減少體力勞動,企業實現全方位數字化。
-
結合社交資訊和企業自身資料,為決策提供支援。
-
以更為量化的方式預測未來,並採取必要措施,提前做好預案。
-
以技術為重要載體實現業務全球化。
下文將詳細介紹企業在數字化轉型中希望實現的一個用例,其中資料是主要的貢獻因素。
05 資料湖用例啟示
資料在企業中的重要性已經顯露無遺。當今企業所面臨的問題是如何從這些資料中挖掘有用資訊來最佳化自身的業務。
即便資料能夠以某種方式匯聚到一起,也很難在合適的時間內處理數量如此巨大的資料。這時資料湖進入了人們的視野。在大資料(ID:hzdashuju)此前的文章中曾全面而詳盡地介紹資料湖到底是什麼。下文將介紹一個以資料湖為中心的用例。
基於現代技術構建資料湖有很多優勢,其中一些如下:
-
透過各種資料分析,企業能找到業務中重要的人員和流程,也能深入瞭解各類客戶。
-
企業能在適度的時間範圍內完成這些分析,而不用等待幾周甚至幾個月。
-
業務使用者能快速分析資料,進而快速調整業務流程。
這個用例叫作單一客戶檢視(Single Customer View,SCV)。單一客戶檢視是業內眾所周知的術語,它有很多種定義,下麵是其中之一:
單一客戶檢視是組織或企業的客戶資料的一種聚合的、一致的及全面的表示。
——維基百科
企業將客戶資料儲存在不同的業務應用中,這會導致不同程度的資料孤島現象。該用例旨在將這些不同來源的資料整合到一起,提供給分析人員檢視,從而建立一個包含所有資料的客戶檢視。透過這個檢視,企業能對客戶進行細分,進而向客戶進行精準廣告投放。
這個用例對企業的意義可以歸納為如下幾點:
-
客戶細分。
-
資訊整合。
-
增進客戶關係,避免客戶流失。
-
更深入的分析等。
從概念上講,圖1-5中總結了我們計劃實現的用例。結構化、半結構化和非結構化資料都被灌入資料湖。單一客戶檢視從資料湖中以整體性方式被匯出。該用例會引入各類資料,也會詳細描述各種型別的資料樣本。之所以這樣做,是因為這樣可以充分利用資料湖,同時也更為接近真實情況。
圖1-5中顯示了資料湖從各種資料源(多樣性),以不同的速度獲取不同數量級的資料。更多地,這是一個概念性的抽象檢視,本文篇幅有限,如需瞭解更詳細的內容可閱讀《企業資料湖》一書,你將會確切知道它具體指代的是什麼。
▲圖1-5 SCV資料湖用例的概念檢視
關於作者:湯姆斯·約翰(Tomcy John)是一名企業級Java技術專家,擁有工學學士學位,並且有超過14年多行業的開發經驗。
潘卡·米斯拉(Pankaj Misra)是一名技術傳播者,擁有工程學士學位,並且有超過16年跨多個業務領域的技術經驗。
本文摘編自《企業資料湖》,經出版方授權釋出。
延伸閱讀《企業資料湖》
點選上圖瞭解及購買
轉載請聯絡微信:togo-maruko
推薦語:從軟體工程師、架構師角度出發,手把手教企你為業構建自己的資料湖。“資料湖”已經成為大資料行業的一個重要術語,它是資料科學家們獲得有意義的洞察力的平臺,這些洞察力可以被企業用來重新定義或改變它們的運營方式。