今天這篇文章,就讓我們花5分鐘的時間,來深入瞭解一下,到底什麼是大資料。
作者:小棗君
來源:鮮棗課堂(ID:xzclasscom)
對於很多人來說,當他第一次聽到“大資料”這個詞,會自然而然從字面上去理解——認為大資料就是大量的資料,大資料技術就是大量資料的儲存技術。
但是,事實並非如此。
大資料比想象中複雜。它不只是一項資料儲存技術,而是一系列和海量資料相關的抽取、整合、管理、分析、解釋技術,是一個龐大的框架系統。
更進一步來說,大資料是一種全新的思維方式和商業樣式。
01 大資料的定義
首先,還是要重新審視大資料的定義。
行業裡對大資料的定義有很多,有廣義的定義,也有狹義的定義。
廣義的定義,有點哲學味道——大資料,是指物理世界到數字世界的對映和提煉。透過發現其中的資料特徵,從而做出提升效率的決策行為。
狹義的定義,是技術工程師給的——大資料,是透過獲取、儲存、分析,從大容量資料中挖掘價值的一種全新的技術架構。
相比較而言,我還是喜歡技術定義,哈哈。
大家註意,關鍵詞我都在上面原句加粗了哈!
-
要做什麼?——獲取資料、儲存資料、分析資料
-
對誰做?——大容量資料
-
目的是什麼?——挖掘價值
獲取資料、儲存資料、分析資料,這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在乾這個事。
例如,每月的月初,考勤管理員會獲取每個員工的考勤資訊,錄入Excel表格,然後存在電腦裡,統計分析有多少人遲到、缺勤,然後扣TA工資。
但是,同樣的行為,放在大資料身上,就行不通了。換言之,傳統個人電腦,傳統常規軟體,無力應對的資料級別,才叫“大資料”。
02 大資料,到底有多大?
我們傳統的個人電腦,處理的資料,是GB/TB級別。例如,我們的硬碟,現在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關係,大家應該都很熟悉了:
1 KB = 1024 B (KB – kilobyte)
1 MB = 1024 KB (MB – megabyte)
1 GB = 1024 MB (GB – gigabyte)
1 TB = 1024 GB (TB – terabyte)
而大資料是什麼級別呢?PB/EB級別。
大部分人都沒聽過。其實也就是繼續翻1024倍:
1 PB = 1024 TB (PB – petabyte)
1 EB = 1024 PB (EB – exabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬碟可以儲存。容量大約是20萬張照片或20萬首MP3音樂,或者是671部《紅樓夢》小說。
▲普通硬碟
1PB,需要大約2個機櫃的儲存裝置。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年……
▲2個機櫃
1EB,需要大約2000個機櫃的儲存裝置。如果併排放這些機櫃,可以連綿1.2公里那麼長。如果擺放在機房裡,需要21個標準籃球場那麼大的機房,才能放得下。
▲21個籃球場
阿裡、百度、騰訊這樣的網際網路巨頭,資料量據說已經接近EB級。
EB還不是最大的。目前全人類的資料量,是ZB級。
1 ZB = 1024 EB (ZB – zettabyte)
2011年,全球被建立和複製的資料總量是1.8ZB。
而到2020年,全球電子裝置儲存的資料,將達到35ZB。如果建一個機房來儲存這些資料,那麼,這個機房的面積將比42個鳥巢體育場還大。
資料量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。
目前的大資料應用,還沒有達到ZB級,主要集中在PB/EB級別。
大資料的級別定位:
1 KB = 1024 B (KB – kilobyte)
1 MB = 1024 KB (MB – megabyte)
1 GB = 1024 MB (GB – gigabyte)
1 TB = 1024 GB (TB – terabyte)
1 PB = 1024 TB (PB – petabyte)
1 EB = 1024 PB (EB – exabyte)
1 ZB = 1024 EB (ZB – zettabyte)
03 資料的來源
資料的增長,為什麼會如此之快?
說到這裡,就要回顧一下人類社會資料產生的幾個重要階段。
大致來說,是三個重要的階段。
第一個階段,就是計算機被髮明之後的階段。尤其是資料庫被髮明之後,使得資料管理的複雜度大大降低。各行各業開始產生了資料,從而被記錄在資料庫中。這時的資料,以結構化資料為主(待會解釋什麼是“結構化資料”)。資料的產生方式,也是被動的。
▲世界上第一臺通用計算機ENIAC
第二個階段,是伴隨著網際網路2.0時代出現的。網際網路2.0的最重要標誌,就是使用者原創內容。隨著網際網路和行動通訊裝置的普及,人們開始使用部落格、facebook、youtube這樣的社交網路,從而主動產生了大量的資料。
第三個階段,是感知式系統階段。隨著物聯網的發展,各種各樣的感知層節點開始自動產生大量的資料,例如遍佈世界各個角落的感測器、攝像頭。
經過了“被動-主動-自動”這三個階段的發展,最終導致了人類資料總量的極速膨脹。
04 大資料的4Vs
行業裡對大資料的特點,概括為4個V。前面所說的龐大資料體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是Variety、Velocity、Value。
我們一個一個來介紹。
1. Variety(多樣化)
資料的形式是多種多樣的,包括數字(價格、交易資料、體重、人數等)、文字(郵件、網頁等)、影象、音訊、影片、位置資訊(經緯度、海拔等),等等,都是資料。
資料又分為結構化資料和非結構化資料。
從名字可以看出,結構化資料,是指可以用預先定義的資料模型表述,或者,可以存入關係型資料庫的資料。
▲結構化資料
例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化資料。
而網頁文章、郵件內容、影象、音訊、影片等,都屬於非結構化資料。
在網際網路領域裡,非結構化資料的佔比已經超過整個資料量的80%。
大資料,就符合這樣的特點:資料形式多樣化,且非結構化資料佔比高。
2. Velocity(時效性)
大資料還有一個特點,那就是時效性。從資料的生成到消耗,時間視窗非常小。資料的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現在的按秒甚至毫秒變化。
我們還是用數字來說話:
就在剛剛過去的這1分鐘,資料世界裡發生了什麼?
Email:2.04億封被髮出
Google:200萬次搜尋請求被提交
Youtube:2880分鐘的影片被上傳
Facebook:69.5萬條狀態被更新
Twitter:98000條推送被髮出
12306:1840張車票被賣出
……
怎麼樣?是不是瞬息萬變?
3. Value(價值密度)
最後一個特點,就是價值密度。
大資料的資料量很大,但隨之帶來的,就是價值密度很低,資料中真正有價值的,只是其中的很少一部分。
例如透過監控影片尋找犯罪分子的相貌,也許幾TB的影片檔案,真正有價值的,只有幾秒鐘。
▲2014年美國波士頓爆炸案,現場調取了10TB的監控資料(包括移動基站的通訊記錄,附近商店、加油站、報攤的監控錄影以及志願者提供的影像資料),最終找到了嫌疑犯的一張照片
05 大資料的價值
剛才說到價值密度,也就說到了大資料的核心本質,那就是價值。
人類提出大資料、研究大資料的主要目的,就是為了挖掘大資料裡面的價值。
大資料,究竟有什麼價值?
早在1980年,著名未來學家阿爾文·托夫勒在他的著作《第三次浪潮》中,就明確提出:“資料就是財富”,並且,將大資料稱為“第三次浪潮的華彩樂章”。
-
第一次浪潮:農業階段,約1萬年前開始
-
第二次浪潮:工業階段,17世紀末開始
-
第三次浪潮:資訊化階段,20世紀50年代後期開始
進入21世紀之後,隨著前面所說的第二第三階段的發展,移動網際網路崛起,儲存能力和雲端計算能力飛躍,大資料開始落地,也引起了越來越多的重視。
2012年的世界經濟論壇指出:“資料已經成為一種新的經濟資產類別,就像貨幣和黃金一樣”。這無疑將大資料的價值推到了前所未有的高度層面上。
如今,大資料應用開始走進我們的生活,影響我們的衣食住行。比如大資料殺熟,相信大家前一段時間都有所耳聞。
之所以大資料會有這麼快的發展,就是因為越來越多的行業和企業,開始認識到大資料的價值,開始試圖參與挖掘大資料的價值。
歸納來說,大資料的價值主要來自於兩個方面:
1. 幫助企業瞭解使用者
大資料透過相關性分析,將客戶和產品、服務進行關係串聯,對使用者的偏好進行定位,從而提供更精準、更有導向性的產品和服務,提升銷售業績。
典型的例子就是電商。
像阿裡淘寶這樣的電子商務平臺,積累了大量的使用者購買資料。在早期的時候,這些資料都是累贅和負擔,儲存它們需要大量的硬體成本。但是,現在這些資料都是阿裡最寶貴的財富。
透過這些資料,可以分析使用者行為,精準定位標的客群的消費特點、品牌偏好、地域分佈,從而引導商家的運營管理、品牌定位、推廣營銷等。
大資料可以對業績產生直接影響。它的效率和準確性,遠遠超過傳統的使用者調研。
除了電商,包括能源、影視、證券、金融、農業、工業、交通運輸、公共事業等,都是大資料的用武之地。
▲大資料甚至能夠幫助競選總統
2. 幫助企業瞭解自己
除了幫助瞭解使用者之外,大資料還能幫助瞭解自己。
企業生產經營需要大量的資源,大資料可以分析和鎖定資源的具體情況,例如儲量分佈和需求趨勢。這些資源的視覺化,可以幫助企業管理者更直觀地瞭解企業的運作狀態,更快地發現問題,及時調整運營策略,降低經營風險。
總而言之,“知己知彼,百戰百勝”。大資料,就是為決策服務的。
06 大資料和雲端計算
說到這裡,我們要回答一個很多人心裡都存在的疑惑——大資料和雲端計算之間,到底有什麼關係?
可以這麼解釋:資料本身是一種資產,而雲端計算,則是為挖掘資產價值提供合適的工具。
從技術上,大資料是依賴於雲端計算的。雲端計算裡面的海量資料儲存技術、海量資料管理技術、分散式計算模型等,都是大資料技術的基礎。
雲端計算就像是挖掘機,大資料就是礦山。如果沒有雲端計算,大資料的價值就發揮不出來。
相反的,大資料的處理需求,也刺激了雲端計算相關技術的發展和落地。
也就是說,如果沒有大資料這座礦山,雲端計算這個挖掘機,很多強悍的功能都發展不起來。
套用一句老話——雲端計算和大資料,兩者是相輔相成的。
07 大資料和物聯網(5G)
第二個問題,大資料和物聯網有什麼關係?
這個問題我覺得大家應該能夠很快想明白,前面其實也提到了。
物聯網就是“物與物互相連線的網際網路”。物聯網的感知層,產生了海量的資料,將會極大地促進大資料的發展。
同樣,大資料應用也發揮了物聯網的價值,反向刺激了物聯網的使用需求。越來越多的企業,發覺能夠透過物聯網大資料獲得價值,就會願意投資建設物聯網。
其實這個問題也可以進一步延伸為“大資料和5G之間的關係”。
即將到來的5G,透過提升連線速率,提升了“人聯網”的感知,也促進了人類主動創造資料。
另一方面,它更多是為“物聯網”服務的。包括低延時、海量終端連線等,都是物聯網場景的需求。
5G刺激物聯網的發展,而物聯網刺激大資料的發展。所有通訊基礎設施的強大,都是為大資料崛起鋪平道路。
08 大資料的產業鏈
接下來再說說大資料的產業鏈。
大資料的產業鏈,和大資料的處理流程是緊密相關的。簡單來說,就是生產資料、聚合資料、分析資料、消費資料。
每個環節,都有相應的角色玩家。如下圖:
從目前的情況來看,國外廠商在大資料產業佔據了較大的份額,尤其是上游領域,基本上都是國外企業。國內IT企業相比而言,存在較大的差距。
▲大資料相關重點領域及企業(技術)
09 大資料的挑戰
說了那麼多大資料的好話,並不代表大資料是完美的。
大資料也面臨著很多挑戰。
除了資料管理技術難度之外,大資料的最大挑戰,就是安全。
資料是資產,也是隱私。沒有人願意自己的隱私被暴露,所以,人們對自己的隱私保護越來越重視。政府也在不斷加強對公民隱私權的保護,出臺了很多法律。
▲歐盟在2018年出臺了有史以來最嚴厲的GDPR(《一般資料保護法案》),把網路資料保護上升到前所未有的高度
在這種情況下,企業獲取使用者資料,就需要慎重考慮,是否符合倫理和法律。一旦違法,將付出極為沉重的代價。
此外,即使企業合法獲取資料,也要擔心是否會被惡意攻擊和竊取。這裡面的風險也是不容忽視的。
除了安全之外,大資料還要面臨能耗等方面的問題。
換言之,如果不能很好地保護和利用手裡的大資料,那麼它就是一個燙手的山芋,有還不如沒有。
小結
好了,洋洋灑灑寫了這麼多,今天就先介紹到這裡吧。
這篇文章的主要目的,是幫助大家建立對大資料的基本認知,對大資料有一個初步的瞭解。