【揭秘】中國四大銀行的大資料應用已到了哪個階段？-知識星球

對於大資料給企業帶來的價值，已經毋庸置疑。在國內，銀行業應該是IT建設更為領先的行業之一。特別中、農、工、建四大銀行，更是走在整個銀行業的前面。那麼，他們對於大資料是如何看待的?在這四大銀行，大資料的應用又走到了什麼階段呢?

下麵，我們來聽聽這四大銀行相關IT負責人的分享。

01 中國建設銀行資訊科技管理部資深經理林磊明

1）銀行壓力越來越大

從十二五走到十三五期間，銀行業面臨的各方面的壓力越來越大，從我們的年報數字可以看出去年四大行的利潤增長基本上趨近於零增長。在這樣的情況下，我們怎樣透過IT的引領提升傳統銀行的競爭力，這是擺在我們面前的一個很重要的課題。

2）過去十多年期間，銀行業務出現兩個拐點

大資料怎麼樣能夠在智慧銀行的方向上起到更大的作用呢?

透過銀行的歷程佐證這樣一個觀點。過去十多年期間銀行基本上有兩個拐點，第一個拐點就是發生在網際網路銀行慢慢取代櫃員，IT支援從支援幾萬十幾萬的櫃員到支援面向所有的網際網路客戶，這裡面發生了一個根本性的變化，無論是服務的形態還是IT的支撐，都發生了很根本的變化，這是移動和雲要在裡面發揮作用。下一個拐點是什麼?銀行要從原來做的賬務性的、交易性的處理轉向能夠滲透到經濟生活的方方面面，這是一個場景化，如果抓不住這個拐點，銀行就要被網際網路金融顛覆或者管道化。

3）三大網際網路渠道已建立，具備大資料基礎

這幾年銀行三大網際網路渠道已經建立：手機銀行，已達到1.8億多; 網上銀行，我們有2億; 微信銀行，它佔的客服服務總量已經超過了傳統的客戶服務。這意味著我們的渠道、我們場景化的實踐已經見到了效果，另外我們做大資料要具備的基礎已經存在。

4）大資料要解決3大問題

談大資料，對傳統銀行來講，要解決3大問題：怎麼樣提升對於客戶的識別? 怎麼樣對於客戶的營銷? 怎麼樣提升對於風險的防範?

所以，無論是用傳統的結構化的資料，還是用現在網際網路形態下麵非結構化的資料，要解決的問題都是這些，只不過我們現在有了更豐富的資料源，有了更好的對於資料處理的方法。目前，建設銀行已經成立了上海大資料分析中心，這不屬於技術部門，屬於資訊管理部門。

5）建行大資料平臺設計思路

從設計標的有這幾條：

策略上架構先行，我們已經有很好的基礎架構。1、基礎能力上，我們在做一些基礎的大資料分析工具的搭建。2、要想明白用資料做什麼?我一直不太同意你先不要管你做什麼，先把平臺搭起來，我不太清楚有多少人從做資料倉庫過來，當時提的很多的概念是垃圾進垃圾出，到了大資料時代沒人提這個事情了，好像所有大資料都是質量很高的，但這方面要警惕。

功能架構設計，和大家都差不多，從採集、儲存、分析、展現到應用。我要強調的是從這個結構來說，這是很完美的一個結構，但要能夠實時或者及時地反映到你的業務流程當中去，反映到你的營銷當中去。不要拘泥於一個結構。

資料設計，我們有一個演變過來的整體的結構。這裡面我想強調一點，大資料是資料的一部分，結構化的資料是大資料的一部分，這兩個東西不要割裂來看。

6）建行大資料成果

我們的大資料平臺取得了一些成果：實時的資料倉庫上：我們能夠對客戶經理做實時的資料提供和交付，提供無論是併發的訪問還是實時服務方面。從資料的應用樣式上：我們總結了六類資料應用樣式，包括挖掘類、資料實驗室、機器查詢、儀錶盤、固定報表、自動查詢等等。

建立“模型實驗室”：現在越來越發揮了更大的作用，我們能夠基於結構化和非結構化的資料支援大資料模型的研發，這個模型研發出來我們能夠很快地把它部署到生產當中去，能夠為一些決策，未風先管理服務。

在非結構化大資料的應用方面，做探索：比如客戶行為偏好的資料，錄音文字、地理資料的應用、能耗資料的應用、媒體資訊、員工行為資料等等。透過位置服務終端識別的新技術新資料的採用，拒絕可疑風險事件，上半年避免1.9萬起，避免客戶損失1.4億，這種資料越來越大。

7）未來，場景化、標準化、平臺化

剛才我提到了場景化，我們希望能夠把金融資料的服務將來標準化和平臺化，平臺化之後能夠在基礎的大資料能力、基礎資料的提供甚至一些分析資料的提供，基礎應用，客戶花香、徵信評級的監測，為無論是內部的客戶還是外部的客戶提供更好的大資料技術，這是從技術方面來看大資料下一步做的工作。

02 中國工商銀行軟體開發中心資訊科技專家王曉平

1）工行大資料面臨的挑戰

如何處理資料量的快速增長?首先全行的資料量的快速增長，包括我們現在工行每天的交易量，外部網際網路金融，工行的三大網際網路平臺造成使用者的交易資料和行為資料有大幅的增長。如何快速智慧分析歷史資料? 工行從2000年開始建立資料倉庫以來，擁有了龐大的歷史資料資產，在新的環境下怎麼能夠快速地智慧分析，對我們提出了更高的挑戰。如何使用內外資料，描述客戶特徵?在資料源方面，除了本單位資料，也需要採納外部的資料來配合進行分析。工行已經引入了徵信資料、稅務資料等，怎麼做到比較全的資料去描繪我行的客戶特徵，這是作為我們的一個新的課題。

2）工行大資料戰略思路

工行整個的戰略思路是透過我們行的兩庫一司的建設來完善大資料體系。兩庫是資訊庫和資料倉庫，資料倉庫在工行的建設和銀行的建設中都是比較傳統的，主要是應對我們之前的銀行交易資料、賬戶資料，採用結構化的資料儲存來進行相關的處理。前兩年的時候工行啟動了資訊庫的建設，主要指非結構的資料。透過兩庫的建設，我們還建設了一支分析師隊伍，能夠對這些龐大的資料進行相關業務的加工處理和分析。

3）發展階段

工行大資料的發展歷程可以分幾個階段，從TB級已經進入了PB級的建設階段，接下去在可預見的幾年內會進入EB級的龐大體量。

最早工行是2000年初，那個時候大資料的領域更多的還是應用在一些報表的快速展現，所以那個時候我們是基於比較傳統的Oracle和SaaS，做了T+1的動態報表，行領導和管理層能夠在第二天上班前看到我們行昨天的經營資料，這是最早建立的。

2007年工行基於當時較先進的企業級的資料倉庫的體系架構啟動了工行的企業級資料體系的建設，做了全行統一的管理資料的大集中。

2010年基於我們的資料倉庫的資料支援，我們推出了工行的MOVA管理會計系統，做了全行績效考核的管理系統。 2013年隨著外部形勢的發展，大量資料爆髮式的出現，我們引進了大資料領域在業界最流行的Hadoop技術，在Hadoop基礎上搭建了資訊庫，發展是非常快的。

2014年工行基於大資料，原來的大資料採用連機異部批次的方式，透過檔案儲存的方式，不管是資料倉庫還是資訊庫，在時效上相對來說比較慢，所以自主研發了一個流資料平臺，能夠提供實時或者準實時的流資料處理。 2015年下半年和今年正在推動分散式資料庫的落地工作，會和企業級資料倉庫做一個互補。這是大資料的主要技術演進。

4）大資料體系

在大資料平臺上，我們可以把它抽象成如下幾層：

第一層是資料採集，統一針對外部和內部的資料進行相關的資料收集，包括日誌資訊、行為資訊和業務資訊。

再上面一層計算層，是我們不單單提供了傳統資料倉庫的批次計算的能力，也透過一些流資料的技術提供了實時的計算能力。

再上面一層應用層，抽象了大資料相關的應用，包括使用者可以自定義的查詢功能。透過這些資訊的服務，把這些服務抽象到我們的業務系統中，透過我們的管理會計系統，透過分析師平臺、風險系統、營銷系統，為我們在資料的運營、風險控制和營銷方面都提供相關的支援，這就是主要的大資料分層體系。

5）分散式、開源、通用成為趨勢

從大資料的起源開始，資料倉庫到目前的大資料新形勢下，資料倉庫已經在做非常大的升級換代和變化。2014年工行從高成本封閉的專業系統(如：Teradata)，開始向高價效比、通用裝置和開放技術的系統轉變。

轉型有兩個原因：

第一是資料量太大了，原來只需要處理TB級已經轉向需要處理PB級甚至以後EB級的資料量。如果是這麼大的資料量，運用傳統的裝置沒有辦法進行相關的處理。

第二，價效比，我們做過測量，透過開放式的彈性可擴充套件的普通PC伺服器的方式，比傳統裝置在成本上介紹十幾分之一或者幾十分之一。我們在新平臺上一方面引進了Hadoop平臺基於普通的PC伺服器進行搭建，短短一兩年的時間已經擴充套件到150個節點，儲存空間已經超過1PB，超過建設了十幾年二十年的Teradata的資料容量。

另外我們在研究也會儘快落地的分佈資料庫，會基於開源的底層架構，基於普通的PC伺服器完成資料倉庫體系的擴充。後續在大資料的處理加工方面會基於分佈資料庫進行處理。

從目前的分析角度來看，Teradata會保留，著重在高階的分析師分析挖掘的探索性的工作方面。後續工行的大資料體系會採用多種技術路線、多種技術平臺共存的方式。

6）非結構化資料資訊庫，透過搜尋

非結構化資料資訊庫的建設情況，建行已經介紹了，工行也有點像。資訊庫的建設原則，因為非結構化的資料的量是非常大的，所以我們的原則是資訊庫建設沒有把非結構化建設進行物理儲存的集中，我們只是透過統一的搜尋引擎讓使用者能夠快速地搜尋找到他需要的非結構化的資訊。

7）風險防控，是落地最快、最有成效的應用

工行在大資料應用方面主要側重在風險方面。

工行透過大資料在事前、事中、事後三個環節的運用進行風險的柔性控制。簡單地舉一個例子，事前，比如銀行卡的授信過程中，或者信貸要進行發放做凈值調查中，資料能給它一個支撐。事中，比如銀行卡最近比較多地發生盜刷行為，我們可以在事中透過大資料的方式發現銀行卡的盜刷行為。事後，可以根據事後的交易或者發生的事件進行相關的分析，分析我們後續在業務的拓展或者風險控制方面有哪些需要進一步改進或者補救的工作。

這裡舉了幾個簡單的案例。非常好的大資料的應用場景：

第一，交易反欺詐，需要利用大資料流資料的技術，使用者在做交易的過程中採用主機旁路技術，交易沒有完成之前透過大資料在記憶體中進行一個判斷。

第二，大資料怎麼運用模型，透過比較好的使用者特徵的總結和模型做一個監控。透過標簽資訊，比如我們定義了兩個標簽，一個是使用者開戶的地區比較廣泛，另一個他持有比較多的借記卡，我們可以認為他涉嫌倒賣銀行卡的嫌疑，我們透過大資料的計算可以把這些人員抓出來，可以進行後續的業務處理和防空。這也是大資料應用的比較好的方面。

第三，現在各個銀行業碰到的比較大的困境，信貸資產的質量問題。工行持續在推動運用大資料驅防控信貸風險，工行成立了信貸防控中心，運用大資料技術在進行相關的防控。

03 中國農業銀行軟體開發中心專家趙維平

1）銀行在技術選擇上，相對保守

我們在2003年初開始搞大資料，當時有很多困惑，首先感覺到大資料到來了，現在各個行業，中央臺什麼東西都用大資料說話，我們在銀行業我們能做什麼呢?

早期在十幾年前我們大家做資料倉庫的時候，大家可能選擇面都很窄，四大行除了我們沒用TD其他都是用TD做的資料倉庫。我們當時某系統也很痛苦，計算資源可以擴，但IO能力就在那裡。當時覺得列儲存帶來很大的優勢，處理通用的資料量減少了很多IO。平臺選用什麼?還用傳統的嗎?新型的怎麼樣?

金融在有些技術的選擇上還是相對比較保守的，我們不會用的技術，不會用的版本，這也因為金融工委和國家人民銀行對於我們的連續服務要求特別高，一旦出了事情領導交不了差。

2）自主可控，我們從幾點入手

在自主可控上，基礎硬體、基礎軟體、資料模型、工具平臺和制度管理都是自主可控的。

硬體方面，採用華為的RH2288系列，2C、docore、256記憶體、12 4T硬碟，不同時期買的硬碟的容量是不一樣的，後來是4T，之前是3T。

基礎軟體方面，我們引進了國產的南大通用做的MPP架構資料庫，我們在原形試執行階段從2013年圓形環境開始投產，採用28個資料節點，2014年3月份把它擴到56個節點。非結構化，結構化的資料上游生產資料基本都是放在MPV架構資料庫裡，使用起來技術上更流暢，效率更好。Hadoop方面，非結構方面目前使用的是CDH開源版，大概有100個左右的Datanode。

資料模型方面，我們結合先進的建模理論，我們融合了正規化和維度的思路。我們在主庫核心層面基本是正規化建模減少重覆。維度方面由業務驅動的方式建立維度模型為主。

基礎的工具方面，大家知道有ETL、批次排程、源資料的管理，這些東西都是我們自主開發的。我們制定了一套比較完備的規範、制度、方法、標準。

3）整體邏輯架構

資料源層，上游的生產系統，幾乎全行所有的生產系統的資料到今年底已經全部進來了，金融交易類百分之百都進來了，現在有60多個上游系統，透過一個交換平臺，交換平臺不僅僅為大資料服務，負責上游生產和下游資料消費系統總分行之間、總行各應用系統間資料互動的平臺。

資料處理層，淡黃色指關係型的資料庫，也就是MPP架構資料庫。運算元據區、非結構化資料區、歷史資料平臺、流計算，流計算用Hadoop Stam架構。

下麵是Hadoop的東西。我們在整個大資料平臺的結構化主庫裡分了基礎資料庫、共性加工區和指標區，非結構化有運算元據區、非結構化處理和歷史資料平臺。影像那部分早期已經建好了，為了減少網路壓力基本上存在分行。

跟傳統不一樣的是，大資料平臺的日加工時間目前在七八個小時，早期批次一個是最佳化不到位，一個是處理的分層，所以用了Hadoop把ETL和運算元據區都放在Hadoop裡，因為可以節點多、計算能力強，完成了ET的過程，上游來的全量資料在這裡做了歸類，生成了一個純層量的資料，減少了一天的批次時間幾個小時，提升33%的效能。

資料集市層，現在規劃8個資料集市，跟其他行沒有太多區別，客戶營銷、風險管控、外部監管，對分行服務的集市，各行服務的物件都是一樣的。底下研了資料提取平臺，外部監管和資料提取任務特別重，早期都得到生產去導帶生成，現在我們透過單獨建一個環境，把一些資料預加工好，基本以寬表的樣式，以前做加法的事情變成了做減法，至少80%的提出需求都在我的環境裡直接提取，大大減輕了人力。

底下是分析挖掘平臺，ODM、SaaS都是農行已有的雲，大資料只是它的使用者而已，我們在Hadoop分裝了應用，為全行的分期挖掘提供服務支撐。對上層應用的服務有直接訪問，資料檔案和外部服務和資料快速複製等技術和應用進行連線。應用主要是對資產負債領域、電子銀行領域、信用卡和個人金融領域、風險和財務提供了一些支撐。

大資料平臺和集市，我們建成了4個集市，有3個集市在建的過程中，今年分行下半年要搞分行集市的試點。應用，我們提供統一的資料展示和服務。展示服務一個是對所有全行業的使用者，對所有行業監管的各種報送，因為各種報送比較零亂，點也比較多，趨向不同部署也不一樣，底層做了統一排程、統一監控和ETL，對全行描述類資料進行了統一管理，包括我們的資料標準和資料質量管理都在這裡統一進行。

4）硬體環境如何進行有效支撐?

在Gbase方面，56是生產環境，現在實現了56環境的雙活，這兩個56環境同時在工作，一個做T+1當天的資料加工，一個做隔一天的連級服務，這樣的話連級服務的能力，按實側的話會比以前做TD的測試中更強一點，另外個人客戶集市、資產負債集市，還做了資料挖掘層次，Gbase集成了WODM和SaaS。Hadoop的生產環境是92個datanode和2個namenode。我們現在Gbase有236個節點，庫內主副本的整個容量有5.2PB資料，Hadoop的叢集是150個節點，容量是4.3PB。

56+8是56個資料計算環境，8個是載入機，56個環境每個節點是12塊3T的硬碟，有2塊做Read1，是存放作業系統和重要的引數資訊和資料庫環境，其他10個環境是Read5來存放資料，一個節點存放有效資料10幾個T，56的環境裡有效資料將近300個T，Gbase有5到10的壓縮比，各個欄位可以選擇壓縮去，300個TB的資料換算成倉外的文字量，就算簡單乘以300T也是1.5PB以上，現在折算成1.8PB左右，是PB級的。

我們跟Gbase從這個時候開始合作，我們在八方面跟他們共同做了一些最佳化工作，跟Gbase做了大量最佳化，有近百個最佳化的細項。MPP資料庫，我們搭建了雙活機制，兩個庫之間的同步加驗證現在每天大概是22TB的資料，僅需要3小時。早期在給主庫做備份的時候，100TB的資料有小40個小時，後來我們用了Hadoop做備份，100TB用了不到10小時，大家用TB備份一直是比較難的事情，在Hadoop方面我們做了大量基礎性的工作，非結構化的資料、檔案的服務、資料的備份等等。

我們做了MPP和Hadoop的互動，有些應用要互動，我們做了非結構化MPP和HDFS之間的融合。後來啟用了MPP和Hadoop之間的備份，大大提高了效率，300T也需要將近20個小時，所以我們做了雙活，如果雙活穩定的話我們就不用備份資料了。開發的基礎工具包括ETL工具、批次排程、整個的監控和統一訪問層，監控這塊我們還做了健康檢查，透過SaaS把半年的日誌交過去，最後生成一些模型，給我預測整個系統執行的安全狀況。資料混搭的模型設計，我們有一套完整的方法論，能保證資料的準確、穩定、完整和可用。同時我們在方法論、開發規範、資料規範和流程規範都積攢了一系列檔案。整個模型是分層的，運算元據區、基礎資料區、共性加工區、指標層和集市層，完成了客戶的統一試圖、產品的統一管理和客戶的精準營銷和風險管控等等。

透過6個方面對大資料平臺的資料進行了全生命週期的管理，包括建模、驗證、清理、準入、資料地圖和一些規範。

5）如何充分體現大資料的價值?

我們在大資料的建設中充分體現了資料的價值：

分析挖掘上，跟業務融合，分別在多個領域寫出了20多份分析報告，有精準營銷和業績價值等九個方面都落到不同的應用去嘗試實現。

培養的人才，對SaaS、Spack、R語言，熟悉這些演演算法，對聚類、分類、回歸、神經網路等等進行了研究，要好用，建立一套多場景的實驗環境，流水線式的作業、組建化的模型集脫拉拽式的服務，使業務人員能更快地使用我的系統。多個技術對使用者來講是透明的，使用者要使用的話非常方便。我們展示了非常完整的服務，對基礎環境融合，對資源的管理展現進行全改寫，部署的樣式也是收放自如的，展現也突破了傳統的思維，我們在報表展示層面是可交付的、動態的，可以放大縮小，可以按某一列去排序，可以鎖定表頭，不是一個靜態的頁面，報表是可操作的。

04 中國銀行總行軟體中心上海分中心副總經理牛曉峰

1）思考：大資料沒有成功的原因是什麼?

2015年下半年將近年底，Ganner對這1000多家企業和機構做了另外一次調查，大資料專案成功上馬的不到9%，為什麼?Ganner對他們沒有成功做了原因的分析，其中比較重要的幾條是這樣的。

排在第一位的是無法挖掘出資料的價值是什麼，第二位是企業或機構沒有明確的大資料的戰略標的和戰略規劃，第三是缺乏核心技術，第四是無法有效的整合資料資源，第五是企業的內部無法對大資料的實施和規劃達成共識。總結了這樣一些不太順利的原因之後，我覺得有一個清晰的完整的系統性的戰略規劃，對中國銀行以後大資料的建設的作用是非常巨大的。

2）中行特別之處

中行的戰略方向：以平臺為支撐構建大資料的技術體系; 以資料為基礎充分整合資料資源; 以應用為驅動深入挖掘資料價值; 以人才為核心提升資料分析能力; 以平臺為支撐構建大資料的技術體系。我們把大資料的技術體系分成戰略層面、規劃層面和設計及交付層面，在這裡面最重要的是大資料的體系架構，分為業務架構、應用架構、資訊架構和技術架構四個不同的架構，在這四個不同的架構裡分別支撐我們的業務流程和端到端的場景及應用的組建及分析模組，最後是設計跟交付。

我們在實施的方面採用分行試點的樣式，有很多的調查機構在對大企業實施大資料專案做了總結之後發現大資料的專案實施方法上分兩個流派，一個流派是自頂向下的，上來規劃很大的大叔據的東西，從地層往下逐漸延伸，累了大量的資料，在這裡面做清洗分析，在這裡面找規律，再看這個企業怎麼從資料裡得到什麼樣的東西。另一個流派是從底向上的，先看需要哪些東西，再對這些資料進行整合。我看了很多相關的實體之後，後一個方法在現階段的效果會更明顯，有了清晰的需求才會更準確的對位需求的產品。所以我們在大資料實施的策略上採取小步快跑、快速迭代、迅速試錯的方式。

3）中銀開放平臺，是中行大資料實施例子之一

中銀開放平臺，2014年IDC金融的大獎，去年獲得人民銀行的獎，亞洲金融家組織把它評為今年較佳的金融雲服務產品，這個產品是我們對大戰略的落地實施的例子。這個產品的主要設計思路是我們把整個中國銀行的大資料進行了歸併整理之後，開發了1000多個標準的API介面，這些API介面可以用與我們的分行甚至我們的客戶，在我們規劃的未來裡，可以透過這些API訪問和使用中國銀行的資料，用於加工得到自己想要的相關結果。

目前已經有很多分行利用這樣的平臺開發出了很多比較受歡迎的產品，大家如果有興趣的話可以在蘋果的APP Store或者安卓的平臺下載這個產品看一下。

4）讓資料發揮較大價值

我們非常希望在合規的前提下充分利用銀行外部的資料服務。因為銀行或者金融企業的資料在深度上不是一般的網際網路企業能夠比擬的，如果我們金融行業跟其他的相關企業進行有效的資料交換，大家彼此利用對方的優勢，就能夠使我們這個資料得到更完美的使用。

以應用為驅動，深入挖掘資料價值。做大資料應用的場景產品。此外中國銀行還推出來口碑貸、中銀沃金融的服務，都是按照這個思路去進行我們產品的組合規劃和設計。

精準地建設客戶的營銷平臺，把線下的客戶資訊和線上的客戶行為統一在一起，把結構化的資料和非結構化的資料有機地提煉並且整合，爭取能夠較精確地描述客戶的各項屬性特徵。

來源：數盟

精彩活動

福利 · 閱讀 | 免費申請讀大資料新書第23期