大資料、雲端計算、智慧城市……近年,一堆和資料有關的詞彙被頻繁提及,大資料逐漸滲透到大眾生活裡。企業紛紛宣稱自己的大資料能力很強,但網民被推送的“精準廣告”常常並非所需而被當做垃圾資訊處理;手機上,很多很炫的APP應用吸取使用者的同時,使用者卻無奈的發現自己的通訊,簡訊,位置資訊被對方強行採集。
中國企業的大資料能力究竟如何?大資料研究的前景如何?大資料方便了生活,也帶來了隱私和安全風險,其邊界在哪裡?就國內大資料和統計學行業熱點問題,讓我們聽聽北京大學光華管理學院商務統計與經濟計量系教授王漢生怎麼說。
企業資料分析能力並無顯著提升,大資料概念有泡沫
最近幾年,大資料概念炙手可熱,幾乎一夜之間所有的企業都在談大資料。您如何看待大資料這個概念?
王漢生:這不是一個嚴格的學術定義。它更像是是一個口號,一種公共宣傳的需要,隨著技術的進步,有一定的實質性變化。例如:產生了新的資料型別,達到了一定的量級。但是也有不少被神化的地方。。比如原來金融投資的資料就很大,也在實際應用中有體現,只不過當時沒有人關註。但是這個概念有一個好處,就是在全行業範圍內讓很多人開始關註資料分析。
您不認為大資料背後的企業資料有實質變化。但現在很多企業都宣稱其資料已經達到一個新的量級。
王漢生:有些企業以前是做物流的,有的是做3C的,現在都在趕時髦,強調自己是做大資料的,但其實他們的資料分析能力慘不忍睹。過去是什麼樣,現在還是什麼樣。當然也不排除其中有不錯的企業,自始至終註重從資料產生價值。
您認為大資料帶來最大的挑戰之一是產生新的資料型別。怎麼理解這句話?
王漢生:原來只有單純的數字才算資料,現在凡是可以記錄的都能算資料,包括文字,聲音,甚至網路關係。以前在資料分析中只有對個體的研究,現在可以透過分析網路結構和社會關係,把人與人聯絡起來。因為分析個人特徵,就可以預測個人的行為,比如銀行會在意客戶會不會賴賬,醫生會在意家族病史等等。而網路結構可以透過分析朋友的特徵來分析某個人的行為,並且讓資訊流通起來了。而我們要分析這些資料,需要新的模型,新的演演算法,甚至新的儲存結構,這都是挑戰。
電商利用大資料空間有限,大資料“金礦”在傳統行業
現在國內宣稱大資料能力最強的是電商行業。有報道說電商現在可以做到使用者一登入,他們就能判斷使用者需要什麼,從而提前發貨,將使用者想買的東西送到。現實中有實現的嗎?
王漢生:這是很難實現的。對於極小部分購買行為非常有規律的人,他們的購物需求是可預測的。但是在多數情況下,消費者的購買行為是高度不可預測的。個性化推薦存在了這麼多年,商品推送變為顧客的購買行為的轉化率一般也就百分之幾,如果能到百分之十已經是非常高了。畢竟資料分析只是描述市場和消費者的行為,並不會幫助人做決定。
國內電商現在利用大資料主要還是在商品頁面的個性化推送方面。您認為做得如何?
王漢生:頁面推送的成本非常低,不涉及物理上的搬運,它的邊際成本幾乎是零。這方面國內做的越來越好,個別情況下轉化率可以做到百分之十。這個過程中不僅僅涉及演演算法精確問題,還要考慮網站整體的服務質量。
未來國內電商進一步提升利用大資料能力的空間有多大?
王漢生:大資料在傳統行業可能更有所為,原因是電商在這方面已經競爭的非常激烈,資料利用也算相對成熟一些。但是在傳統行業,例如:汽車、製造、金融、電信等,還利用很少,相對可以提升的空間可能更大。另外一個很大的大資料的利用方向是營銷相關的,為中小企業解決廣告投放困難的服務。
怎麼利用大資料幫助中小企業解決廣告投放難題?
王漢生:中小企業做線上營銷優勢不大,一個只面向方圓幾公里內顧客的咖啡廳沒必要到入口網站或者電視臺上去做廣告,小企業也買不起這樣的廣告。他們需要精準定位的廣告。現在搜尋引擎廣告也只能精準到省一級的廣告定位。但也只有那些有一定規模的中小企業才可以投放面向這個範圍的廣告。而利用LBS(基於位置服務)工具產生的大資料進行定向營銷的空間很大。但現在的問題是,基於使用者位置的營銷平臺越來越多,中小企業篩選成本很高,如果有企業能整合這些營銷平臺提供給中小企業主相應的服務,那就會是非常有價值的。但這項工作涉及的資料很龐大,只有使用機器人才能有效完成。
國內金融業大資料能力亟待提升
您曾表示,金融業務對資料的分析要求不斷增高。大資料分析對金融行業有什麼影響?
王漢生:金融行業可以利用大資料分析的空間非常大,尤其是小微信貸。快速、無抵押、高風險是個人小微信貸的特點。這就要求企業一開始對個人資料的採集就要足夠準確,建立良好的徵信模型進行快速判斷。這就會涉及很多的資料,包括對方過往的還款記錄,電話賬單,甚至QQ空間裡提到的內容。
國內的金融機構在利用大資料分析上有哪些改進空間?
王漢生:目前這方面確實存在一些困難,比如我在美國用了一段時間招商銀行信用卡,它推送給我的廣告還是北京的,比如去萬達看電影之類的。如果它能夠推送一些美國奧特萊斯的廣告也許我就會去了。這方面銀行的資料分析就比網際網路公司差了很多,亟待改進提升。
網際網路與傳統銀行合作的空間有多大?
王漢生:只要商業利益能談好就一定有合作的空間。現在銀行的徵信主要還是面向企業和麵向個人優質客戶,很少有面向更加低端的普通人。其實這就是一個“瘦田無人耕,耕開有人爭”的局面。如果有一天我發現你某方面做得很好,要麼就是我要比你做得更好,要麼就是我不讓你做了。
享受大資料便利需要讓渡一定隱私空間
儘管大資料潛力巨大,但也給個人和企業的資訊保安帶來風險。有觀點稱,資訊保安問題已經成為產業發展的障礙,在大資料時代,隱私資訊將“無處遁形”。對此你持何觀點,大資料分析是否會侵犯個人隱私?
王漢生:現在我國,甚至全球範圍內,法律對隱私保護的界定是不夠清晰的,缺乏統一認識的。例如網民在電商瀏覽商品的記錄,是網民的,還是電商的,還是網民和電商共有的?現在無定論。歐洲對個人隱私這方面的監管是非常嚴格的,但這也限制了歐洲的網際網路企業發展。美國對這方面的監管相對鬆散一些,中國也還在學習摸索的階段。但隱私保護這一刀切在哪裡還沒有結論,管的太鬆,網民隱私得不到保護;管得太緊,企業的創新受限,行業發展受限。所以,我們享受了網際網路帶來了便利,也需要讓渡一些隱私的空間。但是,具體需要讓渡多少,需要國家、企業、個人的逐步理解溝通。
大資料環境下的隱私擔憂,主要還是怕自己使用移動網際網路後,自己的身份、生活被識別。現在資料分析對人的識別可以準確到什麼程度?
王漢生:我不確信中國在這方面的這種分析能力。根據公開的文獻,在美國只要提供郵編、性別和出生年月,87%的人就可以被獨立識別出來。目前企業可以透過一個人的購買行為,識別到獨一無二的一個虛擬人,企業可以知道這個虛擬人的很多喜好,但這個人叫什麼名字,做什麼的,一般情況下,企業還是不知道的。普通的企業,也沒有動力去知道。但如果有好事者,把電商獲取的資料和其他資料對接,就能識別到具體的人了。所以隱私保護還是非常重要。
現在智慧手機安裝的軟體,不少都要求獲取大量許可權,有的甚至要求有監聽通話和簡訊的許可權,這些軟體對個人資料的大範圍收集是有必要的麼?
王漢生:我不瞭解這些行為背後的動機。據我對行業的瞭解,大多數企業拿回去,啥也乾不了。一個可能的猜測:就是資料儲存太便宜,能存的都存下來,希望將來有用。當然,這是我的一個猜測。
針對大資料分析而言,應該如何改進才能保護個人隱私?
王漢生:考慮一個例子。例如:醫院。一方面,醫院希望既保護病人的資料。另一方面,醫院希望能將各種資料應用於科學研究中,這就要求醫院對第三方開放原始資料。這就要求對原始資料做模糊化處理,一方面切斷從原始資料識別具體個體的可能,另一方面保證科學分析,估計重要引數(例如:回歸繫數)的可能。這有可能實現嗎?我認為是有可能的,但是還缺乏相應的方法,需要相關統計學研究。
文章部分內容選自《新京報》
親愛的讀者朋友們,您們有什麼想法,請點選【寫留言】按鈕,寫下您的留言。
資料人網(http://shujuren.org)誠邀各位資料人來平臺分享和傳播優質資料知識。
公眾號推薦:
360區塊鏈,專註於360度分享區塊鏈內容。
好又樂書屋,專註分享有思想的人物,身心健康,自我教育,閱讀寫作和有趣味的生活等內容,傳播正能量。
閱讀原文,更多精彩!
分享是收穫,傳播是價值!