關於作者:肖仰華博士,復旦大學電腦科學與技術學院教授,博士生導師,知識工場實驗室負責人。
報告摘要:人類社會已經進入智慧化時代。各行各業紛紛踏上智慧化升級與轉型的道路,各類智慧化應用需求大量湧現。這些智慧化應用需求對於機器認知水平提出了全新要求。實現機器認知智慧的關鍵技術之一是知識庫技術。知識圖譜作為大資料時代的重要的知識表示方式之一,為機器語言認知提供了豐富的背景知識,使得機器語言認知成為可能,因而也成為了行業智慧化轉型道路上的關鍵技術之一。本報告結合復旦大學相關課題組在基於知識圖譜的認知智慧化研究與落地實踐,系統地介紹知識圖譜與認知智慧之間的關係,梳理新一代知識工程技術給認知智慧帶來的全新機遇,介紹基於知識圖譜的認知智慧落地關鍵技術,展望以知識圖譜為典型代表的知識工程復興之路。
下文根據肖仰華教授近期所作報告《知識圖譜與認知智慧》整理而成,並經肖仰華教授親自審核。
獲取完整PPT
請前往: http://kw.fudan.edu.cn/workshop/intro2018
今天跟大家分享的主題是《知識圖譜與認知智慧》。
知識圖譜自 2012 年提出至今,發展迅速,如今已經成為人工智慧領域的熱門問題之一,吸引了來自學術界和工業界的廣泛關註,在一系列實際應用中取得了較好的落地效果,產生了巨大的社會與經濟效益。
那麼到底是什麼在支撐著知識圖譜技術的繁榮景象?是一股什麼力量讓知識圖譜技術吸引瞭如此多的關註?換句話說,知識圖譜到底能解決什麼問題?何以能夠解決這些問題?今天的報告主要圍繞著這些問題,給大家做一個初步的解答。
先簡單介紹一下整個報告的總體思路。人類社會已經進入智慧時代,智慧時代的社會發展催生了大量的智慧化應用,智慧化應用對機器的認知智慧化水平提出了前所未有的要求,機器認知智慧的實現依賴的就是知識圖譜技術。
我想大家已經深刻地感受到我們身處在一個智慧化的時代。
從 2012 年 Google 的影象識別錯誤率顯著下降,機器在影象識別方面接近人類水平;到 2016 年 AlphaGo 戰勝了人類圍棋冠軍;再到 2017 年 AlphaZero 戰勝了 AlphaGo,以及 DeepMind 去嘗試星際爭霸遊戲,這一系列 AI 發展的標誌性事件讓我們看到了人工智慧技術幫助解決人類社會發展若干問題的希望。
我們已經見證的這一系列人工智慧技術的發展,本質上是受益於大資料給人工智慧帶來的資料紅利。這一波人工智慧熱潮是在大資料所給予的海量標註樣本以及超強計算能力這兩個強大的支撐作用下所形成的。可以說,這一波人工智慧的發展本質上是大資料喂養出來的。
到了今天,可以很自豪地宣告機器智慧在感知智慧和計算智慧等若干具體問題上已經達到甚至超越人類水平。現在,在語音識別與合成、影象識別、封閉環境有限規則的遊戲領域等問題上,機器智慧水平堪比、甚至超越人類水準。
這一系列人工智慧技術的突破性進展,促使各行各業紛紛走向了一條智慧化升級和轉型的道路。智慧化技術尤其為我國傳統行業的發展帶來了全新機遇,對於我國經濟結構升級,以及傳統物體行業擺脫當前一系列發展困境帶來了全新的機遇。智慧化升級和轉型已經成為各行各業的普遍訴求。各行業走向智慧化的發展道路,在某種意義上也是人類社會發展的必然趨勢。
自計算機面世以來,人類社會在經歷了計算機技術發展的一系列浪潮之後,基本完成了資訊化的使命。資訊化時代最重要的任務是資料記錄與採集,這勢必造就大資料。
當我們邁進大資料時代之後,我們勢必對大資料的價值挖掘提出訴求。大資料的價值挖掘需要智慧化手段。因此大資料時代的到來,某種意義上只是智慧化時代的短暫序曲。我相信,未來若干年,計算機技術的主要使命是幫助人類社會實現智慧化。
在各行業的智慧化發展行程中,AI+ 或者 AI 賦能成為了傳統行業智慧化升級和轉型的一個基本樣式。
在 AI 的賦能下,傳統行業面臨著非常多的機遇,其所關心的一系列核心問題,比如增加收入、降低成本、提高效率和安全保障等,都將顯著受益於智慧化技術。比如智慧客服系統已經在很多行業大規模應用,大大降低了人工客服的巨大勞動力成本;一些企業利用知識圖譜,對企業內部的研發資源進行管理,顯著提升研發效率,這些都是AI可以賦能傳統行業的具體體現。
智慧化的升級和轉型對整個傳統行業產生的影響將是顛覆性的,將重塑整個行業的形態,革新傳統行業的各個關鍵環節,智慧化技術將逐步滲透到傳統行業的各個角落。
最近幾年我們看到越來越多的傳統行業將人工智慧領域升格為企業的核心戰略,在電商、社交、物流、金融、醫療、司法、製造等很多領域湧現出越來越多的AI賦能傳統行業的發展案例。
智慧化對機器的智慧水平提出了要求,包括機器的計算智慧、感知智慧,尤其是機器的認知智慧。
所謂讓機器具備認知智慧是指讓機器能夠像人一樣思考,而這種思考能力具體體現在機器能夠理解資料、理解語言進而理解現實世界的能力,體現在機器能夠解釋資料、解釋過程進而解釋現象的能力,體現在推理、規劃等等一系列人類所獨有的認知能力上。
相較於感知能力,認知能力的實現難度更大,價值也更大。前幾年在深度學習的推動下,機器感知能力顯著提升。但是感知能力動物也具備,比如我們家裡的小貓小狗也能識別主人,識別物體。所以讓機器具備感知能力只是讓機器具備了一般動物所具備的能力,還不是那麼值得“炫耀”的事情。
但是,認知能力是人類獨有的能力,一旦機器具備認知能力,AI技術將會給人類社會帶來顛覆性革命,同時也將釋放出巨大的產業能量。所以實現機器的認知能力是人工智慧發展行程中具有里程碑意義的重大事件。
隨著大資料紅利的消失殆盡,以深度學習為代表的感知智慧水平日益接近其“天花板”。以深度學習為代表的統計學習嚴重依賴大樣本,這些方法只能習得資料中的統計樣式。
然而,現實世界很多實際問題的解決單單依靠統計樣式是不夠的,還需要知識,特別是符號化的知識。我們人類的語言理解、司法判案、醫療診斷、投資決策等等很多領域都是顯著依賴我們的知識才能實現的。
很多從事自然語言處理的研發人員普遍有個深刻的感受:即便資料量再大,模型再先進,很多自然語言處理任務,比如中文分詞、情感分析達到一定準確率之後,就很難再改進了。
比如,中文分詞的一個經典案例:“南京市長江大橋”,不管是分為“南京市長+江大橋”還是“南京市+長江大橋”都依賴我們的知識。如果從背景關係我們得知是在討論南京市長,並且有個人叫“江大橋”,我們會傾向於分為“南京市長+江大橋”,否則我們會根據我們已有的知識斷句為“南京市+長江大橋”。
不管是哪種情況,我們都在利用我們的知識。我記得我國知名統計學者徐宗本院士在去年年底一個論壇上說過:“資料不夠模型補”。我想傳達類似的觀點:“資料不夠知識補”,甚至“資料足夠了,知識也不能缺失”。而知識圖譜就是這種不可或缺的知識的重要表現形式之一。
機器認知智慧絕不是束之高閣、高高在上的前沿技術。它是一類能夠實實在在落地的、有著廣泛且多樣的應用需求的、能夠產生巨大社會經濟價值的技術。
機器認知智慧的發展過程本質上是人類腦力不斷解放的過程。在工業革命和資訊化時代,我們的體力被逐步解放;而隨著人工智慧技術的發展,尤其是認知智慧技術的發展,我們的腦力也將會逐步解放。
越來越多的知識工作將逐步被機器所代替,伴隨而來的將是機器生產力的進一步解放。機器認知智慧在應用方面是廣泛和多樣的,體現在精準分析、智慧搜尋、智慧推薦、智慧解釋、更自然的人機互動和深層關係推理等各個方面。
認知智慧的第一個應用抓手就是大資料的精準與精細分析。如今,越來越多的行業或者企業積累了規模可觀的大資料。但是這些資料並未發揮出應有的價值,很多大資料還需要消耗大量的運維成本。大資料非但沒有創造價值,在很多情況下還成為了一筆負資產。
這一現象的根本原因在於,當前的機器缺乏諸如知識圖譜這樣的背景知識,機器理解大資料的手段有限,限制了大資料的精準與精細分析,從而大大降低了大資料的潛在價值。
舉個親身體驗的例子,在娛樂圈王寶強離婚案剛剛開始的時候,新浪微博的熱搜前三位分別是“王寶強離婚”、“王寶寶離婚”和“寶強離婚”。也就是說,當時的微博平臺還沒有能力將這三件事自動歸類到一件事,不知道這三件事其實說的是一件事。
機器在統計事件熱度的時候就分開統計了,這就是因為當時機器缺乏背景知識,不知道王寶強又稱為“王寶寶”或“寶強”,所以沒有辦法做到大資料的精準分析。
事實上,輿情分析、網際網路的商業洞察,還有軍事情報分析和商業情報分析都需要大資料的精準分析,而這種精準分析就必須要有強大的背景知識支撐。除了大資料的精準分析,資料分析領域另一個重要趨勢:精細分析,也對知識圖譜和認知智慧提出了訴求。
比如很多汽車製造廠商都希望實現個性化製造。個性化製造希望從網際網路上搜集使用者對汽車的評價與反饋,並以此為據實現汽車的按需與個性化定製。
為了實現個性化定製,廠商不僅需要知道消費者對汽車的褒貶態度,還需要進一步瞭解消費者不滿意的細節之處,以及消費者希望如何改進,甚至使用者提及了哪些競爭品牌。顯然面向網際網路資料的精細化資料分析必需要求機器具備關於汽車評價的背景知識(比如汽車的車型、車飾、動力、能耗等等)。
因此,大資料的精準和精細化分析需要智慧化的技術支撐。
認知智慧的第二個非常重要的應用抓手是智慧搜尋。下一代智慧搜尋對機器認知智慧提出了需求。智慧搜尋體現在很多方面。
首先,體現在搜尋意圖的精準理解方面。比如在淘寶上搜索“iPad 充電器”,使用者的意圖顯然是要搜尋一個充電器,而不是一個 iPad,這個時候淘寶應該反饋給使用者若干個充電器以供選擇,而不是 iPad。
再比如在 Google 上搜索“toys kids”或者“kids toys”,不管搜尋這兩個中的哪一個,使用者的意圖都是在搜尋給孩子的玩具,而不是玩玩具的小孩,因為一般不會有人用搜索引擎搜孩子。“toys kids”和“kid’s toys”中兩個詞都是名詞,要辨別出哪一個是核心詞,哪一個是修飾詞,在缺乏背景關係的短文字上,仍然是個具有挑戰性的難題。
其次,搜尋的物件越來越複雜多元化。以前搜尋的物件以文字為主,現在大家希望能搜尋圖片和聲音,甚至還能搜程式碼,搜影片,搜設計素材等等,要求一切皆可搜尋。
第三、搜尋的粒度也越來越多元化。現在的搜尋不僅能做篇章級的搜尋,還希望能做到段落級、陳述句級、詞彙級的搜尋。尤其是在傳統知識管理領域,這個趨勢已經非常明顯。傳統的知識管理大都只能做到檔案級搜尋,這種粗粒度的知識管理已經難以滿足實際應用中細粒度的知識獲取需求。
最後,是跨媒體的協同搜尋。傳統搜尋以面向單質單源資料的搜尋居多。比如針對文字搜尋難以借力影片、圖片資訊,針對圖片的搜尋主要還是利用圖片自身的資訊,對於大量文字資訊利用率還不高。最近的趨勢是跨媒體的協同搜尋。
比如前幾年,明星王珞丹在微博上曬了張自家小區的照片,然後就有好事者根據她的微博社交網路、百度地圖、微博文字與圖片資訊等多個渠道多種媒體的資訊,透過聯合檢索準確推斷出其所在小區位置。所以,未來的趨勢是一切皆可搜尋,並且搜尋必達。
認知智慧的第三個應用抓手是智慧推薦。智慧推薦表現在很多方面。首先是場景化推薦。比如使用者在淘寶上搜“沙灘褲”、“沙灘鞋”,可以推測這個使用者很有可能要去沙灘度假。那麼平臺是否能推薦“泳衣”、“防曬霜”之類的沙灘度假常用物品呢?
事實上,任何搜尋關鍵字背後,購物籃裡的任何一件商品背後都體現著特定的消費意圖,很有可能對應到特定的消費場景。建立場景圖譜,實現基於場景圖譜的精準推薦,對於電商推薦而言至關重要。
第二:任務型推薦。很多搜尋背後的動機是完成特定任務。比如使用者購買了“羊肉捲”、“牛肉捲”、“菠菜”、“火鍋底料”,那麼使用者很有可能是要做一頓火鍋,這種情況下,系統推薦火鍋調料、火鍋電磁爐,使用者很有可能買單。
第三:冷啟動下的推薦。冷啟動階段的推薦一直是傳統基於統計行為的推薦方法難以有效解決的問題。利用外部知識,特別是關於使用者與物品的知識指引冷啟動階段的匹配與推薦,是有可能讓系統儘快渡過這個階段的。
第四:跨領域的推薦。當阿裡剛剛入股新浪時,我們在設想是否能將淘寶的商品推薦給微博的使用者。比如,如果一個微博使用者經常曬九寨溝、黃山、泰山的照片,那麼為這位使用者推薦一些淘寶的登山裝備準沒錯。
這是典型的跨領域推薦,微博是一個媒體平臺,淘寶是一個電商平臺。他們的語言體系、使用者行為完全不同,實現這種跨領域推薦顯然商業價值巨大,但卻需要跨越巨大的語意鴻溝。
如果能有效利用知識圖譜這類背景知識,不同平臺之間的這種語意鴻溝是有可能被跨越的。比如百科知識圖譜告訴我們九寨溝是個風景名勝,是個山區,山區旅遊需要登山裝備,登山裝備包括登山杖、登山鞋等等,從而就可以實現跨領域推薦。
第五:知識型的內容推薦。在淘寶上搜索“三段奶粉”,能否推薦“嬰兒水杯”,同時我們是否能推薦使用者一些喝三段奶粉的嬰兒每天的需水量是多少,如何飲用等知識。
這些知識的推薦,將顯著增強使用者對於推薦內容的信任與接受程度。消費背後的內容與知識需求將成為推薦的重要考慮因素。
所以未來的推薦趨勢就是精準感知任務與場景,想使用者之未想。推薦技術演進的重要趨勢是從單純基於行為的推薦過渡到行為與語意融合的推薦。換言之,基於知識的推薦,將逐步成為未來推薦技術的主流。
認知智慧的第四個應用抓手是智慧解釋。2017 年年底的時候,微信上流傳 Google 17 年最流行的搜尋關鍵字是“how”,這說明人們希望 Google 平臺能做“解釋”。類似於“如何做蛋炒飯”,“怎麼來北理工”等這類問題在搜尋引擎上出現次數日益增多,這些問題都在考驗機器的解釋水平。
一個更有意思的例子是,當我們在 Google 上搜索“Donald Trump”相關的問題時,你會發現 Google 會自動提示詢問“為什麼特朗普的老婆嫁給他”而不再是“特朗普老婆是誰”這類簡單事實問題。
“why”和“how”問題在現實應用中越來越多。這一趨勢實際上體現了人們的一個普遍訴求,那就是希望智慧系統具備可解釋性。所以可解釋性將是智慧系統一個非常重要的體現,也是人們對智慧系統的普遍期望。
可解釋性決定了 AI 系統的決策結果能否被人類採信。可解釋性成為了很多領域(金融、醫療、司法等)中阻礙 AI 系統落地應用的最後一公里。
比如在金融領域的智慧投資決策,即便 AI 決策的準確超過 90%,但是如果系統不能給出作出決策的理由,投資經理或者使用者恐怕也是十分猶豫的。再比如在醫療領域,即便系統判斷疾病的準確率在 95% 以上,但是如果系統只是告訴病患得了什麼病或者開了一個藥方,卻不能解釋為什麼作出這類判斷的話,病人是不會為此買單的。
智慧系統的可解釋性體現在很多具體任務中,包括解釋過程、解釋結果、解釋關係、解釋事實。事實上,可解釋人工智慧最近受到了越來越多的關註。
在學術界,機器學習,特別是深度學習的黑盒特性,日益成為學習模型實際應用的主要障礙之一。越多越多的學術研究專案旨在開啟深度學習的黑盒。美國軍方也有專案在嘗試解釋機器的學習過程。我個人也曾做過《基於知識圖譜的可解釋人工智慧》的研究與思考,旨在強調知識圖譜在可解釋性方面的重要作用。
智慧系統另外一個非常重要的表現方式就是自然人機互動。人機互動將會變得越來越自然,越來越簡單。越自然簡單的互動方式越依賴強大的機器智慧水平。
自然人機互動包括自然語言問答、對話、體感互動、表情互動等等。特別是自然語言互動的實現需要機器能夠理解人類的自然語言。會話式 (Conversational UI)、問答式 (QA) 互動將逐步代替傳統的關鍵字搜尋式互動。
對話式互動還有一個非常重要的趨勢就是一切皆可問答。我們的 BOTs(對話機器人)將代替我們閱讀文章、新聞,瀏覽圖譜、影片,甚至代替我們看電影、電視劇,然後回答我們所關心的任何問題。自然人機互動的實現顯然需要機器的較高認知智慧水平,以及機器具備強大的背景知識。
認知智慧還體現在機器的深層關係發現與推理能力方面。人們越來越不滿足於“葉莉是姚明妻子”這樣的簡單關聯的發現,而是希望發現和挖掘一些深層、潛藏關係。
這裡有一些來自網際網路的例子。王寶強離婚的時候,就有人挖過為什麼王寶強找張起淮當律師。後來有人把人物關聯圖譜建立起來,發現王寶強與馮小剛關係很好,而馮小剛有徐靜蕾和趙薇兩個經常合作的演員,而張起淮是這兩個演員的法律顧問。這樣的關係鏈路一定程度上揭示了王寶強與他的律師之間的深層次關聯,也解釋了王寶強為何選擇這位律師。
更多類似例子發生在金融領域。在金融領域,我們可能十分關註投資關係,比如為何某個投資人投資某家公司;我們十分關註金融安全,比如信貸風險評估需要分析一個貸款人的相關關聯人物和關聯公司的信用評級。
我們可以看到,剛才所說的這些需求都在各領域醞釀、發生,這些需求要求機器具備認知能力,要求機器具備理解、解釋、規劃、推理、演繹、歸納等一系列能力。其中,尤其以理解和解釋較為突出。
讓機器具備認知能力不是今天才提出的問題,早在圖靈時代,阿蘭-圖靈在設計圖靈機的時候就在想象機器能不能像人一樣思考。而機器認知智慧的實現在本質上就是讓機器能夠像人一樣思考。
這裡有一個非常重要的觀點要分享給大家,我認為實現認知智慧是當前以及今後一段時間裡AI發展的重要使命之一。更具體一點,理解和解釋將是後深度學習時代人工智慧最重要的使命之一。
之所以說後深度學習時代,是因為深度學習的發展對於大資料紅利的使用基本上已經到了盡頭,深度學習日益面臨效能瓶頸,需要尋求新的思路和方向進行突破。而一個非常重要的突破方向在於知識,在於對於符號知識的利用,在於符號知識與數值模型的融合。而這些努力的最終結果就是使機器具備理解和解釋的能力。
如何實現機器的認知能力?或者更具體一點,如何讓機器具備理解和解釋的能力?
我認為知識圖譜,或者說以知識圖譜為代表的這一波知識工程的一系列技術,在認知智慧的實現中起到非常關鍵的作用。一言以蔽之,知識圖譜是實現機器智慧的使能器(Enabler)。也就是說沒有知識圖譜,或許就沒有機器認知智慧的實現。
知識圖譜是什麼?我認為知識圖譜本質上是一種大規模語意網路。
理解知識圖譜的概念,有兩個關鍵詞。首先是語意網路。語意網路表達了各種各樣的物體、概念及其之間的各類語意關聯。比如“C羅”是一個物體,“金球獎”也是一個物體,他們倆之間有一個語意關係就是“獲得獎項”。“運動員”、“足球運動員”都是概念,後者是前者的子類(對應於圖中的subclassof 關係)。
理解知識圖譜的第二個關鍵詞是“大規模”。語意網路並非新鮮事物,早在上個世紀七八十年代知識工程盛行之時,就已存在。相比較於那個時代的語意網路,知識圖譜規模更大。關於這一點後面還會深入介紹。
從 2012 年 Google 提出知識圖譜直到今天,知識圖譜技術發展迅速,知識圖譜的內涵遠遠超越了其作為語意網路的狹義內涵。當下,在更多實際場合下,知識圖譜是作為一種技術體系,指代大資料時代知識工程的一系列代表性技術進展的總和。
去年我國學科目錄做了調整,首次出現了知識圖譜的學科方向,教育部對於知識圖譜這一學科的定位是“大規模知識工程”,這一定位是十分準確且內涵豐富的。
這裡需要指出的是知識圖譜技術的發展是個持續漸進的過程。從上個世紀七八十年代的知識工程興盛開始,學術界和工業界推出了一系列知識庫,直到2012年Google推出了面向網際網路搜尋的大規模的知識庫,被稱之為知識圖譜。理解今天的知識圖譜內涵,是不能割裂其歷史臍帶的。
知識圖譜的歷史發展必然帶來一個非常有意思的問題,那就是上世紀七八十年代的知識表示與我們今天的知識圖譜到底有什麼本質差別?
知識工程在圖靈獎獲得者費根鮑姆以及 AI 先驅馬文明斯基的帶領下,曾經興盛一時,解決了一系列實際應用問題,甚至在數學定理證明等看上去很難的問題上取得了顯著進展。
時至今日,我們再次討論作為一種語意網路的知識圖譜,會不會只是冷炒飯的再次煎炒而已?知識圖譜在當下的火熱到底是知識工程的迴光返照還是再次中興?這一系列問題需要得到合理回答。
傳統語意網路與知識圖譜的差別首先表現在其規模上。知識圖譜是一種大規模語意網路,與上世紀七八十年代的各類語意網路相比較,最顯著的差異就是規模差異。
推而廣之,以知識圖譜為代表的大資料時代的各種知識表示與傳統的知識表示的根本差別首先體現在規模上。
傳統知識工程一系列知識表示都是一種典型的“小知識”(small knowledge)。而到了大資料時代,受益於海量資料、強大計算能力以及群智計算,我們如今能夠自動化構建、或者眾包構建大規模、高質量知識庫,形成所謂的“大知識”(big knowledge,合肥工業大學的吳興東教授在很多場合下也提到類似觀點)。
所以知識圖譜與傳統知識表示在淺層次上的區別,就是大知識與小知識的差別,是在規模上的顯而易見的差別。
更深刻的進行分析就會發現,這樣的一個知識規模上的量變帶來了知識效用的質變。知識工程到了上世紀八十年代之後就銷聲匿跡了。根本原因在於傳統知識庫構建主要依靠人工構建、代價高昂、規模有限。
舉個例子,我國的詞林辭海是上萬名專家花了 10 多年編撰而成的,但是它只有十幾萬詞條。而現在任何一個網際網路上的知識圖譜,比如 DBpedia,動輒包含上千萬物體。
人工構建的知識庫雖然質量精良,但是規模有限。有限的規模使得傳統知識表示難以適應網際網路時代的大規模開放應用的需求。
網際網路應用的特點在於:一、規模巨大,我們永遠不知道使用者下一個搜尋關鍵詞是什麼;二、精度要求相對不高,搜尋引擎從來不需要保證每個搜尋的理解和檢索都是正確的;三、簡單知識推理,大部分搜尋理解與回答只需要實現簡單的推理,比如搜尋劉德華推薦歌曲,是因為知道劉德華是歌星,至於“姚明老婆的婆婆的兒子有多高”這類的複雜推理在實際應用中所佔比率是不高的。
網際網路上的這種大規模開放應用所需要的知識很容易突破傳統專家系統由專家預設好的知識庫的知識邊界。我想這一定程度上回答了,為何谷歌在 2012 年這個時間節點推出知識圖譜,利用一個全新名稱以表達與傳統知識表示毅然決裂的態度。
有人或許會問,那麼傳統知識表示對於領域應用應該依然有效,為何專家系統後來在領域應用中也不多見了?
這個問題我也曾思考了很長時間,直到後來在很多領域知識圖譜的應用實踐中意識到一些知識應用的有趣現象,我姑且將這個現象叫做“領域知識的偽封閉”現象。領域知識看似應該是封閉的,也就是不會蔓延至專家預先設定的知識邊界範圍之外。
但是事實恰好相反,很多領域知識的應用十分易於突破原先設定的邊界。比如,我們現在做金融知識圖譜,原先我們覺得只有股票、期貨、上市公司與金融密切相關,但是實際應用中,幾乎萬事萬物在某種意義下都與金融相關,比如某個龍卷風,可能影響農作物產量,進而影響農業機械的出貨量,進而影響了農機發動機,最終影響了這個發動機的上市公司股價。
類似這樣的關聯分析,不正是我們期望智慧金融實現的麼?
而這樣的深度關聯分析,顯然十分容易超出任何專家系統的預先設定的知識邊界。因此,某種意義上,知識是普遍關聯的,當然關聯也是有條件的;領域知識的領域性通常是個偽命題,很多領域知識庫的構建要直面通用知識庫的構建所面臨的同樣挑戰。
換句話說,領域知識庫的深度應用勢必涉及通用知識庫。這也在一定程度上解釋了,我曾經強調的一個觀點,那就是通用知識庫的研究具有戰略意義,不容有失;一萬個領域知識研究通透了也未必有一個通用知識庫研究透徹價值來的高。通用知識庫的研究是在搶佔知識庫研究的戰略制高點,對於領域知識庫能夠形成戰略俯衝。
如果你仍然不滿足於我當前的回答,進一步追問決定了領域知識庫與通用知識庫這種粘連特性的根本原因是什麼。那麼我想答案在於人類的知識體系。
我們的知識是有體系架構的,這個架構的最底層,也就是作為地基支撐整個知識體系的知識就是通用知識。而在通用知識中的最底層應該是常識,也就是我們每個人都知道的知識,特別是我們人類關於時間、空間以及因果的基本常識。
整個知識體系是建基在這些通用常識之上,再透過隱喻作為主要手段,逐步形成我們的高層、抽象或者領域性知識。
因此,我想透過一個簡單的公式表明傳統知識工程與以知識圖譜為代表的新一代知識工程的聯絡與區別:Small knowledge + Bigdata=Big knowledge。
透過這個公式表達兩層意思。一、以知識圖譜為代表的大資料時代知識工程有著悠久的歷史淵源;知識圖譜脫胎於傳統知識表示,但是在規模上顯著優於傳統語意網路;而這種量變也帶來知識效用上的質變。這層含義剛才已經闡述,不再贅述。
我透過這個公式想強調的是另一層含義:傳統知識表示形式林林總總,透過大資料的賦能,這些知識表示將在各個應用場景下發揮巨大能量。知識圖譜只不過是傳統的語意網路在規模上顯著提升,就已經能夠解決大量實際問題。
試想一下,我們還有大量其他的知識表示,比如本體、框架、謂詞邏輯、馬爾科夫邏輯網、決策樹等等各種知識表示仍然被鎖在規模的牢籠裡,一旦規模瓶頸被突破,我相信整個知識工程的產業能量將得到巨大釋放。
正是在這個意義上,我認為知識圖譜只是知識工程復興的序曲,知識圖譜將引領知識工程復興。我有一種強烈的感覺,好比我們曾經經歷了小資料到大資料的轟轟烈烈的時代轉變,我們也必將經歷從小知識走向大知識的時代轉變。
為什麼知識圖譜對於機器實現人工智慧如此重要呢?我們先從形而上的角度來分析這個問題。具體而言,我們分析知識圖譜實現機器認知智慧的兩個核心能力:“理解”和“解釋”。
我嘗試給機器“理解與解釋”提出一種解釋。我認為機器理解資料的本質是建立起從資料到知識庫中的知識要素(包括物體、概念和關係)對映的一個過程。
比如如果我說到“2013 年的金球獎得主 C 羅”這句話,我們之所以說自己理解了這句話,是因為我們把“C 羅”這個詞彙關聯到我們腦子中的物體“C 羅”,把“金球獎”這個詞彙對映到我們腦中的物體“金球獎”,然後把“得主”一詞對映到邊“獲得獎項”這個關係。
我們可以仔細體會一下我們的文字理解過程,其本質是建立從資料,包括文字、圖片、語音、影片等資料到知識庫中的物體、概念、屬性對映的過程。
再來看我們人類是如何“解釋”的。比如我問“C 羅為什麼那麼牛?”,我們可以透過知識庫中的“C 羅獲得獎項金球獎”以及“金球獎地位影響力最大的足球獎項之一”這兩條關係來解釋這一問題。
這一過程的本質就是將知識庫中的知識與問題或者資料加以關聯的過程。有了知識圖譜,機器完全可以重現我們的這種理解與解釋過程。有過一定計算機研究基礎的,是不難完成上述過程的數學建模的。
知識圖譜對機器認知智慧的必要性還可以從若干具體問題來進行闡述。首先,我們來看機器認知的核心能力之一:自然語言理解。
我的觀點是機器理解自然語言需要類似知識圖譜這樣的背景知識。自然語言是異常複雜的:自然語言有歧義性、多樣性,語意理解有模糊性且依賴背景關係。
機器理解自然語言困難的根本原因在於,人類語言理解是建立在人類的認知能力基礎之上的,人類的認知體驗所形成的背景知識是支撐人類語言理解的根本支柱。我們人類彼此之間的語言理解就好比是根據冰山上浮出水面的一角來揣測冰山下的部分。
我們之所以能夠很自然地理解彼此的語言,是因為彼此共享類似的生活體驗、類似的教育背景,從而有著類似的背景知識。冰山下龐大的背景知識使得我們可以彼此理解水面上有限的幾個字元。
我們可以做個簡單的思想實驗,假如現在有個外星人坐在這裡聽我講報告,他能聽懂麼?我想還是很困難的,因為他沒有在地球上生活的經歷,沒有與我相類似的教育背景,沒有與我類似的背景知識庫。
再舉個很多人都有體會的例子,我們去參加國際會議時,經常遇到一個尷尬的局面,就是西方學者說的笑話,我們東方人很難產生共鳴。因為我們和他們的背景知識庫不同,我們早餐吃燒餅、油條,西方吃咖啡、麵包,不同的背景知識決定了我們對幽默有著不同的理解。
所以語言理解需要背景知識,沒有強大的背景知識支撐,是不可能理解語言的。要讓機器理解我們人類的語言,機器必需共享與我們類似的背景知識。
實現機器自然語言理解所需要的背景知識是有著苛刻的條件的:規模足夠大、語意關係足夠豐富、結構足夠友好、質量足夠精良。
以這四個條件去看知識表示就會發現,只有知識圖譜是滿足所有這些條件的:知識圖譜規模巨大,動輒包含數十億物體;關係多樣,比如線上百科圖譜 DBpedia 包含數千種常見語意關係;結構友好,通常表達為 RDF 三元組,這是一種對於機器而言能夠有效處理的結構;質量也很精良,因為知識圖譜可以充分利用大資料的多源特性進行交叉驗證,也可利用眾包保證知識庫質量。
所以知識圖譜成為了讓機器理解自然語言所需的背景知識的不二選擇。
既然機器理解自然語言需要背景知識,我對於當前的自然語言處理有個重要看法:我認為自然語言處理走向自然語言理解的必經之路是知識,我將我的這個觀點表達為 NLP+KB=NLU 的公式。
很多 NLP 從業人員有個體會,明明論文裡面報道的在某個 benchmark 資料 95% 準確率的模型一旦用到實際資料上,至少有 10 個百分點的下降。而最後那幾個點的準確率的提升需要機器理解自然語言。
這一點在司法、金融、醫療等知識密集型的應用領域已經體現的非常明顯了。比如在司法領域,如果不把司法背後的事理邏輯、知識體系賦予機器,單純依賴字元資料的處理,是難以實現司法資料的語意理解的,是難以滿足司法文字的智慧化處理需求的。
因此,NLP 將會越來越多地走向知識引導的道路。NLP 與 KB 將走向一條交迭演進的道路。在知識的引導下,NLP 模型的能力越來越強,越來越強大的 NLP 模型,特別是從文字中進行知識抽取的相關模型,將會幫助我們實現更為精準地、自動化抽取,從而形成一個質量更好、規模更大的知識庫。
更好的知識庫又可以進一步增強 NLP 模型。這種迴圈迭代持續下去,NLP 最後將會非常接近 NLU,甚至最終剋服語意鴻溝,實現機器的自然語言理解。
最近幾年,這條技術演進路線日漸清晰,越來越多的頂尖學者有著與我類似的看法,我的研究團隊沿著這條路徑做了很多嘗試,初步看來效果顯著。當然這些都是一家之言。
也有不少人認為依靠純資料驅動的自然語言處理模型也可實現機器的自然語言理解,特別是當下深度學習在自然語言處理方面還十分流行,我所倡導的知識引導下的 NLP 發展路徑多少有些顯得不合時宜。
這裡,透過一個實際案例論證知識對於 NLP 的重要作用。在問答研究中,自然語言問題的理解或者語意表示是一個難題。同樣語意的問題表達方式往往是多樣的,比如不論是 how many people are there in Shanghai? 還是 what is the population of Shanghai,都是在問上海人口。
又或者形式上看上去很接近的問題,實質語意相差很大,比如“狗咬人了嗎”與“人咬狗了嗎”語意完全不同。當問題答案來自於知識庫時,這類問題就屬於 KBQA(面向知識庫的自然語言問答)的研究內容。
KBQA 的核心步驟是建立從自然語言問題到知識庫中的三元組謂詞的對映關係。比如上面的兩個與上海人口相關的問題,都可以對映到知識庫中的 Population 這個謂詞。
一種簡單的辦法是讓機器記住問題到謂詞的對映規則,比如機器記住“How many people are there in Shanghai?”對映到上海這個物體的 Population 謂詞上。但這種方法沒有把握問題語意本質,如果用同樣的句式問及北京、南京,甚至任何一個城市人口呢?難道機器需要為每個實體記住這些對映麼?
顯然我們人類不是如此理解問題語意的,我們是在“How many people are there in $City?”這個問題概念模板層次把握問題語意的實質的。
利用概念模板不僅避免了暴力式的記憶,同時也能讓機器具備類人的推理能力。比如,如果問到“How many people are there in XXX?”,機器只要知道 XXX 是個 city,那麼這個問題一定是在問 XXX 的人口數量。
那麼我們怎麼生成這種問題概念模板呢,我們用概念圖譜。概念圖譜裡面含有大量的類似 shanghai is a city,beijing is a city 這類知識。充分利用這些知識可以得到自然語言問題的有效表示,從而實現機器對於自然語言問題的語意理解。
知識圖譜對於認知智慧的另一個重要意義在於:知識圖譜讓可解釋人工智慧成為可能。“解釋”這件事情一定是跟符號化知識圖譜密切相關的。因為解釋的物件是人,人只能理解符號,沒辦法理解數值,所以一定要利用符號知識開展可解釋人工智慧的研究。
可解釋性是不能迴避符號知識的。我們先來看幾個解釋的具體例子。比如,我若問鯊魚為什麼可怕?你可能解釋說:因為鯊魚是食肉動物,這實質上是用概念在解釋。若問鳥為什麼能飛翔?你可能會解釋因為它有翅膀。這是用屬性在解釋。若問鹿晗關曉彤前些日子為什麼會刷屏?你可能會解釋說因為關曉彤是鹿晗的女朋友。這是用關係在解釋。
我們人類傾向於利用概念、屬性、關係這些認知的基本元素去解釋現象,解釋事實。而對於機器而言,概念、屬性和關係都表達在知識圖譜裡面。因此,解釋離不開知識圖譜。
沿著這個思路,我們做了一些初步嘗試,我們首先試著利用知識圖譜做可解釋推薦。我們目前的網際網路推薦,只能給我們推薦結果,卻無法解釋為什麼。
可解釋推薦將是未來推薦研究的重要領域,將是具有巨大商業價值的研究課題。我們初步實現了可解釋的物體推薦。若使用者搜尋了“百度”和“阿裡”,機器推薦“騰訊”,並且解釋為什麼推薦“騰訊”,因為他們都是網際網路巨頭、都是大型 IT 公司。
這裡實質上是在利用概念展開解釋,這些概念可以在很多概念圖譜,比如英文概念圖譜 Probase,和中文概念圖譜 CN-Probase 裡找到。
另一個例子是讓機器解釋概念。比如向機器提及“單身漢”這個概念,機器能否自動產生“男性”、“未婚”這樣的屬性用於解釋這個概念。
我們針對富含物體、概念和屬性資訊的大型百科圖譜展開挖掘,自動挖掘出常見概念的定義性屬性。這些定義性屬性可以幫助我們完善概念圖譜,也就是為概念圖譜上的每個概念補充定義性屬性資訊;進一步可以利用這些資訊讓機器利用屬性對於物體進行準確歸類。這一歸類過程本質上是在模擬人類的範疇化過程。
知識圖譜的另一個重要作用體現在知識引導將成為解決問題的主要方式。前面已經多次提及使用者對使用統計模型來解決問題的效果越來越不滿意了,統計模型的效果已經接近“天花板”,要想突破這個“天花板”,需要知識引導。
舉個例子,物體指代這樣的文字處理難題,沒有知識單純依賴資料是難以取得理想效果的。比如“張三把李四打了,他進醫院了”和“張三把李四打了,他進監獄了”,人類很容易確定這兩個不同的“他”的分別指代。
因為人類有知識,有關於打人這個場景的基本知識,知道打人的往往要進監獄,而被打的往往會進醫院。但是當前機器缺乏這些知識,所以無法準確識別代詞的準確指代。很多工是純粹的基於資料驅動的模型所解決不了的,知識在很多工裡不可或缺。比較務實的做法是將這兩類方法深度融合。
實際上在很多 NLP 應用問題中,我們在嘗試用知識引導突破效能瓶頸。比如在中文物體識別與連結中,針對中文短文字,在開放語境下,在沒有充分背景關係,缺乏主題資訊的前提下,這一問題仍然十分困難,現在工業界最高準確率大概 60% 多的水平。當前機器仍然難以理解中文文字中的物體。
最近,我們利用中文概念圖譜 CN-Probase,給予中文物體識別與連結任務以豐富的背景知識,取得了十分顯著的效果。我們知道打球的李娜和唱歌的李娜不是同一個人,現在即便這兩人在文字中同時被提及,機器也能準確識別並加以區分。
知識對於認知智慧又一個很重要的意義就是將顯著增強機器學習的能力。當前的機器學習是一種典型的“機械式”學習方式,與人類的學習方式相比顯得比較笨拙。
我們的孩童只需要父母告知一兩次:這是貓,那是狗,就能有效識別或者區分貓狗。而機器卻需要數以萬計的樣本才能習得貓狗的特徵。我們中國學習英語,雖然也要若干年才能小有所成,但相對於機器對於語言的學習而言要高效的多。
機器學習模型落地應用中的一個常見問題是與專家知識或判斷不符合,這使我們很快陷入進退兩難的境地:是相信學習模型還是果斷棄之?機器學習與人類學習的根本差異可以歸結為人是有知識的且能夠有效利用知識的物種。
我相信,未來機器學習能力的顯著增強也要走上知識的充分利用的道路。符號知識對於機器學習模型的重要作用會受到越來越多的關註。
這一趨勢還可以從機器智慧解決問題的兩個基本樣式方面加以論述。機器智慧的實現路徑之一是習得資料中的統計樣式,以解決一系列實際任務。另一種是專家系統,專家將知識賦予機器構建專家系統,讓機器利用專家知識解決實際問題。
如今,這兩種方法有合流的趨勢,無論是專家知識還是透過學習模型習得的知識,都將顯式地表達並且沉澱到知識庫中。再利用知識增強的機器學習模型解決實際問題。這種知識增強下的學習模型,可以顯著降低機器學習模型對於大樣本的依賴,提高學習的經濟性;提高機器學習模型對先驗知識的利用率;提升機器學習模型的決策結果與先驗知識的一致性。
我個人傾向於認為:機器學習也面臨一次全新機遇。我將其總結為 ML+KB=ML2,也就是說機器學習在知識增強下或許就是下一代機器學習。
沿著上面的思路我們也做了一些嘗試。在自然語言生成任務中,我們的機器學習模型,特別是深度生成模型會經常生成很多不符合語法、或者不符合語意的句子。
我們人類顯然可以總結出很多語法語意規則用於描述什麼是好的自然語言陳述句。但是這些知識還很難被機器有效利用。這就需要把語法、語意知識用規則、符號的方式表達出來,並有效融合到深度生成模型裡面。
最近,我們基於對抗生成網路初步實現了這一標的。並將融合了先驗知識的語言生成模型用於從知識庫三元組自動生成自然語言問題,並將這一技術用於文字驗證碼。具體技術細節可以參考我曾做過的一個技術報告《未來人機區分》。
知識將成為比資料更為重要的資產。前幾年大資料時代到來的時候,大家都說“得資料者得天下”。去年,微軟研究院的沈向陽博士曾經說過“懂語言者得天下”。而我曾經論述過,機器要懂語言,背景知識不可或缺。
因此,在這個意義下,將是“得知識者得天下”。如果說資料是石油,那麼知識就好比是石油的萃取物。如果我們只滿足賣資料盈利,那就好比是直接輸出石油在盈利。但是石油的真正價值蘊含於其深加工的萃取物中。石油萃取的過程與知識加工的過程也極為相像。都有著複雜流程,都是大規模系統工程。
我今天的報告就是在當前的時代背景下重新解讀圖靈獎獲得者,知識工程的鼻祖,費根鮑姆曾經說過的一句話“knowledge is the power in AI”。這句話已經出現幾十年了,在當今語境下需要重新解讀。
最後用三個總結結束今天的報告。總結 1 概括了這個報告的主要觀點。總結 2 試圖再次強調我的三個觀點。總結 3 想用一句話再次強調知識的重要性。
知識的沉澱與傳承鑄就了人類文明的輝煌,也將成為機器智慧持續提升的必經之路。只不過到了機器身上,知識的沉澱變成了知識的表示,知識的傳承變成了知識的應用。所以,知識的沉澱和傳承不僅鑄就了人類文明的輝煌,或許也將造就機器智慧的全新高度。
點選以下標題檢視相關內容:
#作 者 招 募#
我是彩蛋
解鎖新功能:熱門職位推薦!
PaperWeekly小程式升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
解鎖方式
1. 識別下方二維碼開啟小程式
2. 用PaperWeekly社群賬號進行登陸
3. 登陸後即可解鎖所有功能
職位釋出
請新增小助手微信(pwbot02)進行諮詢
長按識別二維碼,使用小程式
*點選閱讀原文即可註冊
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。
▽ 點選 | 閱讀原文 | 加入社群刷論文