作者丨謝若冰
單位丨騰訊微信搜尋應用部
研究方向丨知識表示學習
知識圖譜被廣泛地用來描述世界上的物體和物體之間的關係,一般使用三元組(h,r,t)(head entity, relation, trail entity)的形式來儲存知識,其中蘊含的知識數量巨大且時常更新。
目前,人工標註已經不能滿足知識圖譜更新和增長的速度,但自動化構建知識圖譜的過程中往往容易引入一些噪聲和衝突。
由於大多數傳統知識表示學習(Knowledge, Representation Learning, KRL)方法都假設現有知識圖譜中的知識是完全正確的,因此會帶來潛在誤差。
於是,如何從帶有噪聲或衝突的知識圖譜中學習到更好的知識表示向量,同時又能夠發現已有知識圖譜中可能存在的錯誤,就成為了亟需解決的問題。
來自清華大學/騰訊的謝若冰研究員,清華大學的劉知遠老師,騰訊的林芬研究員和林樂宇研究員,在即將發表於 AAAI 2018 的論文《Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence》中,提出了一種新的基於置信度的知識表示學習框架(confidence-aware KRL framework,CKRL),能夠發現知識圖譜中潛在的噪聲或衝突,同時更好地從中學習知識表示。
作者在 CKRL 模型中主要參考了 TransE 的思路,使用了平移假設(translation-based assumption),並增加了三元組置信度(triple confidence)的概念。整體能量方程如下:
其中,基於平移假設,有:
對於 triple confidence,作者設計了三種樣式,分別是 Local Triple Confidence,Prior Path Confidence 以及 Adaptive Path Confidence,基於平移假設,使用三元組的物體、關係,以及物體之間的路徑的向量資訊,綜合對三元組的置信度進行動態調整與學習。
具體地,對於使用 path 的置信度,作者假設如果 (h,r,t) 中 h,t 有越多包含較多資訊流的路徑,並且這些路徑的向量表示與 r 越相似,那麼 (h,r,t) 三元組的置信度越高。
整個訓練過程中,知識表示和三元組的置信度在能量函式指導下相互影響並動態最佳化,最終得到考慮置信度的知識表示,並能基於此知識表示完成知識表示學習和知識圖譜噪聲探測等任務。
在學習的過程中,作者使用了 margin-base score function 進行學習,希望正例得分能夠高於負例得分。需要註意的是,由於作者使用的是三元組的向量資訊,所以三元組的置信度會在訓練過程中發生動態變化。
低置信度的三元組在學習中會相應收到打壓,最終使得帶有噪聲的知識圖譜中的知識表示向量能夠學得更好,同時減少噪聲和錯誤帶來的影響。
CKRL 模型在 noise detection、knowledge graph completion 和 triple classificaiton 三個任務上都取得了較好的結果,同時該模型的思想還可以直接擴充套件至知識構建環節中,在自動構建方法情境下,幫助建立更加精準的知識圖譜。
作者的話
本文是作者在清華大學碩士期間以及在騰訊微信搜尋應用部期間完成的工作,在知識表示學習框架中引入了基於結構資訊的置信度的概念,能夠同時提升知識表示學習和知識圖譜噪聲探測的效果。
作者之前的多篇工作致力於融合多源資訊提升知識表示效能,但在知識驅動的實際任務中也存在很多諸如噪聲等現實問題。本次工作即是在知識圖譜置信度上的一次初步探索,相關思路也可以引入知識構建等知識工程其它環節。
點選以下標題檢視相關內容:
#榜 單 公 布 #
2017年度最值得讀的AI論文 | NLP篇 · 評選結果公佈
2017年度最值得讀的AI論文 | CV篇 · 評選結果公佈
我是彩蛋
解鎖新功能:熱門職位推薦!
PaperWeekly小程式升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
解鎖方式
1. 識別下方二維碼開啟小程式
2. 用PaperWeekly社群賬號進行登陸
3. 登陸後即可解鎖所有功能
職位釋出
請新增小助手微信(pwbot01)進行諮詢
長按識別二維碼,使用小程式
*點選閱讀原文即可註冊
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。
▽ 點選 | 閱讀原文 | 檢視論文 & 原始碼