香儂科技近期提出 Glyce,首次在深度學習的框架下使用中文字形資訊(Glyph),橫掃 13 項中文自然語言任務記錄,其中包括:(1) 字級別語言模型 (2) 詞級別語言模型 (3) 中文分詞 (4) 命名物體識別 (5) 詞性標註 (6) 句法依存分析 (7) 語意決策標註 (8) 語意相似度 (9) 意圖識別 (10) 情感分析 (11) 機器翻譯 (12) 文字分類 (13) 篇章分析。
論文連結:https://arxiv.org/abs/1901.10125
論文簡介
漢字是象形文字(logographic language),歷經幾千年的歷史演變,是當今世界上依然被使用的最古老的文字。漢字與英文有本質的區別,因為大多數漢字的起源是圖形,漢字的字形中蘊藏著豐富的語音資訊。即便是不識字的人,有時候也可以大概猜到一個字的大概意思。
相反,英文很難從字形中猜出語意,因為英文是 alphabetic language,所基於的羅馬字母反應更多的是文字的讀音,而並不是語意。
然而當今中文自然語言處理的方法,大多是基於英文 NLP 的處理流程:以詞或者字的 ID 為基準,每一個詞或者字有一個對應的向量,並沒有考慮漢語字形的資訊。
Glyce 提出了基於中文字形的語意表示:把漢字當成一個圖片,然後用摺積神經網路學習出語意,這樣便可以充分利用漢字中的圖形資訊,增強了深度學習向量的語意表達能力。Glyce 在總共 13 項、近乎所有中文自然語言處理任務上掃清了歷史記錄。
▲ 圖1:與英文不同,中文是象形文字,字形中蘊藏著豐富的語意資訊
論文詳解
理論上將中文字元當成圖片直接輸入至摺積神經網路便可以。但是這樣實現的效果並不好。Glyce 試圖從三個方面解決這個問題:
運用不同歷史時期的中文字元
如今廣泛使用的簡體中文字元是經過漫長的歷史演變而來的。簡體中文書寫更加方便,但是同時也丟失了大量的原始圖形資訊。Glyce 提出需要運用不同歷史時期的中文字元,從周商時期的金文,漢代的隸書,魏晉時期的篆書,南北朝時期的魏碑,以及繁體、簡體中文。這些不同類別的字元在語意上更全面涵蓋了語意資訊。
▲ 圖2:Glyce提出運用不同歷史時期的中文字元表示
提出符合中文字形的Tianzige(田字格)-CNN架構
Glyce 提出了一些修改 CNN 內部架構的意見,讓模型更適合處理中文字形。主要的改進集中在兩個方面,第一是為了防止過擬合,減小 CNN 中所涉及的引數量,比如將 conv 層變成 grouped conv。還有第二個比較有意思的點是最後一層透過 pooling 將影象輸入變成 2*2 的 grids。文中提到這個模型非常符合中文的田字格樣式,而田字格結構其實非常符合中文文字的書寫順序。
Multi-task Learning(多工學習)
相比於影象分類任務大多有幾百萬或者上千萬的訓練資料,漢字只有上千個。即便算上不同字型,模型只能夠見到幾萬個不同的字元影象樣本。這對影象的泛化能力提出了挑戰。
為瞭解決這個問題,Glyce 提出需要用影象分類任務作為輔助模型(auxiliary training objective)。CNN 輸出的 glyph 向量將同時被輸入到基於字元的分類任務中。實際的訓練函式是 task-specific 的損失函式和字形影象識別損失函式的線性加權:
▲ 圖3:Glyce字向量與Glyce詞向量
Glyce中文字向量
Glyce 將來自不同歷史時期的相同字元堆積形成不同的 channel,並且透過 CNN 對這些影象資訊進行編碼得到了 glyph 向量。得到的 glyph 向量輸入到影象分類模型得到字形影象識別的損失函式。然後透過 highway network 或者全連線的方式將 glyph 向量和對應的中文 char-id 向量進行結合得到了最終的 Glyce 中文字向量。
Glyce中文詞向量
由於中文的詞都可以看成是由中文的字組成,Glyce 透過充分利用組成中文詞中的漢字得到更加細粒度的詞的語意資訊。使用 Glyce 字向量的方式得到詞中的對應字的表示。
因為中文詞中字的個數的不確定性,Glyce 透過 max pooling 層對所有得到的 Glyce 字向量進行特徵的篩選,用來保持了維度的不變性。最終得到的向量透過和 word-id 向量進行拼接得到最終的 Glyce 中文詞向量。
實驗
使用 Glyce 的編碼方式分別在:(1)字級別語言模型(2)詞級別語言模型(3)中文分詞(4)命名物體識別(5)詞性標註(6)句法依存分析(7)語意決策標註(8)語意相似度(9)意圖識別(10)情感分析(11)機器翻譯(12)文字分類(13)篇章分析,共 13 個中文自然語言處理任務上進行了實驗。
實驗結果掃清了所有實驗任務的記錄,充分展示了 Glyce 在中文向量語意表示編碼的有效性和魯棒性,並且展示了 Glyce 的設計優勢。
字級別語言模型
字級別語言模型採用了 Chinese Tree-Bank 6.0 (CTB6.0)語料,並且採用 PPL(困惑度)作為最終的評價指標。透過使用 8 種歷史字型和影象分類的損失函式,基於字級別的語言模型的 PPL(困惑度)達到了 50.67。
詞級別語言模型
詞級別的語言模型採用了 Chinese Tree-Bank 6.0 (CTB6.0)語料,並且採用 PPL(困惑度)作為最終的評價指標。經過對照實驗,word-ID 向量和 glyce 詞向量在詞級別的語言模型上效果最好,PPL(困惑度)達到了 175.1。
中文分詞
中文分詞任務採用了 CTB6,PKU 和 Weibo 的資料集。Glyce 字向量結合之前最優的模型 Lattice-LSTM 在 CTB6 和 Weibo 資料上達到了新的最優的結果。在 PKU 的資料上達到了呵之前最優結果相同的結果。
命名物體識別
命名物體識別採用了 OntoNotes,MSRA 和 resume 的資料集,並且採用 F1 作為最終的評價指標。實驗結果表示,Glyce-char 模型掃清了這三個資料集的新紀錄。在 OntoNotes,MSRA,Resume 上分別超過了之前最優模型 Lattice-LSTM 0.93,0.71 和 1.21 個點。
詞性標註
詞性標註採用了 CTB5, CTB6,UD1 的資料集。單個模型使用 Glyce 詞向量在 CTB5 和 UD1 資料上分別超過之前的 state-of-the-art 1.54 和 1.36 個百分點。Glyce 單模型效果在 CTB5 和 UD1 上超過之前多模型集合的最優結果。
句法依存分析
句法依存分析採用了 Chinese Penn Treebank 5.1 的資料。Glyce 詞向量結合之前最優的 Biaffien 模型把結果在 UAS 和 LAS 資料集上和最優結果比較分別提高了 0.9 和 0.8。
語意決策標註
語意決策標註的實驗採用了 CoNLL-2009 的資料,並且採用 F1 作為最終的評價指標。最優模型 k-order pruning 和 Glyce 詞向量超過了之前最優模型 0.9 的 F1 值。
語意相似度
語意相似度的實驗採用了 BQ Corpus 的資料集,並且採用準確率和 F1 作為最終的評價指標。Glyce 字向量結合 BiMPM 模型在之前最優結果的基礎上提高了 0.97 個點,成為了新的 state-of-the-art。
意圖識別
意圖識別的任務使用了 LCQMC 的資料集進行了實驗,並且採用準確率和 F1 作為最終的評價指標。透過訓練 BiMPM 結合 Glyce 字向量在 F1 上超過了之前的最優結果 1.4,在 ACC 上超過了之前的最優結果 1.9。
情感分析
情感分析的任務採用了 Dianping,JD Full, JD Binary 三個資料集,並且採用準確率作為最終的評價指標。Glyce 字向量結合 Bi-LSTM 模型分別在這三個資料集上面取得了最優的結果。
中文-英文機器翻譯
中文-英文機器翻譯任務的訓練集來自 LDC 語料,驗證集來自 NIST2002 語料。測試集分別是 NIST2003,2004,2005,2006 和 2008,並且採用 BLEU 作為最終的評價指標。Glyce 詞向量結合 Seq2Seq+Attention 模型,測試集上 BLEU 值達到了新的最優結果。
文字分類
文字分類的任務採用了 Fudan corpus, IFeng, ChinaNews 三個資料集,並且採用準確率作為評價指標。Glyce 字向量結合 Bi-LSTM 模型在這三個資料集上分別取得了最優的結果。
篇章分析
篇章分析的任務採用了 Chinese Discourse Treebank (CDTB)的資料集,並且採用準確率作為評價指標。採用了之前 SOTA 模型 RvNN 和 Glyce 字向量,掃清了在 CDTB 資料上的準確率的最優結果。
總結
提出的 Glyce 的中文字元級表示模型,透過使用不同歷史時期的字元影象,豐富了中文字向量和詞向量的語意資訊。透過使用 Glyce 對中文字元的建模方式,我們掃清了幾乎所有的中文自然語言處理任務的 state-of-the-art。Glyce 的成功為以中文為代表的象形文字提供了新的研究方向。
文章作者
Glyce 作者數量多達九個。Wei Wu(吳煒)與 Yuxian Meng(孟昱先)併列為第一作者。Wei Wu(吳煒)在字元級語言模型任務上設計並實現了第一個 Glyce-char 模型。Yuxian Meng(孟昱先)提出了 Tianzige-CNN 結構,影象分類作為輔助標的函式和衰變 λ。Jiwei Li(李紀為)提出使用不同歷史時期的中文字元。Yuxian Meng(孟昱先)負責詞級語言模型和意圖分類的結果;Wei Wu(吳煒)負責中文分詞,命名物體識別和詞性標註的結果。Qinghong Han(韓慶宏)負責語意角色標註的結果;Xiaoya Li(李曉雅)負責中文-英文機器翻譯的結果;Muyu Li(李慕宇)負責句法依存分析和詞性標註的結果;Mei Jie(梅傑)負責篇章分析的結果;Nie Ping(聶平)負責語意相似度的結果;Xiaofei Sun(孫曉飛)負責文字分類和情感分析的結果。Jiwei Li(李紀為)為 Glyce 通訊作者。