本文經授權轉載自公眾號「微軟研究院AI頭條」。

繼在語音識別和機器閱讀領域取得的“過人”成績，由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊宣佈，其研發的機器翻譯系統在通用新聞報道測試集 newstest2017 的中-英測試集上，達到了可與人工翻譯媲美的水平。這是首個在新聞報道的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。

newstest2017 新聞報道測試集由產業界和學術界的合作伙伴共同開發，並於去年秋天在 WMT17 大會上釋出。為了確保翻譯結果準確且達到人類的翻譯水平，微軟研究團隊邀請了雙語語言顧問將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估。

微軟技術院士，負責微軟語音、自然語言和機器翻譯工作的黃學東稱，這是對自然語言處理領域最具挑戰性任務的一項重大突破。“在機器翻譯方面達到與人類相同的水平是所有人的夢想，我們沒有想到這麼快就能實現。”他表示，“消除語言障礙，幫助人們更好地溝通，這非常有意義，值得我們多年來為此付出的努力。”

△ 微軟技術院士黃學東

機器翻譯是科研人員攻堅了數十年的研究領域，曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水平。

雖然此次突破意義非凡，但研究人員也提醒大家，這並不代表人類已經完全解決了機器翻譯的問題，只能說明我們離終極標的又更近了一步。

微軟亞洲研究院副院長、自然語言計算組負責人周明表示，在 WMT17 測試集上的翻譯結果達到人類水平很鼓舞人心，但仍有很多挑戰需要我們解決，比如在實時的新聞報道上測試系統等。

微軟機器翻譯團隊研究經理 Arul Menezes 表示，團隊想要證明的是：當一種語言對（比如中-英）擁有較多的訓練資料，且測試集中包含的是常見的大眾類新聞詞彙時，那麼在人工智慧技術的加持下機器翻譯系統的表現可以與人類媲美。

△ 微軟機器翻譯團隊研究經理Arul Menezes

跨時區跨領域合作，四大技術為創新加持

雖然學術界和產業界的科研人員致力於機器翻譯研究很多年，但近兩年深度神經網路的使用讓機器翻譯的表現取得了很多實質性突破，翻譯結果相較於以往的統計機器翻譯結果更加自然流暢。

為了能夠取得中-英翻譯的里程碑式突破，來自微軟亞洲研究院和雷德蒙研究院的三個研究組，進行了跨越中美時區、跨越研究領域的聯合創新。

其中，微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習（Dual Learning）和推敲網路（Deliberation Networks）應用在了此次取得突破的機器翻譯系統中。

微軟亞洲研究院副院長、機器學習組負責人劉鐵巖介紹道，“這兩個技術的研究靈感其實都來自於我們人類的做事方式。”

對偶學習利用的是人工智慧任務的天然對稱性。當我們將其應用在機器翻譯上時，效果就好像是透過自動校對來進行學習——當我們把訓練集中的一個中文句子翻譯成英文之後，系統會將相應的英文結果再翻譯回中文，並與原始的中文句子進行比對，進而從這個比對結果中學習有用的反饋資訊，對機器翻譯模型進行修正。

而推敲網路則類似於人們寫文章時不斷推敲、修改的過程。透過多輪翻譯，不斷地檢查、完善翻譯的結果，從而使翻譯的質量得到大幅提升。

對偶學習和推敲網路的工作發表在 NIPS、ICML、AAAI、IJCAI 等人工智慧的全球頂級會議上，並且已被其他學者推廣到機器翻譯以外的研究領域。

△ 微軟亞洲研究院副院長、機器學習組負責人劉鐵巖

周明帶領的自然語言計算組多年來一直致力於攻剋機器翻譯，這一自然語言處理領域最具挑戰性的研究任務。周明表示，“由於翻譯沒有唯一的標準答案，它更像是一種藝術，因此需要更加複雜的演演算法和系統去應對。”

自然語言計算組基於之前的研究積累，在此次的系統模型中增加了另外兩項新技術：聯合訓練（Joint Training）和一致性規範（Agreement Regularization），以提高翻譯的準確性。

聯合訓練可以理解為用迭代的方式去改進翻譯系統，用中英翻譯的句子對去補充反向翻譯系統的訓練資料集，同樣的過程也可以反向進行。一致性規範則讓翻譯可以從左到右進行，也可以從右到左進行，最終讓兩個過程生成一致的翻譯結果。

△ 微軟亞洲研究院副院長、自然語言計算組負責人周明

可以說，兩個研究組分別將各自所在領域的積累與最新發現應用在了此次的機器翻譯系統中，從不同角度切入，讓翻譯質量大幅提升。在專案合作過程中，他們每週都會與雷德蒙總部的團隊開會討論，確保技術可以無縫融合，系統可以快速迭代。

沒有“正確的”翻譯結果

newstest2017 新聞報道測試集包括約 2000 個句子，由專業人員從線上報紙樣本翻譯而來。微軟團隊對測試集進行了多輪評估，每次評估會隨機挑選數百個句子翻譯。

為了驗證微軟的機器翻譯是否與人類的翻譯同樣出色，微軟沒有停留在測試集本身的要求，而是從外部聘請了一群雙語語言顧問，將微軟的翻譯結果與人工翻譯進行比較。

驗證過程之複雜也從另一個側面體現了機器翻譯要做到準確所面臨的複雜性。對於語音識別等其它人工智慧任務來說，判斷系統的表現是否可與人類媲美相當簡單，因為理想結果對人和機器來說完全相同，研究人員也將這種任務稱為樣式識別任務。

然而，機器翻譯卻是另一種型別的人工智慧任務，即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯，而且兩個人的翻譯都不是錯的。

那是因為表達同一個句子的“正確的”方法不止一種。周明表示：“這也是為什麼機器翻譯比純粹的樣式識別任務複雜得多，人們可能用不同的詞語來表達完全相同的意思，但未必能準確判斷哪一個更好。”

複雜性讓機器翻譯成為一個極有挑戰性的問題，但也是一個極有意義的問題。劉鐵巖認為，我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何型別的文字時，都能在“信、達、雅”等多個維度上達到專業翻譯人員的水準。

不過，他對技術的進展表示樂觀，因為每年微軟的研究團隊以及整個學術界都會發明大量的新技術、新模型和新演演算法，“我們可以預測的是，新技術的應用一定會讓機器翻譯的結果日臻完善。”

研究團隊還表示，此次技術突破將被應用到微軟的商用多語言翻譯系統產品中，從而幫助其它語言或詞彙更複雜、更專業的文字實現更準確、更地道的翻譯。此外，這些新技術還可以被應用在機器翻譯之外的其他領域，催生更多人工智慧技術和應用的突破。

延伸閱讀

對偶學習（Dual Learning）

對偶學習的發現是由於現實中有意義、有實用價值的人工智慧任務往往會成對出現，兩個任務可以互相反饋，從而訓練出更好的深度學習模型。例如，在翻譯領域，我們關心從英文翻譯到中文，也同樣關心從中文翻譯回英文；在語音領域，我們既關心語音識別的問題，也關心語音合成的問題；在影象領域，影象識別與影象生成也是成對出現。此外，在對話引擎、搜尋引擎等場景中都有對偶任務。

一方面，由於存在特殊的對偶結構，兩個任務可以互相提供反饋資訊，而這些反饋資訊可以用來訓練深度學習模型。也就是說，即便沒有人為標註的資料，有了對偶結構也可以做深度學習。

另一方面，兩個對偶任務可以互相充當對方的環境，這樣就不必與真實的環境做互動，兩個對偶任務之間的互動就可以產生有效的反饋訊號。

因此，充分地利用對偶結構，就有望解決深度學習和增強學習的瓶頸——訓練資料從哪裡來、與環境的互動怎麼持續進行等問題。

■ 論文 | Dual Learning for Machine Translation

■ 連結 | https://www.paperweekly.site/papers/546

■ 原始碼 | https://github.com/thompsonb/DL4MT

△ 對偶無監督學習框架

推敲網路（Deliberation Networks）

“推敲”二字可以認為是來源於人類閱讀、寫文章以及做其他任務時候的一種行為方式，即任務完成之後，並不當即終止，而是會反覆推敲。

微軟亞洲研究院機器學習組將這個過程沿用到了機器學習中。推敲網路具有兩段解碼器，其中第一階段解碼器用於解碼生成原始序列，第二階段解碼器透過推敲的過程打磨和潤色原始陳述句。後者瞭解全域性資訊，在機器翻譯中看，它可以基於第一階段生成的陳述句，產生更好的翻譯結果。

■ 論文 | Deliberation Networks: Sequence Generation Beyond One-Pass Decoding

■ 連結 | https://www.paperweekly.site/papers/1749

■ 作者 | Yingce Xia / Fei Tian / Lijun Wu / Jianxin Lin / Tao Qin / Nenghai Yu / Tie-Yan Liu

△ 推敲網路的解碼過程

聯合訓練（Joint Training）

這個方法可以認為是從源語言到標的語言翻譯（Source to Target）的學習與從標的語言到源語言翻譯（Target to Source）的學習的結合。

中英翻譯和英中翻譯都使用初始並行資料來訓練，在每次訓練的迭代過程中，中英翻譯系統將中文句子翻譯成英文句子，從而獲得新的句對，而該句對又可以反過來補充到英中翻譯系統的資料集中。

同理，這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統的訓練資料集大大增加，而且準確率也大幅提高。

■ 論文 | Joint Training for Neural Machine Translation Models with Monolingual Data

■ 連結 | https://www.paperweekly.site/papers/1750

■ 作者 | Zhirui Zhang / Shujie Liu / Mu Li / Ming Zhou / Enhong Chen

△ 聯合訓練：從源語言到標的語言翻譯（Source to Target）P(y|x) 與從標的語言到源語言翻譯（Target to Source）P(x|y)

一致性規範（Agreement Regularization）

翻譯結果可以從左到右按順序產生，也可以從右到左進行生成。該規範對從左到右和從右到左的翻譯結果進行約束。如果這兩個過程生成的翻譯結果一樣，一般而言比結果不一樣的翻譯更加可信。這個約束，應用於神經機器翻譯訓練過程中，以鼓勵系統基於這兩個相反的過程生成一致的翻譯結果。

■ 論文 | Achieving Human Parity on Automatic Chinese to English News Translation

■ 連結 | https://www.paperweekly.site/papers/1751

■ 作者 | Hany Hassan / Anthony Aue / Chang Chen / Vishal Chowdhary 等

試用系統：

https://translator.microsoft.com/neural/

微軟翻譯工具Microsoft Translator：

https://www.microsoft.com/en-us/translator/default.aspx

點選以下標題檢視相關內容：

#榜單公布 #

2017年度最值得讀的AI論文 | NLP篇 · 評選結果公佈

2017年度最值得讀的AI論文 | CV篇 · 評選結果公佈

我是彩蛋

解鎖新功能：熱門職位推薦！

PaperWeekly小程式升級啦

今日arXiv√猜你喜歡√熱門職位√

找全職找實習都不是問題

解鎖方式

1. 識別下方二維碼開啟小程式

2. 用PaperWeekly社群賬號進行登陸

3. 登陸後即可解鎖所有功能

職位釋出

請新增小助手微信（pwbot01）進行諮詢

長按識別二維碼，使用小程式

*點選閱讀原文即可註冊

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選「交流群」，小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 加入社群一起刷論文

微軟機器翻譯系統：中-英翻譯水平可“與人類媲美”

跨時區跨領域合作，四大技術為創新加持

沒有“正確的”翻譯結果

延伸閱讀

相關推薦

熱門標籤

熱門文章

分享創造快樂