歷時九天,我們收到了近千份有效讀者投票,2017 年度最值得讀的 AI 論文評選也正式結束。
我們根據讀者的投票情況,選出了自然語言處理和計算機視覺領域“2017 年最值得讀的十大論文”。讓我們一起來看看過去一整年,在 PaperWeekly 讀者心中排名前十的 NLP 論文都有哪些?還有給我們留言的讀者,在表達對這十篇論文的喜愛之情時都說了些什麼?
此外,小編也在所有留言中選出了自己最鐘意的五條,還在所有成功參與投票的讀者中隨機抽取了 13 位,他們都將獲得 PaperWeekly 精心準備的新年禮物。
■ 論文 | Attention Is All You Need
■ 連結 | https://www.paperweekly.site/papers/224
■ 原始碼 | https://github.com/Kyubyong/transformer
大道至簡,Google Brain 在本文中提出了一個新型的簡化網路架構—Transformer,完全基於註意力機制,完全避免了迴圈和摺積,完全可並行。
本文可以說是 Google 繼 Highway Network 等新型神經網路之後,在神經網路模組化的又一嘗試。
擴充套件閱讀:
■ 論文 | Reinforcement Learning for Relation Classification from Noisy Data
■ 連結 | https://www.paperweekly.site/papers/1260
■ 原始碼 | 暫無
清華大學發表在 AAAI 2018 上的工作,本文將強化學習應用於關係抽取任務中,取得了不錯的效果。其主要貢獻是將遠端監督的訊號轉化為強化學習中的延遲獎勵,從強化學習的視角提出解決問題的思路,並剋服了聯合訓練 instance selector 和 relation classifier 兩個模組的問題。
擴充套件閱讀:
■ 論文 | Convolutional Sequence to Sequence Learning
■ 連結 | https://www.paperweekly.site/papers/844
■ 原始碼 | https://github.com/facebookresearch/fairseq-py
本文提出了基於摺積神經網路(CNN)的 seq2seq 架構,和基於迴圈神經網路(RNN)的 seq2seq 相比,其更易於加速訓練,在 GPU 上達到 9.8 倍加速,平均每個 CPU 核上也達到 17 倍加速。此外,本文工作在 WMT’14 English-German 和 WMT’14 English-French 兩個資料集上,也取得相對更好的 BLUE Score。
ConvS2S 主要結構有:Position Embeddings(使編碼器或解碼器感知到位置變化)、Convolutional Block Structure(編碼和解碼背景關係中的資訊)、Multi-step Attention(每層解碼器使用各自的註意力機制)和 Residual connections(使架構適應深度網路)。
擴充套件閱讀:
■ 論文 | Zero-Shot Relation Extraction via Reading Comprehension
■ 連結 | https://www.paperweekly.site/papers/289
■ 原始碼 | https://bitbucket.org/omerlevy/bidaf_no_answer
本文提出了基於閱讀理解的關係抽取方法,並且成功抽取未標註的新關係。本文的精華之處在於對閱讀理解問題的轉化和資料集的生成。
填空式(slot-filling)關係抽取是在給定的關係 R、物體 e 和句子 s,在 s 中找到集合 A,使得其中的元素 a 滿足 R(e, a)。在閱讀理解中,問題 q 可表示為 R(e, ?),回答問題等同於填空式關係抽取在 s 中找到答案,問題轉化成:把 R(e,?) 翻譯成問題 q,藉助閱讀理解抽取物體關係。
本文提出基於關係而非物體遠端監督關係的眾包標註方法,在可控的開銷內,為此類問題構建一個非常大的資料集。
■ 論文 | IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
■ 連結 | https://www.paperweekly.site/papers/200
■ 原始碼 | https://github.com/geek-ai/irgan
本文是生成對抗網路(GAN)在資訊檢索(IR)中的應用。資訊檢索中的兩種常見樣式:預測給出的檔案相關性;給出文件對,判別他們之間的相關性。
本文轉換問題角度,得到基於對抗網路的資訊檢索模型(IRGAN),主要由判別模型(挖掘標註與非標註的資料中的資訊,用於引導生成模型擬合給定查詢的結果在檔案中的分佈情況)和生成模型(根據查詢生成高相關性的結果)組成。
本文從三個角度使用 GAN 對資訊檢索建模,即:pointwise(學習人類對檔案的相關性判斷),pairwise(找出最具有相關性的檔案對),listwise(相關性排序)。
本文的模型架構可以應用於:網頁搜尋線上排序(sf: LambdaRank, LambdaMART, RankNet)、item 推薦系統(cf matrix factorisation)、問答系統(退化成 IR 的評估)。
擴充套件閱讀:
■ 論文 | Neural Relation Extraction with Selective Attention over Instances
■ 連結 | https://www.paperweekly.site/papers/175
■ 原始碼 | https://github.com/thunlp/TensorFlow-NRE
本文提出使用摺積神經網路得到句子分散式表示,並結合句子級註意力機制動態減弱噪聲幹擾的遠端監督關係抽取模型。
本文在得到句子分散式表示 x,巧妙地引入關係的向量表示 r,並使用 r 與 x 結合得到關係在每個句子上的註意力表示,最後經過 softmax 網路得到每種關係在句子集預測值,從而動態的去除了噪聲對遠端監督關係抽取的影響。
與現有神經網路模型相比,本文模型不僅可以綜合利用所有文字資料,而且可以降低錯誤標註資料的影響,抽取準確率取得顯著提高。
擴充套件閱讀:
■ 論文 | Unsupervised Neural Machine Translation
■ 連結 | https://www.paperweekly.site/papers/1036
■ 原始碼 | 暫無
神經機器翻譯在近幾年取得了巨大進步,日漸趨於成熟,但其仍然嚴重依賴於稀缺的平行標註語料。當源語言或標的語言是小眾語種時,此問題更加突出。
本文作者認為無監督神經機器翻譯是大勢所趨,完全捨棄了平行資料,提出了用完全無監督的方式訓練神經機器翻譯系統的新方法,該方法只需使用單語語料庫。在統一的向量空間上進行“意譯”,使用 denosing 和 backtranslation 來強化這一標的。
該系統在 WMT 2014 法語 – 英語和德語 – 英語翻譯中分別取得了 15.56 和 10.21 的 BLEU 得分。
■ 論文 | Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
■ 連結 | https://www.paperweekly.site/papers/477
■ 原始碼 | https://github.com/zsctju/triplets-extraction
物體和關係的聯合抽取問題作為資訊抽取的關鍵任務,其實現方法可以簡單分為兩類:一類是串聯抽取方法,另一類是聯合抽取方法。
串聯抽取方法將該問題分解為兩個串聯的子任務,即先採用物體識別模型抽取物體,再採用關係抽取模型得到物體對之間的關係,其優勢是便於單獨最佳化物體識別任務和關係抽取任務,但缺點是它們以獲取三元組的中間產物(物體或者關係型別)為標的,而物體識別的結果會進一步影響關係抽取的結果,導致誤差累積。
不同於串聯抽取方法,聯合抽取方法使用一個模型同時抽取物體及其關係,能夠更好的整合物體及其關係之間的資訊。但現有的聯合抽取方法也存在諸多問題。
本文提出了一個新的聯合抽取的模型框架來解決此類問題,併在公開資料集 NYT 上取得了很好的效果。
擴充套件閱讀:
■ 論文 | A Structured Self-attentive Sentence Embedding
■ 連結 | https://www.paperweekly.site/papers/1081
■ 原始碼 | https://github.com/ExplorerFreda/Structured-Self-Attentive-Sentence-Embedding
本文發表於 ICLR 2017,作者提出一個新的自註意力模型,能提取句子中的重要部分進行 embedding,是一篇可以直接看公式理解作者思路的論文。
本文最大的亮點在於提出了自註意力機制,無需外部資訊即可對自身進行 attention。此外,本文還提出用二維矩陣表示句子,矩陣的不同行表示句子不同層面的資訊,使句子表達資訊更豐富,解決了句子被壓縮成一維向量時的資訊損失問題。
■ 論文 | Dialogue Learning With Human-In-The-Loop
■ 連結 | https://www.paperweekly.site/papers/1436
■ 原始碼 | https://github.com/facebook/MemNN/tree/master/HITL
一般的對話機器人訓練著重於在固定資料集上訓練,本文使用強化學習基於線上反饋訓練對話模型,在合成語境中對模型各方面效能進行測試,使用 Mechanical Turk 驗證模型在真實環境中的表現,成功證明瞭使用固定資料集初始化模型後通線上學習改進模型的可行性。
在模型中,策略(Policy)使用 MemN2N(End-to-End Memory Network)實現,對話歷史對應模型狀態(State),問題的答案對應模型的動作空間(Action),回答的正誤對應反饋(Reward),模型使用 batch size 控制模型引數更新頻率以適用不同的學習樣式。試驗了 RBI (Reward-based Imitation),Reinforce,FP (Forward Prediction) 等學習方法在模型中的表現。
讀者留言精選
@silver:投了三篇 paper,但是看見要求說最喜歡的論文的原因,最喜歡的是 IRGAN,上交和倫敦大學的那篇,對於 GAN 的應用讓我耳目一新,尤其是在推薦系統上的應用,是我以前從未想過的,為了深入理解這篇 paper,還讀了他們之前的工作,在 AAAI2017 上的 SeqGAN,一個完整連貫的工作體系,對於離散型資料在 GAN 的應用,以及最佳化設計上提供了思路,對於強化學習的應用也是讓我獲益匪淺,也在這個工作領域給我帶來了很多新思路,非常感謝,也非常喜歡。
@朱昊:Selective Attention 那篇現在已經成為了做 Distant Supervision 的 Relation Extraction 必須比較的 baseline。把 attention 的方法用在 bag level 上對標註打分是一種非常有意思的思想。
@Bruce Pan:Convolutional Sequence to Sequence Learning 把 CNN 運用到 seq2seq 任務中,利用了 CNN 平行計算的優勢,還有詳細介紹了各種 Trick。 順便也為 Attention Is All You Need 打 call,兩篇我都很喜歡。
@empty:在噪聲資料上利用強化學習進行關係分類,對這篇印象深刻,當時聽了這個 talk 受益匪淺,作者把強化學習用到關係抽取上。還有 KBQA 那篇,對這個領域進行了一些介紹。在這裡立個 flag,2018 年要把候選 paper 都看一遍
@Shunzhou Wang:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 效果很贊,估姿態很準,從 CPM 到 Real time 2D 再到 openpose,一系列的工作都喜歡,喜歡筆記本和行李牌,求抽中
13位幸運讀者
楊海宏
JunLee
蔣銳瀅
豬寶
Liam
徐大帥
阿敏
XuanH
匿名使用者
武永亮
lhf
dreamlike
robert
* 請以上 18 位讀者
在以下福利清單中任選一種
併在本條微信留言回覆
“ 姓名 + 手機 + 地址 + A / B / C”
(如選擇手機殼,請註明手機型號)
福利清單
A:PaperWeekly定製手機殼 x 3份
B:PaperWeekly定製筆記本 x 5份
C:PaperWeekly定製行李牌 x 10份
△ 我們長這樣哦~
領獎方式
請所有中獎者在本文底部留言
禮物數量有限,先到先選
回覆截止時間
? 2018年2月3日10:00
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。
▽ 點選 | 閱讀原文 | 加入社群