在碎片化閱讀充斥眼球的時代,越來越少的人會去關註每篇論文背後的探索和思考。
在這個欄目裡,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點選本文底部的「閱讀原文」即刻加入社群,檢視更多最新論文推薦。
@FrederickLI 推薦
#Object Detection
本文來自微軟亞洲研究院。對於尺度變化比較大的資料集來說,Faster RCNN 的 RPN 階段 anchor 的設計就會比較複雜,同時 anchor 只能預測水平的檢測框,而不能預測帶旋轉角度的檢測框。
因此本文作者放棄了在 RPN 階段使用 anchor,在 RPN 階段直接使用一個點(同樣也是用 3 x 3 的滑動窗在 conv4 特徵圖上滑動得到)回歸出 bounding box 的四個角點坐標,backbone 是 FPN 版本的 RPN 網路,在 coco 和 icdar 上都取得了比 FPN 版 Faster RCNN 更好的效果。
@Ttssxuan 推薦
#Neural Machine Translation
本文來自 Facebook AI Research,論文提出了 Phrase-based 和 Neural 兩種方法。Phrase-based 處理兩種語料關聯少(如字母表不同),以及資料量少的情況;Neural 處理正常的情況。文章從三個角度分析設計模型:Initialization、Language Modeling、Iterative Back-Translation。
本文模型在 WMT14 English-French 和 WMT16 German-English 分別取得 27.1 和 23.6 (BLEU score),相對以前的結果 (Unsupervised Neural Machine Translation, Unsupervised Machine Translation Using Monolingual Corpora Only) 提升了 11 分 (BLUE score)。
QANet – Combining Local Convolution with Global Self-Attention for Reading Comprehension
@IndexFziQ 推薦
#Machine Reading Comprehension
本文是 CMU 和 Google Brain 發表於 ICLR 2018 的工作,SQuAD 目前併列第一,本文貢獻如下:
1. 借鑒了 Attention is All You Need 裡的想法,完全用 attention 加前饋來代替原先的結構,減少了計算量,加快了運算速度;
2. 用了機器翻譯預處理閱讀理解的語料,增加了文字多樣性,提高了實驗效果。
@paperweekly 推薦
#Object Detection
本文將作者自身提出的結構 PeleeNet 與 Single Shot MultiBox Detector(SSD)相結合提出了一個實時標的檢測系統,並對其進行了速度最佳化。
這個名為 Pelee 的檢測系統在 PASCAL VOC2007 和 MS COCO 資料集上分別達到了 76.4% mAP 和 22.4 mAP,速度分別為 17.1 FPS(iPhone 6s)和 23.6 FPS(iPhone 8)。
@paperweekly 推薦
#3D Reconstruction
本文是 MIT CSAIL 實驗室發表於 CVPR 2018 的工作,論文研究的問題是單影象三維重建。作者構建了一個名為 Pix3D 的大規模影象資料集,並且透過行為研究來校準三維重建的評估標準,使用它們客觀系統地對 Pix3D 上的各種重建演演算法進行基準測試。此外,本文還設計了一個能同時進行三維重建和姿態估計的新模型。
@chlr1995 推薦
#Convolutional Neural Network
傳統觀點認為,CNN 中的池化層導致了對微小平移和變形的穩定性。DeepMind 的研究者提出了一個反直覺的結果:CNN 的變形穩定性僅在初始化時和池化相關,在訓練完成後則無關;並指出,濾波器的平滑度才是決定變形穩定性的關鍵因素。
-
本文展示了沒有池化的網路在初始化時對變形敏感,但經過訓練學習表徵的過程之後對變形是穩定的;
-
池化和非池化訓練網路的層間變形穩定性樣式最終會收斂到相似的結構;
-
無論池化還是非池化網路,都可透過濾波器的平滑性實現和調節變形穩定性。
@IndexFziQ 推薦
#Chinese Word Segmentation
本文提出了一種簡潔優雅的多標準中文分詞方案,可聯合多個不同標準的語料庫訓練單個模型,同時輸出多標準的分詞結果。論文加了工程思想,用標簽標識不同標準的資料集,這樣就可以識別出自哪個標準的資料集。
透過不同語料庫之間的遷移學習提升模型的效能,在 10 個語料庫上的聯合試驗結果優於絕大部分單獨訓練的模型。模型引數和超引數全部共享,複雜度不隨語料庫種類增長。
@Aidon 推薦
#Video Captioning
之前針對 dense video captioning 的文章都是構建兩個模型:event proposal + captioning model,分別訓練或者交替訓練。本文提出一個 end-to-end 的模型,在 encoder 部分利用 self-attention,decoder 部分包括基於 ProcNets 進行改進的 Proposal Decoder 和 Captioning Decoder。
文章的亮點在於將 Attention is all you need 中的 self-attention 和 multi-head attention 用到 captioning 任務中,並且採用相似的策略設計了 differential proposal mask 模組,使得 captioning decoder 可以只註意到當前要描述的 event,以及模型可以做 end-to-end 訓練。
@mev 推薦
#Sentence Embedding
本文來自 Google,論文將之前的”Attention Is All You Need”的 transformer 應用到 sentence embedding 上,和 DAN (Deep Averaging Network) 在計算複雜度和功耗上做了比較。
並且在此基礎上研究了兩種方式在不同資料量的 transfer learning 上的表現,試驗結果表明 transformer 在資料量較少的遷移學習上表現的比較好。文章還對比了不同的 transfer 的方式(sentence embedding 和 word embedding 的遷移)。
@trainsporting 推薦
#Transfer Learning
本文是北京大學發表於 CVPR 2018 的工作,論文提出了一個新的 baseline:跨媒體資料集的知識遷移, progressive learning 機制(有點類似 distant transfer learning 中的 side information)也值得借鑒, 整個結構複雜牽扯多方面知識,具有很多改進空間。
@shanone 推薦
#Visual Question Answering
本文來自斯坦福大學。深度學習自從大火之後,整個領域一片繁華盛景,卻唯獨自然語言處理依舊暗淡無光。所謂的連線式自主調參基礎上的深度學習,面對人類智慧結晶——語言,顯得蒼白無力。
不管是 CNN 還是 RNN,都只能在語意語境面前折腰。我們還需要不斷嘗試不斷思考,才有可能有一絲突破,作者也算是積極的提出了自己的想法,供大家借鑒思考。
@paperweekly 推薦
#Text-Image Embedding Network
本文入選 CVPR 2018 Spotlight 論文。目前已知的一個大問題是如何獲取影象標註,尤其大規模醫學影象的標註是個公認難題,作者團隊在 CVPR 2017 上提出用 NLP 技術根據醫生的文字診斷報告來獲取 labels,但這樣做的問題在於獲取 label 並沒有結合影象來驗證。
本文是對上述工作的延續,文章提出了一個新的網路結構:
1. 能夠在同時輸入 chest x-ray 影象 + 文字 report 時,產生更準確疾病 labels;跟 CVPR 2017 文章比,取得了顯著的定量效果提升。這意味著可以把醫院裡的 unstructured information 轉化成可以用來訓練機器的 structured labels;
2. 網路結構在只有影象輸入的時候 也可以產生疾病診斷文字報告。
@ladadidadi 推薦
#GAN
本文是中佛羅裡達大學和騰訊 AI Lab 發表於 ICLR 2018 的工作,論文將 WGAN 的 weight clipping 修改為 gradient penalty。
@qingfengcai 推薦
#Semantic Segmentation
本文是開羅大學和阿爾伯塔大學發表於 CVPR 2018 的工作,當前影象語意分割效能最好的模型,精度同 ENet 相當,flops 只有其一半左右。
@velconia 推薦
#Neural Network Architecture
本文來自 MIT 和哈佛,論文針對 NN 的 AutoML 中遇到的 Early Stopping 問題,提出了一種新方法:用線性模型預測模型的最終訓練結果。AutoML中,Hyperparameters 的搜尋過程是一個 CPU Super Expensive 的過程,這個方法能夠降低大約 50% 的搜尋時間。
這是一個新思路,並且我對這個方法做了一些實驗(主要在 CNN 上),效果確實還不錯,說明這是可行的,我認為在不論是手工調優還是自動調優,這個方法都是以後的訓練框架可以借鑒的。
本文由 AI 學術社群 PaperWeekly 精選推薦,社群目前已改寫自然語言處理、計算機視覺、人工智慧、機器學習、資料挖掘和資訊檢索等研究方向,點選「閱讀原文」即刻加入社群!
點選以下標題檢視往期推薦:
▲ 戳我檢視招聘詳情
#崗 位 推 薦#
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。
▽ 點選 | 閱讀原文 | 加入社群刷論文