2017 年,這些計算機視覺論文是你心中的最佳麼?
歷時九天,我們收到了近千份有效讀者投票,2017 年度最值得讀的 AI 論文評選也正式結束。
我們根據讀者的投票情況,選出了自然語言處理和計算機視覺領域“2017 年最值得讀的十大論文”。讓我們一起來看看過去一整年,在 PaperWeekly 讀者心中排名前十的計算機視覺論文都有哪些?還有給我們留言的讀者,在表達對這十篇論文的喜愛之情時都說了些什麼?
此外,小編也在所有留言中選出了自己最鐘意的五條,還在所有成功參與投票的讀者中隨機抽取了 13 位,他們都將獲得 PaperWeekly 精心準備的新年禮物。
■ 論文 | Mask R-CNN
■ 連結 | https://www.paperweekly.site/papers/672
■ 原始碼 | https://github.com/CharlesShang/FastMaskRCNN
Mask R-CNN 是 ICCV 2017 的最佳論文。Faster R-CNN 用於標的檢測,FCN 用於物體分割,概念基本深入人心。本文提出一個高效物體分割+標的檢測+關鍵點檢測框架,各任務之間並行實現,速率 5fps(在單 GPU 執行時間是 200ms/幀,使用 8 GPU 卡,在 COCO 資料集訓練只需要 2 天時間),模型簡潔,沒有靠 trick 提升效能,網路框架主體就是 Faster R-CNN+FCN。
物體分割需要正確檢測圖片所有的物體並實現畫素級分割。在論文之前的實現方式是分割之後做分類,而 Mask-RCNN 的檢測和分割是並行出結果。該網路還很容易擴充套件到其他領域,像標的檢測、分割和人物關鍵點檢測等任務。
擴充套件閱讀:
-
Mask R-CNN閱讀筆記
■ 論文 | Image-to-Image Translation with Conditional Adversarial Networks
■ 連結 | https://www.paperweekly.site/papers/1401
■ 原始碼 | https://github.com/phillipi/pix2pix
將 GAN 的對抗 loss 引入有監督影象轉換任務的經典之作。
原有的傳統影象轉換任務中 L1、L2 等人工設計的損失函式並不能產生令人滿意的視覺效果,本文提出的 pix2pix 模型則藉助了條件判別網路來充當一個隱式的損失函式,讓它在與生成網路對抗的過程中超越人工設計的損失函式,取得良好的視覺效果。
本文提出的 PatchGAN 要求判別網路只對影象的一小塊區域進行判別,專註捕捉高頻資訊,這也成為後續很多影象轉換論文的常見做法。
■ 論文 | A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection
■ 連結 | https://www.paperweekly.site/papers/314
■ 原始碼 | https://github.com/xiaolonw/adversarial-frcnn
遮擋和形變在物體檢測中是很難的一類樣本,而它們又具有長尾性,即使收集一個很大的資料集也很難涵蓋不常見的情況。本文提出用 GAN 來生成遮擋和形變的樣本,這是第一篇將 GAN 引入物體檢測的文章。
這兩類樣本的生成都是在特徵層面,而不是在圖片層面。對於遮擋,作者採用一個 ASDN 網路,它的標的是對 ROI-pooling 的特徵生成一個 mask,透過 mask 遮擋掉部分特徵,以騙過分類器。
類似的,對於形變,透過 STN 網路在一定範圍內生成一組旋轉、縮放、平移的引數,再作用到特徵上,使得分類器分錯。而分類器的標的是盡可能地避免被這兩類生成樣本欺騙。
ASDN、ASTN 和 Fast-RCNN 可以聯合訓練,以避免在某些固定的生成樣式下過擬合。實驗表明,A-Fast-RCNN 在 VOC07 和 12 的資料上都有 2% 以上的 mAP 提升。
■ 論文 | Bayesian GAN
■ 連結 | https://www.paperweekly.site/papers/1102
■ 原始碼 | https://github.com/andrewgordonwilson/bayesgan/
本文將貝葉斯公式引入到做無監督和半監督學習的 GAN 模型中,採用哈密頓蒙特卡羅隨機梯度演演算法最佳化生成器和判別器。作者指出,在不需要 feature matching 和 mini-batch discrimination 等 tricks 的情況下,能夠取得不錯的分類效能。
此外,Bayesian GAN 還能避免樣式坍塌(mode collapse)。文章在 SVHN、CelebA 和 CIFAR-10 等資料集上取得了 state-of-the-art 的半監督分類效果。
■ 論文 | Interpretable R-CNN
■ 連結 | https://www.paperweekly.site/papers/1215
■ 原始碼 | 暫無
本文使用 R-CNN 展示了一種學習定性可解釋模型的方法。R-CNN 由一個區域建議網路和一個感興趣區域預測網路(RoI,Region of interest)組成。透過使用可解釋的模型,可在檢測中(對任何部分都不使用監督的情況下)自動地、同步地學習展開標的實體的隱藏部分結構。
本文還提出了一種 AOG 解析運算元來取代 R-CNN 中常用的 RoI 池化運算元,因此該方法可以適用於很多基於摺積神經網路的頂尖標的檢測系統。
在實驗中,作者在 R-FCN 之上建立模型併在 PASCAL VOC 2007、 PASCAL VOC 2012 資料集上進行測試,最終的效能與目前最先進的方法具有可比性。
■ 論文 | Learning Feature Pyramids for Human Pose Estimation
■ 連結 | https://www.paperweekly.site/papers/1325
■ 原始碼 | https://github.com/bearpaw/PyraNet
本文是香港中文科技大學王曉剛教授團隊之作,目前在 MPII 官網 Single Person 領域,PCKh @ 0.5 evaluation measure,取得 state-of-the-art 水平。
論文在 Stacked Hourglass 基礎上,提出 Pyramid Residual Module,金字塔殘差模組,透過學習 DCNNs 中的特徵金字塔來增強深度模型的尺度的不變性,而模型複雜度只有很小的增加。
本文針對具有多個輸入或多個輸出分支圖層的 DCNNs 初始化問題,提出了有效的初始化方案,可用於 inception 和 ResNets 等模型。此外,本文還解決了由 identity mapping 引起的啟用方差積累的問題。
擴充套件閱讀:
-
PyraNet閱讀筆記
■ 論文 | Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
■ 連結 | https://www.paperweekly.site/papers/807
■ 原始碼 | https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
本文可能是 GAN 在 CV 領域最著名的應用案例。透過 Cycle Consistency 的思想,在不需要成對資料的條件下實現了無監督的影象轉換。
如果說 pix2pix 的結果還在“嗯這樣能 work 倒也可以想象”的範疇之內,那麼 CycleGAN 帶來的則是令人驚異的飛躍,因為它僅僅透過“保真”和“可逆”這兩個間接性的要求,就能夠讓模型完成合乎人類預期的風格轉換。
可能是由於 CycleGAN 的實驗效果更為吸睛,其知名度和取用量都遠超同時期的另外兩個兄弟 DualGAN 和 DiscoGAN。
擴充套件閱讀:
-
CycleGan論文筆記
■ 論文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
■ 連結 | https://www.paperweekly.site/papers/1278
■ 原始碼 | https://github.com/NVIDIA/pix2pixHD
自從 LAPGAN 將“由粗到細、分階段生成”的做法引入了 GAN 之後,很多論文都在沿著這個方向做,而英偉達這篇論文提出的 pix2pixHD 模型同樣沿襲了上述思想,在有監督條件下做到了迄今為止最好的高解析度(2048 x 1024)視覺效果。
此外,本文還將他們的方法擴充套件到互動式 semantic manipulation,這對於傳統的 rendering photo-realistic images 是一個顛覆性的工作。
擴充套件閱讀:
■ 論文 | Triple Generative Adversarial Nets
■ 連結 | https://www.paperweekly.site/papers/345
■ 原始碼 | https://github.com/zhenxuan00/triple-gan
從博弈角度來說,TripleGAN 的博弈涉及三方,判別器、生成器和分類器。其中,判別器和生成器有對抗;判別器和分類器(在訓練前期)有對抗;生成器和分類器有協助作用。
可以從鬥地主的角度來看,判別器是地主,生成器和分類器是農民。拆掉分類器,它就是一個 CGAN。拆掉生成器,它就是一個半監督的 GAN。
此外,我們還能從對偶學習的角度進行解讀,生成器對 p(x|y) 進行建模,而分類器則對 p(y|x) 建模。兩者在判別器的統籌下達成 p(x,y) 的一致性,這是很漂亮的對偶思想。可以說這篇文章對三方博弈的設計非常巧妙。
■ 論文 | Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
■ 連結 | https://www.paperweekly.site/papers/784
■ 原始碼 | https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation
本文發表於 CVPR 2017,首次提出了基於深度學習的實時多人二維姿態估計。本文最大的亮點在於其融合了 PCM 和 PAF 的級聯 cascade 形網路結構。
本文演演算法主要流程如下:輸入一幅影象,經過摺積網路提取特徵,得到一組特徵圖,然後分成兩個岔路,分別使用 CNN 網路提取 Part Confidence Maps 和 Part Affinity Fields ,得到這兩個資訊後,再使用圖論中的 Bipartite Matching 將同一個人的關節點連線起來得到最終的結果。
點選檢視自然語言處理榜單:
2017年度最值得讀的AI論文 | NLP篇 · 評選結果公佈
讀者留言精選
@silver:投了三篇 paper,但是看見要求說最喜歡的論文的原因,最喜歡的是 IRGAN,上交和倫敦大學的那篇,對於 GAN 的應用讓我耳目一新,尤其是在推薦系統上的應用,是我以前從未想過的,為了深入理解這篇 paper,還讀了他們之前的工作,在 AAAI2017 上的 SeqGAN,一個完整連貫的工作體系,對於離散型資料在 GAN 的應用,以及最佳化設計上提供了思路,對於強化學習的應用也是讓我獲益匪淺,也在這個工作領域給我帶來了很多新思路,非常感謝,也非常喜歡。
@朱昊:Selective Attention 那篇現在已經成為了做 Distant Supervision 的 Relation Extraction 必須比較的 baseline。把 attention 的方法用在 bag level 上對標註打分是一種非常有意思的思想。
@Bruce Pan:Convolutional Sequence to Sequence Learning 把 CNN 運用到 seq2seq 任務中,利用了 CNN 平行計算的優勢,還有詳細介紹了各種 Trick。 順便也為 Attention Is All You Need 打 call,兩篇我都很喜歡。
@empty:在噪聲資料上利用強化學習進行關係分類,對這篇印象深刻,當時聽了這個 talk 受益匪淺,作者把強化學習用到關係抽取上。還有 KBQA 那篇,對這個領域進行了一些介紹。在這裡立個 flag,2018 年要把候選 paper 都看一遍
@Shunzhou Wang:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 效果很贊,估姿態很準,從 CPM 到 Real time 2D 再到 openpose,一系列的工作都喜歡,喜歡筆記本和行李牌,求抽中
13位幸運讀者
楊海宏
JunLee
蔣銳瀅
豬寶
Liam
徐大帥
阿敏
XuanH
匿名使用者
武永亮
lhf
dreamlike
robert
* 請以上 18 位讀者
在以下福利清單中任選一種
併在本條微信留言回覆
“ 姓名 + 手機 + 地址 + A / B / C”
(如選擇手機殼,請註明手機型號)
福利清單
A:PaperWeekly定製手機殼 x 3份
B:PaperWeekly定製筆記本 x 5份
C:PaperWeekly定製行李牌 x 10份
△ 我們長這樣哦~
領獎方式
請所有中獎者在本文底部留言
禮物數量有限,先到先選
回覆截止時間
? 2018年2月3日10:00
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。
▽ 點選 | 閱讀原文 | 加入社群