2017年即將擦肩而過,Kloud Strife在其部落格上盤點了今年最值得關註的有關深度學習的論文,包括架構/模型、生成模型、強化學習、SGD & 最佳化及理論等各個方面,有些論文名揚四海,有些論文則非常低調。
一如既往,首先,標準免責宣告適用,因為今年僅與GAN有關的論文就超過1660篇。我肯定會有疏漏,試圖縮減到每兩週一篇論文,包含了Imperial Deep Learning Reading Group上的大量素材。無論如何,我們開始吧。
01 架構/模型
今年的Convnet網路架構已經少得多,一切都穩定了。 有些論文肯定是在推動這項研究。 其中首先是安德魯·布魯克(Andrew Brock)的破解SMASH,儘管有ICLR的評論,但它已經在1000個GPU上進行了神經架構搜尋。
SMASH:基於超網路的模型結構搜尋
SMASH : one shot model architecture search through Hypernetworks
論文下載地址:
https://arxiv.org/pdf/1708.05344.pdf
DenseNets(2017更新版)是一個印象深刻又非常單純的想法。TLDR是“計算機視覺,眼+皮毛=貓,所以萬物互聯(包括層)”
密集的連線摺積神經
Densely connected convolutional networks
論文下載地址:
https://arxiv.org/pdf/1608.06993.pdf
在CNNs,一個非常被低估的理念是小波濾波器組繫數散射變換(conv+maxpool和ReLUctant組建小波理論)。不知何故,令人驚訝的是,這揭示了為什麼一個ConvNet前幾層像Gabor濾波器,以及你可能不需要培訓他們。用Stephane Mallat的話,“我對它的工作原理非常吃驚!”見下文。
縮放散射變換
Scaling the Scattering Transform
論文下載地址:
https://arxiv.org/pdf/1703.08961.pdf
在維基百科上,Tensorized LSTM是新的SOTA,有人英語的編碼限制是1.0,1.1 BPC(作為參考,LayerNorm LSTMs大約是1.3 bpc)因為新穎,我更願意把這篇論文定為“超級網路的復興之路”。
序列學習Tensorized LSTMs
Tensorized LSTMs for sequence learning
論文下載地址:
https://arxiv.org/pdf/1711.01577.pdf
最後,無需多言。
膠囊間動態路由
Dynamic Routing Between Capsules
論文下載地址:
https://arxiv.org/pdf/1710.09829.pdf
EM路由矩陣膠囊
Matrix capsules with EM routing
論文下載地址:
https://openreview.net/pdf?id=HJWLfGWRb
02 生成模型
我故意遺漏了英偉達關於GAN網路逐漸增大的令人頗為震驚的論文。
先用自回歸家庭–Aaron van den Oord的最新力作,vq-vae,是其中的一個檔案,看起來明顯的滯後,但想出背景漸變止損功能也是不小的壯舉。我敢肯定,一堆的迭代,包括包在ELBO’ed Bayesian層中的ala PixelVAE將會發揮作用。
神經離散表示學習
Neural Discrete Representation Learning
論文下載地址:
https://arxiv.org/pdf/1711.00937.pdf
另一個驚喜來自並行WaveNetwavenet。當每個人都在期待著與Tom LePaine的工作成果保持一致,DeepMind給我們師生分離,並透過解釋高維各向同性高斯/物流潛在空間,作為一個可以透過逆回歸流自噪聲整形的過程,。非常非常整潔。
並行Wavenet
Parallel Wavenet
論文下載地址:
https://arxiv.org/pdf/1711.10433.pdf
頭號檔案,沒有人預料到- Nvidia公司制定了標準。GAN理論完全代替了Wassersteinizing (Justin Solomon的力作),僅保持KL損失。用資料分佈的多解析度近似摒棄了不相交的支援問題。這仍然需要一些技巧來穩定梯度,但經驗結果不言自明。
GAN逐漸增長
Progressive growing of GANs
論文下載地址:
https://arxiv.org/pdf/1710.10196.pdf
而今年早些時候Peyre和genevay負責的法國學校定義了最小Kantorovich Estimators。這是Bousquet主導的谷歌團隊,該團隊曾寫下了 VAE-GAN的最終框架。這篇WAAE論文可能是ICLR2018最頂級的論文之一。
VeGAN手冊
The VeGAN cookbook
論文下載地址:
https://arxiv.org/pdf/1705.07642.pdf
Wasserstein自動編碼器
Wasserstein Autoencoders
論文下載地址:
https://arxiv.org/pdf/1711.01558.pdf
在變分推理面前,沒誰比Dustin Tran從強化學習策略和GAN中借鑒到的思路更好,再次推動了先進的VI。
層次式模型
Hierarchical Implicit Models
論文下載地址:
https://arxiv.org/pdf/1702.08896.pdf
03 強化學習
“被軟體/ max-entropy Q-learning主導了一年,我們錯了,這些年!
Schulman證實了RL演演算法的主要的兩個成員之間的的等價性。里程碑式的論文,”Nuff 稱。
策略梯度與Soft Q-learning的等價性
Equivalence between Policy Gradients and Soft Q-learning
論文下載地址:
https://arxiv.org/pdf/1704.06440.pdf
他有沒有在非常仔細的用數學和重新做分割槽函式計算來證實路徑的等價性?沒有人知道,除了Ofir:
縮小RL策略和價值之間的差距
Bridging the gap between value and policy RL
論文下載地址:
https://arxiv.org/pdf/1702.08892.pdf
另一篇被低估的論文,Gergely透過找出RL程式和convex 最佳化理論的相似點,默默的超越了所有人。今年IMHO有關RL論文的佳作,不過知名度不高。
統一的熵規則MDP的觀點
A unified view of entropy-regularized MDPs
論文下載地址:
https://arxiv.org/pdf/1705.07798.pdf
如果David Silver的Predictron因某種方式丟掉雷達在ICLR 2017被拒絕,那麼Theo的論文就像是一個雙重的觀點,它以優美而直觀的Sokoban實驗結果來啟動:
想象力增強劑
Imagination-Augmented Agents
論文下載地址:
https://arxiv.org/pdf/1707.06203.pdf
馬克·貝萊馬爾(Marc Bellemare)釋出了另外一個轉型的論文 – 廢除了所有的DQN穩定外掛,並簡單地學習了分發(並且在這個過程中擊敗了SotA)。 漂亮。 許多可能的擴充套件,包括與Wasserstein距離的連結。
有分位數回歸的RL
A distributional perspective on RL
論文下載地址:
https://arxiv.org/pdf/1707.06887.pdf
分佈RL的分佈視角
Distributional RL with Quantile Regression
論文下載地址:
https://arxiv.org/pdf/1710.10044.pdf
一個簡單,但非常有效,雙重whammy的想法。
勘探用噪聲網路
Noisy Networks for Exploration
論文下載地址:
https://arxiv.org/pdf/1706.10295.pdf
當然,如果沒有AlphaGo Zero的話,這個串列還是不完整的。 將策略網路MCTS前後對齊的思想,即MCTS作為策略改進演演算法(以及使NN近似誤差平滑而不是傳播的手段)是傳說的東西。
在沒有人類知識的情況下掌控Go遊戲
Mastering the game of Go without human knowledge
論文下載地址:
https://deepmind.com/documents/119/agz_unformatted_nature.pdf
04 SGD & 最佳化
對於為什麼SGD在非凸面情況下的工作方式(從廣義誤差角度來看如此難以打敗),2017年已經是一年一度的成熟了。
今年的“最技術”論文獲得者是Chaudhari。 從SGD和梯度流向PDE幾乎連線了一切。 堪稱遵循並完成“Entropy-SGD”的傑作:
深度放鬆:用於最佳化深度網路的偏微分方程
Deep Relaxation : PDEs for optimizing deep networks
論文下載地址:
https://arxiv.org/pdf/1704.04932.pdf
貝葉斯認為這是Mandt&Hoffman的SGD-VI連線。 如你所知,我多年來一直是一個繁忙的人,原文如此。
SGD作為近似貝葉斯推斷
SGD as approximate Bayesian inference
論文下載連結:
https://arxiv.org/pdf/1704.04289.pdf
前面的文章取決於SGD作為隨機微分方程的連續鬆弛(由於CLT,梯度噪聲被視為高斯)。 這解釋了批次大小的影響,並給出了一個非常好的chi-square公式。
批次大小,diffusion近似框架
Batch size matters, a diffusion approximation framework
論文下載地址:
https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/
又一篇受Ornstein-Uhlenbeck啟發的論文,得到了類似的結果,出自Yoshua Bengio實驗室:
影響SGD最小值的三個因素
Three factors influencing minima in SGD
論文下載地址:
https://arxiv.org/pdf/1711.04623.pdf
最後,又一篇Chandhari的論文,講述SGD-SDE-VI三位一體:
SGD執行VI,收斂到限制週期
SGD performs VI, converges to limit cycles
論文下載地址:
https://arxiv.org/pdf/1710.11029.pdf
05 理論
我堅信在解釋深度學習為什麼有用方面,答案將來自諧波/二階分析和資訊理論與基於熵的測量之間的交集。 Naftali Tishby的想法雖然因為最近ICLR 2018提交的內容引發了爭議,但這仍然使我們更加接近理解深度學習。
論透過資訊理論揭開深度網路黑箱
Opening the black box of deep networks via information
論文下載地址:
https://openreview.net/pdf?id=ry_WPG-A-
論深度學習的資訊瓶頸理論
On the information bottleneck theory of deep learning
論文下載地址:
https://arxiv.org/pdf/1703.00810.pdf
同樣,來自ICLR2017的一篇漂亮的論文對資訊瓶頸理論採取了一種變化的方法。
深度變分的資訊瓶頸
Deep variational information bottleneck
論文下載地址:
https://arxiv.org/pdf/1612.00410.pdf
今年已經有幾十億個生成模型,12億個因子分解對數似然的方法,大都可以歸在凸二元的下麵。
A Lagrangian perspective on latent variable modelling
對潛變數建模的拉格朗日觀點
論文下載地址:
https://openreview.net/pdf?id=ryZERzWCZ
最後這篇論文展示了驚人的技術實力,並且告訴我們,數學深度學習的軍備競賽仍然十分活躍!這篇論文結合了複雜的分析,隨機矩陣理論,自由機率和graph morphisms,得出了對於神經網路損失函式的Hessian特徵值的一個精確的定律,而圖(graph)的形狀只在經驗上是已知的,這一點在Sagun等人的論文中有論述。必讀。
透過RMT看神經網路損失曲面幾何
Geometry of NN loss surfaces via RMT
論文下載地址:
http://proceedings.mlr.press/v70/pennington17a/pennington17a.pdf
深度學習非線性RMT
Nonlinear RMT for deep learning
論文下載地址:
http://papers.nips.cc/paper/6857-nonlinear-random-matrix-theory-for-deep-learning.pdf
原文地址:
https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/
來源:新智源
精彩活動
推薦閱讀
2017年資料視覺化的七大趨勢!
全球100款大資料工具彙總(前50款)
Q: 過去一年,你還讀過哪些對你影響深遠的技術論文?
歡迎留言與大家分享
請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:hzzy@hzbook.com
更多精彩文章,請在公眾號後臺點選“歷史文章”檢視