一週精品論文分享-0325-知識星球

分享幾篇最近閱讀的論文。經常會有人問我，為什麼簡單粗暴的模型平均（Model Average）方法會比單機或單卡的方法取得更好的泛化效果呢？下麵這篇文章很好的解釋了這個問題。

Averaging Weights Leads to Wider Optima and Better Generalization

摘要：深度神經網路通常透過採用帶衰減學習率的隨機梯度下降法（SGD）來最大或最小化模型的損失函式，以此來最佳化模型引數。結果表明，當學習率為常值或迴圈變化時，簡單平均SGD尋優軌跡上的多個點，比常規訓練取得更好的泛化能力。我們還表明，這種隨機加權平均(Stochastic Weight Averaging， SWA )方法比SGD方法具有更寬的最佳化範圍（broader optima），並且與最近提出的單模型Fast Geometric Ensembling( FGE )方法近似。使用SWA，我們在CIFAR – 10、CIFAR – 100和ImageNet上的一系列最優的Residual Network、PyramidNets、DenseNets和Shake-Shake network上的測試精度比常規SGD訓練有顯著提高。總之，SWA非常容易實現，明顯提高了泛化能力，並且幾乎沒有計算開銷。

A Survey of Deep Learning Techniques for Mobile Robot Applications

摘要：近年來，深度學習的發展吸引了人們對深度人工神經網路如何應用於機器人系統的研究。本綜述將對當前的研究成果進行總結，重點介紹移動機器人在深度學習方面取得的成果和存在的問題。

Attention on Attention: Architectures for Visual Question Answering (VQA)

摘要：視覺問答(Visual Question Answering， VQA )是深度學習研究領域中一個越來越熱門的話題，需要將自然語言處理和計算機視覺技術協調成一個統一的體系結構。透過開發13種新的註意機制並引入一個簡化的分類器，我們構建了一個用於解決VQA問題的第一個深度學習模型。我們進行了300個GPU小時的大規模超引數和體系結構搜尋，取得了64.78 %的評估分數，優於現有最先進的單模型63.15 %的驗證分數。

Gradient Descent Quantizes ReLU Network Features

摘要：深度神經網路通常在過引數化（Over-parametrized）的狀態下訓練時(即，訓練樣本個數少於引數個數)，為什麼訓練收斂於一個泛化的解仍然是一個亟待解決的問題。一些研究結果指出，在訓練過程，小批次隨機梯度下降( SGD )容易導致引數尋優收斂於具有特定性質的區域性最優值。然而，即使在採用二維的平面梯度下降( GD )的情況下，在過引數化區域（over-parametrized regime）中尋優得到解也相當好，並且這種現象很難理解。
本文假設採用很小初始值和學習率，分析具有ReLU啟用函式的前饋網路的這種行為，揭示了一種量化效應:權值向量趨於收斂於由輸入資料確定的少量方向上。結果表明，對於給定的輸入資料，可以獲得的“簡單”函式數量很有限，與網路規模無關。這使得這些函式類似於線性插值(對於給定的輸入資料，存在有限數量的triangulation，每個triangulation透過線性插值來確定函式)。我們也在思考是否這種類比可以擴充套件到一般性質，雖然通常與分佈無關的泛化性質不成立，但是對於例如具有有界二階導數的平滑函式，近似性質（Approximation property）成立，其可以“解釋”網路(無界大小)到不可見輸入的泛化。

Group Normalization

摘要：Batch Normalization( BN )是深度學習發展中的一項里程碑似的技術，使各種網路能夠快速進行訓練。然而，根據Batch的大小進行歸一化也引入了一些問題，即當Batch Size變小時，由於不準確的batch sampling導致BN的估計誤差迅速增大。這限制了BN用於訓練較大模型和將特徵轉移到計算機視覺任務(包括檢測、分割和影片)的使用，這些任務由於受記憶體大小的限制，智慧使用較小的batch size。本文提出了一種簡單的Group Normalization（GN），可以看做BN的簡單的變體。GN將channels分成組，併在每個組內計算歸一化的均值和方差。GN的計算與batch size無關，在大批次範圍內精度穩定。在ImageNet訓練的ResNet-50上，當Batch size為2時，GN的誤差比BN低10.6 %；當使用典型batch size時，GN與BN的效能相當好，並且優於其他Normalization的方法。此外，GN可以自然地從預訓練轉移到微調。GN在COCO比賽的標的檢測和分割以及動力學影片分類方面均優於基於BN的同類演演算法，表明GN能夠有效地替代BN。GN在現有的深度學習庫中只需幾行程式碼就可以實現。