在碎片化閱讀充斥眼球的時代,越來越少的人會去關註每篇論文背後的探索和思考。
在這個欄目裡,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點選本文底部的「閱讀原文」即刻加入社群,檢視更多最新論文推薦。
@zhangjun 推薦
#Neural Architecture Search
本文透過用進化演演算法來做摺積神經網路的架構最佳化,最大的亮點是給出了影響架構效能的關鍵因素:1. 深度;2. 各節點之間的連線性。透過進化演演算法最佳化網路結構最大的瓶頸在於計算效率上,網路架構的效果評價是一個耗時的工作,生成和變異出的大量個體都需要評價。
本文從一個最簡單的架構作為初始個體,透過預設定的 5 種變異方式(新增邊、節點、濾波器等操作)對原始個體進行變異最佳化,並透過視覺化的方法對進化的過程進行了跟蹤分析,找到了一些規律。完全自動化地去設計架構比較難,但透過自動設計分析出的一些結論可以幫助提高人工設計的效率。
▲ 論文模型:點選檢視大圖
@zhangjun 推薦
#Multi-objective Optimization
本文來自 Google Research 和國立清華大學。大多數 NAS 的工作都針對最佳化結果在 test dataset 上的準確性,而忽略了在一些硬體裝置(比如:手機)上的模型還應考慮延遲和功耗,由此可將單標的最佳化問題轉換成一個多標的最佳化問題,本文深入分析了兩種常見的多標的 NAS 模型 MONAS 和 DPP-Net,併在一些裝置上進行了實驗對比。
▲ 論文模型:點選檢視大圖
Neural Architecture Search: A Survey
@zhangjun 推薦
#Neural Architecture Search
深度學習模型在很多工上都取得了不錯的效果,但調參對於深度模型來說是一項非常苦難的事情,眾多的超引數和網路結構引數會產生爆炸性的組合,常規的 random search 和 grid search 效率非常低,因此最近幾年神經網路的架構搜尋和超引數最佳化成為一個研究熱點。
本文是一篇神經網路架構搜尋綜述文章,從 Search Space、Search Strategy、Performance Estimation Strategy 三個方面對架構搜尋的工作進行了綜述,幾乎涵蓋了所有近幾年的優秀工作。
論文詳細解讀:神經網路架構搜尋(NAS)綜述 | 附AutoML資料推薦
▲ 論文模型:點選檢視大圖
@zhangjun 推薦
#Neural Architecture Search
本文來自 arXiv,作者來自自動化所和地平線。用進化演演算法來搜尋模型結構存在演演算法不穩定的問題,用強化學習來搜尋存在效率存在一定的問題,於是本文將兩者結合起來,各取其長。整體框架是基於進化演演算法,而 mutation 操作是用到了強化學習來控制。在 CIFAR-10 上用了更少的計算資源,得到了較優的結果。併在移動端進行了測試,在保證較高準確率的基礎上,用了較少的引數量。
▲ 論文模型:點選檢視大圖
@WildCat 推薦
#Neural Architecture Search
本文來自 CMU 和 DeepMind。當前最佳的架構搜尋演演算法儘管效能優越,但需要很高的計算開銷。與傳統的在離散的和不可微的搜尋空間上採用進化或強化學習搜尋結構的方法不同,本文提出了一個高效架構搜尋方法 DARTS(可微架構搜尋),將搜尋空間鬆弛為連續的,從而架構可以透過梯度下降並根據在驗證集上的表現進行最佳化。
作者在 CIFAR-10,ImageNet,Penn Treebank 和 WikiText-2 上進行了大量實驗,表明本文演演算法擅於發現用於影象分類的高效能摺積結構和用於語言建模的迴圈神經網路結構,同時比現有技術的非微分搜尋技術要快幾個數量級。
▲ 論文模型:點選檢視大圖
@Synced 推薦
#Neural Architecture Search
本文來自 Google Brain 和斯坦福大學,論文提出超越神經架構搜尋(NAS)的高效神經架構搜尋(ENAS),這是一種經濟的自動化模型設計方法,透過強制所有子模型共享權重從而提升了 NAS 的效率,剋服了 NAS 算力成本巨大且耗時的缺陷,GPU 運算時間縮短了 1000 倍以上。
在 Penn Treebank 資料集上,ENAS 實現了 55.8 的測試困惑度;在 CIFAR-10 資料集上,其測試誤差達到了 2.89%,與 NASNet 不相上下(2.65% 的測試誤差)。
▲ 論文模型:點選檢視大圖
@Synced 推薦
#Recurrent Neural Network
本文來自 MIT 和 Salesforce Research,論文提出了一種用於迴圈神經網路靈活自動化架構搜尋的元學習策略,明確涵蓋搜尋中的全新運算元。該方法使用了靈活的 DSL 搜尋和強化學習,在語言建模和機器翻譯等任務上表現良好。新方法可以讓我們擺脫依靠直覺的費力模型設計方式,同時也大大擴充套件了迴圈神經網路的可能性空間。
▲ 論文模型:點選檢視大圖
@Synced 推薦
#Convolutional Neural Network
本文是約翰霍普金斯大學、Google AI 和斯坦福大學聯合發表於 ECCV 2018 的工作,論文提出了一種比之前的方法更高效的用於學習 CNN 結構的方法,其中沒有使用強化學習或遺傳演演算法,而是使用了基於序列模型的最佳化(SMBO)策略。在其中按複雜度逐漸增大的順序搜尋架構,同時學習一個用於引導該搜尋的代理函式(surrogate function),類似於 A* 搜尋。
該方法在 CIFAR-10 資料集上找到了一個與 Zoph et al. (2017) 的強化學習方法有同等分類準確度(3.41% 錯誤率)的 CNN 結構,但速度卻快 2 倍(在所評估的模型的數量方面)。
▲ 論文模型:點選檢視大圖
@Nevertiree 推薦
#Neural Architecture Search
本文是 CMU 和 DeepMind 發表於 ICLR 2018 的工作,論文提出了一種結合模型結構分層表示和進化策略的高效架構搜尋方法,可以模仿人類專家常用的模組化設計樣式,和支援複雜拓撲的表達能力很強的搜尋空間。該演演算法能夠高效地發現效能超越大量人工設計的影象分類模型的架構,在 CIFAR-10 上獲得了 top-1 誤差率 3.6% 的結果,在 ImageNet 上取得了 20.3% 的結果。
透過比較人工設計的架構、使用強化學習找到的架構、使用隨機或進化搜尋找到的架構的實驗結果,研究者發現這種搜尋方法能有效找到效能超越人工設計的架構。
▲ 論文模型:點選檢視大圖
@velconia 推薦
#Neural Architecture Search
本文來自 MIT 和哈佛,論文針對 NN 的 AutoML 中遇到的 Early Stopping 問題,提出了一種新方法:用線性模型預測模型的最終訓練結果。AutoML 中,Hyperparameters 的搜尋過程是一個 CPU Super Expensive 的過程,這個方法能夠降低大約 50% 的搜尋時間。
這是一個新思路,並且我對這個方法做了一些實驗(主要在 CNN 上),效果確實還不錯,說明這是可行的,我認為在不論是手工調優還是自動調優,這個方法都是以後的訓練框架可以借鑒的。
▲ 論文模型:點選檢視大圖
@chlr1995 推薦
#Image Classification
本文是 Google 發表於 ICML 2017 的工作。要執行現實任務時,神經網路需要專家大量的研究設計,而且通常只能執行單個具體的任務,例如識別照片中的標的等。人們希望擁有自動化的方法,為任意給定的任務生成合適的網路架構。
先前有一些開創性的研究利用學習的方式來設計網路結構。Google 想利用計算資源以前所未有的計算規模和儘量少的專家幹預,獲得更好的解決方案。
Google 結合進化演演算法,以簡單的架構模組和常用的初始條件,設定了一個演化過程,取得了不錯的結果。整個過程簡單粗暴,每次演化隨機刪除或新增一個結構模組,或者新增 skip connection;同時過程中,保留優質的網路作為親代,拋棄效果不好的網路結構。
▲ 論文模型:點選檢視大圖
@zhangjun 推薦
#Evolutionary Algorithm
本文來自 GECCO 2016,論文提出了一種改進 NEAT 的 DNN 網路架構搜尋方法,併在 CNN、RNN 和兩者的混合應用中進行了演演算法的驗證,取得了不錯的效果。本方法屬於現在比較火的 neuroevolution,包括 Google, DeepMind, OpenAI, Sentient, Uber 等在內的很多公司都在研究,用來設計效果更好的網路結構。
▲ 論文模型:點選檢視大圖
@zhangjun 推薦
#Genetic Algorithms
本文是約翰霍普金斯大學發表於 ICCV 2017 的工作,是一篇將遺傳演演算法用於 CNN 架構搜尋問題的論文。文章探索了用遺傳演演算法的幾個標準步驟來解此問題,包括網路架構的編碼,優秀個體的選擇,交叉和變異方法等,在幾個小型資料集上進行了實驗,並將小型實驗生成的優良結構應用於大型資料集取得了不錯的效果。
用進化演演算法做網路架構搜尋是一種很常見和經典的手段,但這類方法有個巨大的缺點就是計算量太大,因為太多的可行解需要進行評價,而每一次評價都是一個非常耗時的計算過程。所以,如何加速評價是解決目前網路架構搜尋問題的核心問題之一。
▲ 論文模型:點選檢視大圖
@zhangjun 推薦
#Neural Architecture Search
本文是 MIT 發表於 ICLR 2017 的工作,論文提出了一種基於 Q-learning 的 meta modeling 方法,對特定任務進行 CNN 網路架構的生成,取得了不錯的效果,屬於用強化學習來生成網路架構中一種比較典型的做法。文章中考慮的情況比較簡單,將網路搜尋問題轉化為用強化學習對一個有限域狀態和動作的問題進行最佳化求解,最佳化變數考慮的比較簡單且都為離散化,整體感覺應用意義不大。
▲ 論文模型:點選檢視大圖
@zhangjun 推薦
#Bayesian Optimization
本文是一篇 2016 年 ICLR 的 workshop paper,文章內容只介紹了實驗部分。本文將所有超引數都換為連續變數,用比較經典的一種連續域無梯度最佳化演演算法 CMA-ES 對問題進行最佳化求解,並和貝葉斯最佳化演演算法進行對比。本文的這種方法最大的優勢在於非常易於並行化處理,用更多的 GPU 可以達到非常不錯的效果。
▲ 論文模型:點選檢視大圖
@zhangjun 推薦
#Recurrent Neural Networks
本文是 Google 發表於 ICML 2015 的工作,論文研究了用進化演演算法設計更好的 RNN 結構,以在更多的任務上表現超過 LSTM 和 GRU,但最終得到的三種最好結構和 GRU 的形式很像。
文中方法的思路仍是在現有的 LSTM 基礎上進行一些增加和刪除,即所謂的 mutation,這類做法相當於在非常多的排列組閤中尋優,但問題維度空間的定義和變異方式的定義,已經從開始扼殺了創造新結構的動力。如何突破現有網路結構,設計出全新的高效能架構是一個非常有趣的問題。
▲ 論文模型:點選檢視大圖
#推 薦 有 禮#
本期所有入選論文的推薦人
均將獲得PaperWeekly紀念周邊一份
▲ 深度學習主題行李牌/卡套 + 防水貼紙
禮物領取方式
推薦人請根據論文詳情頁底部留言
新增小助手領取禮物
想要贏取以上週邊好禮?
點選閱讀原文即刻推薦論文吧!
點選以下標題檢視往期推薦:
#投 稿 通 道#
讓你的論文被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術乾貨。我們的目的只有一個,讓知識真正流動起來。
? 來稿標準:
• 稿件確系個人原創作品,來稿需註明作者個人資訊(姓名+學校/工作單位+學歷/職位+研究方向)
• 如果文章並非首發,請在投稿時提醒並附上所有已釋出連結
• PaperWeekly 預設每篇文章都是首發,均會新增“原創”標誌
? 投稿郵箱:
• 投稿郵箱:hr@paperweekly.site
• 所有文章配圖,請單獨在附件中傳送
• 請留下即時聯絡方式(微信或手機),以便我們在編輯釋出時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關註」訂閱我們的專欄吧
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。
▽ 點選 | 閱讀原文 | 打包下載本期論文