導讀:在影象到影象合成的研究領域熱火朝天的當下,英偉達又放大招,聯合 MIT CSAIL 開發出了直接影片到影片的轉換系統。
該系統不僅能用語意分割掩碼影片合成真實街景影片,解析度達到 2K;能用草圖影片合成真實人物影片;還能用姿態圖合成真人舞蹈影片。
更令人驚艷的是,在語意分割掩碼輸入下,換個掩碼顏色該系統就能直接將街景中的樹變成建築!目前該專案已開源。
作者:Ting-Chun Wang 等
來源:機器之心(ID:almosthuman2014)編譯
參與:劉曉坤、王淑婷
01 引言
模擬和再現動態視覺世界對於打造智慧體來說必不可少。除了純粹的科學興趣,學習合成連續的視覺體驗在計算機視覺、機器人學和計算機圖形學領域都有廣泛的應用。例如對於 model-based 的強化學習,逼近動態視覺的影片合成模型能以較少的真物體驗資料訓練智慧體。使用學習的影片合成模型,人們可以生成逼真的影片,而無需明確指定場景幾何形狀、材料、光傳輸以及它們的變換,這在使用標準圖形渲染技術時會遇到很多麻煩,但卻是必要的。
影片合成的形式有很多種,包括未來影片預測和無條件影片合成。在本文中,作者研究了一種新的形式:影片到影片的合成。從核心來說,其標的是學習一種對映函式,它可以將輸入影片轉換成輸出影片。就目前已知的研究工作來看,儘管影象到影象合成研究進行得熱火朝天,但影片合成的通用解決方案還沒有被探索過。作者表示,本論文提出的方法是受到之前專用影片合成方法啟發。
作者將影片到影片的合成問題稱之為分佈匹配問題,其標的是訓練一個模型,使得在給定輸入影片後構建一個條件分佈以近似合成類似於輸入影片的真實影片。為此,他們利用了生成對抗學習框架完成這一建模過程。
給定成對的輸入和輸出影片,作者學習把輸入影片對映到輸出域。透過精心設計的生成器和判別器網路以及新的學習標的函式,該方法可以學習合成高解析度、時間連貫的照片級影片。此外,作者還將該方法擴充套件到多模態影片合成。在相同的輸入條件下,該模型可以製作不同外觀的影片。
作者對在幾個資料集上進行了廣泛的實驗驗證,任務是將一些列分割掩碼轉換成照片級的影片。定量和定性結果都表明,該方法合成的鏡頭看起來比強基線更逼真。他們還進一步證明,該方法可以生成長達 30 秒的真實感 2K 解析度影片。它還允許使用者對影片生成結果進行靈活的高階控制。例如,使用者可以輕易地用街景影片中的樹替換建築物。此外,作者還將該方法擴充套件到了未來預測,結果表明其方法優於現有系統。作者所用程式碼、模型和其它結果都可以在其網站上找到。
▲圖 1:Cityscapes 結果。其中左上為輸入影象、右上為 pix2pixHD 生成的影象、左下為 COVST 生成的影象、右下為本論文提出方法生成的影象
02 論文摘要
論文:Video-to-Video Synthesis
論文地址:https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf
摘要:我們研究了影片到影片的合成問題,標的是學習從輸入源影片(例如,一系列的語意分割掩碼)到輸出照片級影片的對映函式,輸出影片精確地描繪了源影片的內容。與之對應的影象問題,即影象到影象合成問題是目前流行的研究課題,而影片到影片的合成問題則在文獻中很少出現。在沒有理解時間動力學的情況下,直接把已有的影象合成方法應用到輸入影片通常會導致視覺效果低、時間不連貫的影片。在本文中,我們提出了一種新型的生成對抗網路框架下的影片到影片合成方法。透過精心設計生成器和判別器架構,結合空間-時間對抗標的函式,我們在多種輸入影片格式下生成了高解析度、時間連貫的照片級影片,其中多種形式的輸入包括分割掩碼、草圖和姿態圖。在多個基準上的實驗結果表明,相對於強基線,我們的方法更具優越性。特別地,我們的模型可以合成長達 30 秒的 2K 解析度街景影片,與當前最佳的影片合成方法相比具備顯著的優勢。最後,我們把該方法應用到未來影片預測中,結果超越了多個當前的最佳系統。
03 實驗
▲表 1:在 Cityscapes 街景資料集上影片到影片合成方法的對比結果
▲表 2:控制變數研究,作者對比了提出的方法和 3 個變體的效能,分別是初始 vs 無背景-前景先驗、初始 vs 無條件影片判別器、初始 vs 無流扭曲
▲表 3:在 Cityscapes 資料集上未來影片預測方法的對比結果
▲圖 2:Apolloscape 的結果:左圖:pix2pixHD,中間:COVST,右圖:作者提出的方法,輸入語意分割掩碼影片在左下角展示
▲圖 3:多模態影片合成結果示例,這些合成影片包含不同的道路錶面
▲圖 4:改變輸入語意分割掩碼來生成不同影片的示例結果,左圖:樹到建築,右圖:建築到樹,原始影片如圖 3 所示
▲圖 5:草圖到人臉的影片結果示例
▲圖 6:姿態圖到舞蹈的影片結果示例
來源:GitHub
專案展示:
https://tcwang0509.github.io/vid2vid/
專案地址:
https://github.com/NVIDIA/vid2vid
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞
檢視更多優質內容!
PPT | 報告 | 讀書 | 書單 | 乾貨
Python | 機器學習 | 深度學習 | 神經網路
區塊鏈 | 揭秘 | 高考 | 數學
猜你想看
Q: 你還敢說“眼見為實”嗎?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視