歡迎光臨
每天分享高質量文章

畫個草圖生成2K高畫質影片,這份效果驚艷的研究值得你跑一跑

導讀:在影象到影象合成的研究領域熱火朝天的當下,英偉達又放大招,聯合 MIT CSAIL 開發出了直接影片到影片的轉換系統。


該系統不僅能用語意分割掩碼影片合成真實街景影片,解析度達到 2K;能用草圖影片合成真實人物影片;還能用姿態圖合成真人舞蹈影片。


更令人驚艷的是,在語意分割掩碼輸入下,換個掩碼顏色該系統就能直接將街景中的樹變成建築!目前該專案已開源。

作者:Ting-Chun Wang 等

來源:機器之心(ID:almosthuman2014)編譯

參與:劉曉坤、王淑婷

01 引言

模擬和再現動態視覺世界對於打造智慧體來說必不可少。除了純粹的科學興趣,學習合成連續的視覺體驗在計算機視覺、機器人學和計算機圖形學領域都有廣泛的應用。例如對於 model-based 的強化學習,逼近動態視覺的影片合成模型能以較少的真物體驗資料訓練智慧體。使用學習的影片合成模型,人們可以生成逼真的影片,而無需明確指定場景幾何形狀、材料、光傳輸以及它們的變換,這在使用標準圖形渲染技術時會遇到很多麻煩,但卻是必要的。

影片合成的形式有很多種,包括未來影片預測和無條件影片合成。在本文中,作者研究了一種新的形式:影片到影片的合成。從核心來說,其標的是學習一種對映函式,它可以將輸入影片轉換成輸出影片。就目前已知的研究工作來看,儘管影象到影象合成研究進行得熱火朝天,但影片合成的通用解決方案還沒有被探索過。作者表示,本論文提出的方法是受到之前專用影片合成方法啟發。

作者將影片到影片的合成問題稱之為分佈匹配問題,其標的是訓練一個模型,使得在給定輸入影片後構建一個條件分佈以近似合成類似於輸入影片的真實影片。為此,他們利用了生成對抗學習框架完成這一建模過程。

給定成對的輸入和輸出影片,作者學習把輸入影片對映到輸出域。透過精心設計的生成器和判別器網路以及新的學習標的函式,該方法可以學習合成高解析度、時間連貫的照片級影片。此外,作者還將該方法擴充套件到多模態影片合成。在相同的輸入條件下,該模型可以製作不同外觀的影片。

作者對在幾個資料集上進行了廣泛的實驗驗證,任務是將一些列分割掩碼轉換成照片級的影片。定量和定性結果都表明,該方法合成的鏡頭看起來比強基線更逼真。他們還進一步證明,該方法可以生成長達 30 秒的真實感 2K 解析度影片。它還允許使用者對影片生成結果進行靈活的高階控制。例如,使用者可以輕易地用街景影片中的樹替換建築物。此外,作者還將該方法擴充套件到了未來預測,結果表明其方法優於現有系統。作者所用程式碼、模型和其它結果都可以在其網站上找到。

▲圖 1:Cityscapes 結果。其中左上為輸入影象、右上為 pix2pixHD 生成的影象、左下為 COVST 生成的影象、右下為本論文提出方法生成的影象