騰訊 AI Lab 與復旦大學、普林斯頓大學、Intel Labs 合作提出一種端對端的深度學習框架，可從單張彩色圖片直接生成三維網格（3d mesh)。該研究論文被頂級會議 ECCV 2018 收錄，以下是技術詳細解讀。

ECCV（European Conference on Computer Vision，計算機視覺歐洲大會）將於 9 月 8 日-14 日在德國慕尼黑舉辦，該會議與 CVPR、ICCV 共稱為計算機視覺領域三大頂級學術會議，每年錄用論文約 300 篇。騰訊 AI Lab 是第二次參與該會議，錄取文章數高達 19 篇，位居國內前列。在剛結束的計算機視覺領域另外兩大會議 CVPR，ICCV 中也收穫頗豐，分別錄取 21 篇和 7 篇論文。

■ 論文 | Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images

■ 連結 | https://www.paperweekly.site/papers/2283

■ 原始碼 | https://github.com/nywang16/Pixel2Mesh

該論文由復旦大學、普林斯頓大學、Intel Labs 和騰訊 AI Lab 合作完成。文章提出了一種端到端的深度學習框架，可從單張彩色圖片直接生成三維網格（3D Mesh）。

受深度神經網路特性的限制，以前的方法通常用 volume 或者 point cloud 表示三維形狀，將它們轉換為更易於使用的 mesh 並非易事。與現有方法不同，本文使用圖摺積神經網路表示 3D mesh，利用從輸入影象中提取的特徵逐步對橢球進行變形從而產生正確的幾何形狀。本文使用由粗到精的樣式進行生成，使得整個變形過程更加穩定。

此外，本文還定義了幾種與 mesh 相關的損失函式捕捉不同級別的特性，以保證視覺上有吸引力並且物理上高重建精度。大量實驗表明，本文的方法不僅定性上可以生成細節更加充分的 mesh 模型，而且與當前最好的方法相比也實現了更高的重建精度。

三維資料有多種表示形式，包括 volume、point cloud、mesh 等。volume 是一種規則的資料結構，即將物體表示為的 N3 格子，受解析度和表達能力限制，這種表示方法通常缺乏細節。

point cloud 是一種不規則的資料結構，由於點之間沒有區域性連結關係，點雲往往缺乏物體的錶面資訊；3D Mesh 同樣是一種不規則的資料結構，由點、邊和麵組成，由於其輕量、形狀細節豐富等特性，在虛擬現實、動畫遊戲、生產製造等實際產業中應用越來越廣泛，本文研究如何從單張 RGB 圖重建出對應的 3D mesh 模型。

模型架構

▲ Figure 1: Pixel2Mesh的架構

Pixel2Mesh 的架構如圖 1 所示。對於輸入影象，設計一個多層的摺積神經網路，用於提取圖片不同層次的特徵。對於輸出三維網格，設計了 3 個級聯的變形模組，由圖神經網路構成。Perceptual feature pooling 層可根據網格頂點坐標得到投影的圖片特徵，然後根據此特徵不斷對初始的橢球進行變形，以逼近真實形狀。Graph unpooling 層用於增加三維網格節點和邊的數量。

本文的目的在於提出一種生成結果光滑、重建精度高的利用單張彩色圖生成物體三維網格模型的方法。本文沒有直接採用生成 3D Mesh 的方法，而是採用將一個固定的橢球依據影象特徵逐漸形變成標的形狀的策略。本文針對兩個三維網格重建難點給出瞭解決方案：

1. 3D Mesh 的表示問題—引入圖摺積神經網路。3D mesh 一般使用非規則資料形式—圖（Graph）來表示，而同時整個網路還需要對其輸入的規則的影象資料進行特徵抽取。本文使用圖摺積網路（GCN）來處理三維網格，使用類似於 VGG-16 的網路來提取二維影象特徵。為了將兩者聯絡在一起，設計了一個投影層使得網格中的每個節點能對應獲取相應的二維影象的特徵。

上圖（a）中 P 是從輸入圖片得來的特徵，是頂點的位置，兩者組合可得到相應的投影特徵，再與 GCN 的特徵簡單合併送入網格形變模組（Mesh Deformation Block）中。整個網路包含若干該模組。上圖（b）是依據相機引數進行投影的示意圖。

2. 如何有效地更新網格的形狀—引入圖的上池化層。實驗發現，直接訓練網路使其預測 mesh 的效果並不好。一個原因是如果直接預測較大數量的點的網格，頂點的感受野會有受限，即 mesh 的頂點無法有效地檢索鄰近頂點的特徵。為瞭解決這個問題，本文設計了一個圖的上池化層（Graph unpooling layer），使得點的數量逐漸由少到多，相應的網格形狀由粗到細，既保留了全域性資訊，又具有細節的表達。

上圖是圖的上池化過程。（a）中的黑色頂點即為新增的頂點，連線的虛線即為新增的邊。這是 Edge-based 的方式，還有一種 Face-based 的方式，即在每個三角形中心新增一個頂點，但這樣會造成網格頂點不均衡的問題，如（b）所示。在實際操作中，每個新增的點位於舊三角形的邊的中點位置，特徵的值取相鄰兩頂點的均值。

損失函式

本文定義了四種不同的損失函式來促使網格更好地形變。

1. Chamfer 損失函式：其作用是限制網格頂點的具體位置；

2. Normal 損失函式：其作用是增強網格錶面法向的一致性（增加錶面光滑度）；

3. Laplacian 正則化：其作用是在形變時維持臨近頂點的相對位置；

4. Edge length 正則化：其作用是防止個別異常頂點的出現。

本方法對輸入影象進行的三維網格建模的結果：

▲ Qualitative results. (a) Input image; (b) Volume from 3D-R2N2 [1], converted using Marching Cube [4]; (c) Point cloud from PSG [2], converted using ball pivoting [5]; (d) N3MR[3]; (e) Ours; (f) Ground truth.

實驗結果

F-score (%)

本文提出的方法在 ShapeNet 測試資料集上的表現，除了當閾值為時在 watercraft 類低於 PSG，其他指標均達到了最好水平。

CD 和 EMD

對於 CD 和 EMD，在 ShapeNet 測試集上，本文的方法在多數情況下都達到了最好水平。

參考文獻

[1]. Choy, C.B., Xu, D., Gwak, J., Chen, K., Savarese, S.: 3d-r2n2: A unified approach for single and multi-view 3d object reconstruction. In: ECCV. (2016)

[2]. Fan, H., Su, H., Guibas, L.J.: A point set generation network for 3d object reconstruction from a single image. In: CVPR. (2017)

[3]. Kato, H., Ushiku, Y., Harada, T.: Neural 3d mesh renderer. In: CVPR. (2018)

[4]. Lorensen, W.E., Cline, H.E.: Marching cubes: A high resolution 3d surface construction algorithm. In: SIGGRAPH. (1987)

[5]. Bernardini, F., Mittleman, J., Rushmeier, H.E., Silva, C.T., Taubin, G.: The ball-pivoting algorithm for surface reconstruction. IEEE Trans. Vis. Comput. Graph. 5(4) (1999) 349–359

點選以下標題檢視更多論文解讀：

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？ 答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

? 來稿標準：

• 稿件確系個人原創作品，來稿需註明作者個人資訊（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已釋出連結

• PaperWeekly 預設每篇文章都是首發，均會新增“原創”標誌

? 投稿郵箱：

• 投稿郵箱：hr@paperweekly.site

• 所有文章配圖，請單獨在附件中傳送

• 請留下即時聯絡方式（微信或手機），以便我們在編輯釋出時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關註」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選「交流群」，小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 下載論文 & 原始碼

ECCV 2018 | Pixel2Mesh：從單幀RGB影象生成三維網格模型

模型架構

損失函式

實驗結果

參考文獻

相關推薦

熱門標籤

熱門文章

分享創造快樂