全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Vision and Pattern Recognition)將於 6 月 16-20 在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每週會推出一篇 CVPR’19 接收論文解讀文章。本文是第 2 篇解讀,曠視 CVPR’19 Oral 論文提出一種基於測地距離的點雲分析深度網路——GeoNet。
論文名稱:GeoNet: Deep Geodesic Networks for Point Cloud Analysis
論文連結:https://arxiv.org/pdf/1901.00680.pdf
-
導語
-
簡介
-
GeoNet 方法
-
問題陳述
-
方法
-
測地鄰域估計
-
-
-
-
特徵提取
-
測地匹配
-
-
-
-
測地融合
-
PU-Net
-
PointNet++
-
-
-
GeoNet實驗
-
測地鄰域估計
-
點雲上取樣
-
法向量估計及網格重建
-
非剛性形狀分類
-
-
結論
-
參考文獻
-
往期解讀
基於網格曲面的幾何拓撲資訊可以為物體語意分析和幾何建模提供較強的線索,但是,如此重要的連線性資訊在點雲中是缺失的。為此,曠視西雅圖研究院首次提出一種全新的深度學習網路,稱之為 GeoNet,可建模點雲所潛在表徵的網格曲面特徵。
為證明這種學習型的測地表示的有效性,曠視西雅圖研究院提出一種融合方案,即把 GeoNet 與其他 baseline 和 backbone 相結合,比如 PU-Net、PointNet++,用於若干對潛在網格曲面特徵理解有較高要求的點雲分析任務。
得益於對潛在曲面拓撲結構的理解,這一方法在點雲上取樣、法向量估計、網格重建及非剛性形狀分類等多項經典任務上取得了新的當前最優結果。該項工作已收錄為 CVPR 2019 Oral 論文。
簡介
拓撲估計,即確定點雲之中不同點的鄰域關係,是一個很重要的問題,因為它指示著可進一步揭示點雲語意和功能資訊的潛在的點雲結構。
▲ 圖 1:GeoNet 方法示意圖,其輸入是一個點雲,然後輸出相應的表示用於多項點雲分析任務。
如圖 1 左邊紅色插框所示:這兩個點集,儘管看起來不相連,但實際上應該相連為一個椅腿,作為整個椅子的一部分。另一方面,位於椅子上、下錶面的點集,儘管空間上非常聚集,但卻不該相連,以避免混淆可坐的上錶面和不可坐的下錶面。確定這樣的拓撲學資訊似乎是一個低階問題,而實際上這是一項充滿挑戰的任務,需要全域性、高階的知識。
再次回到圖 1 中的紅色插框,本文由此得出結論,兩個點集只有從大量點雲學習到統計規則之後才相連,並觀察這一型別的諸多物體,伴隨著從椅子延伸到地面的相連、垂直的元素。這啟發本文采取一種學習的方法來捕捉點雲的拓撲學結構。
本文旨在開發一種針對潛在曲面拓撲學和物體幾何學的點雲資料的表示,進而提出一種利用已學習的拓撲學特徵分析測地性點雲的方法。
這一表示可捕捉一個點雲的不同拓撲學樣式,並且這一方法不會改變資料流,因此本文的表示可實現聯合學習,與當前最優的 baseline 或 backbone 相結合,比如 PU-Net,PointNet++。
對於第一個標的,本文提出一種測地性鄰域估計網路(Geodesic Neighborhood Estimation Network),稱之為 GeoNet,透過使用 groundtruth 測地距離作為監督訊號來學習深度測地表示。
如圖 2 所示,GeoNet 包含兩個模組:1)自動編碼器,提取每一個點的特徵向量;2)測量匹配層(GM),使用潛在特徵充當一個已學習的核函式估計測地鄰域點。
▲ 圖 2:GeoNet:測地鄰域估計網路。
藉助於監督式的測地訓練過程,GM 層的中間特徵包含豐富的點雲拓撲學資訊以及固有的曲面屬性。本文註意到,儘管表示在測地距離上訓練,但由於沒有施加對稱性、三角不等式等基於距離的約束,所學得的表示暫時並不適合作為標準測地距離。表示的標的是為整體幾何學和拓撲學的後續處理過程提供點雲潛在的網格曲面特徵資訊,而不是直接進行指標計算。
對於第二個任務,如圖 3 所示,本文提出測地融合方案,從而把 GeoNet 整合進當前最優的架構之中,完成不同的任務。
▲ 圖 3:PU-Net(上)和 PointNet++(下)測地融合方案。
具體而言,本文透過 PU-Net fusion(PUF)進行點雲上取樣,透過 PointNet++ fusion(POF)進行法向量估計、網格重建以及非剛性形狀分類。
實驗表明,這種來自 GeoNet 的已學習的測地表示同時有助於幾何學和語意點雲分析。
方法
問題陳述
本文用表示一個點雲,其中,並且。儘管問題和方法是普遍性的,本文僅使用歐式坐標作為輸入,聚焦於 d=3 的情況。點 x_i 的半徑 r 之內的鄰域子集表示為,其中是點 x_i 和 x_j之間的歐式距離。
的繫數是 K,x_i 的相應測地距離集合表示為,其中代表測地距離。本文的標的是學習函式,把每個點對映到其周遭的測地距離集合(的近似集合)。
方法
本文透過訓練 GeoNet 學習上述定義的函式 f。它包含一個帶有跳躍式連線(skip connections)的自動編碼器層,以及一個多尺度的測地匹配層(GM),起到利用點集潛在的空間特徵的作用。
GeoNet 藉助集合 X 不同點之間的 groundtruth 測地距離實現監督式訓練。為證明 GeoNet 表示的可用性,本文在一些需要理解潛在的錶面拓撲學的經典任務上測試了該方法,具體包括點雲上取樣、法向量估計、網格重建以及非剛性形狀分類。
為此,本文還結合了專為上述問題而設計的當前最優的架構。比如,使用 PU-Net 作為 baseline 用於點雲上取樣,把 PointNet++ 用於其他任務,這兩種測地融合方法分別稱之為 PU-Net fusion (PUF) 和 PointNet++ fusion (POF),透過與 GeoNet 的整合,解決測地相關的點雲分析問題。
測地相鄰估計
如圖 2 所示,GeoNet 包含兩個模組:自編碼器提取每個點的特徵向量;GM 層利用潛在的特徵充當一個已學習的測地核函式評估。
特徵提取。本文使用 PointNet++ 變體提取特徵,它把一個輸入點集對映到特徵集。為恢復點雲的特徵,本文還使用了帶有跳躍連線的編碼器。該編碼器包含遞迴應用的三線性特徵轉換器,並共享全連線層、ReLU 和批歸一化。所得到的(N,3+C)張量接著被饋送至 GM 層用於測地鄰域估計。
測地匹配。本文把不同半徑下的潛在特徵歸組為鄰域特徵集合。針對每個半徑設定一個最大數量的鄰域點,從而得到一個維的向量。歸組的特徵,連同潛在的特徵,輸入到一個測地匹配模組,所得特徵成為一組帶有 ReLU、批歸一化和 Dropout 的共享 FC 層的輸入。最後,GM 層為輸入點雲的每個點反饋一個測地核函式評估。
本文使用一個多尺度的對比 groundtruth 測地距離及其評估:
測地融合
為證明這一學習的測地表示可用於點雲分析,本文結合針對不同任務的當前最優(SOTA)架構給出了新的融合方法。主要是基於 PU-Net 提出 PU-Net fusion (PUF),基於 PointNet++ 提出 PointNet++ fusion (POF)。
PU-Net 測地融合。如圖 3 上半部分所示,輸入點集(N,d)並將其饋送至兩個分支:Multi-scale Grouping 和 GeoNet。
接著,融合張量被饋送至 PointNet 以生成一個向量。剩餘的層則來自 PU-Net。如圖 3 紅框所示,這個損失函式有兩個權重項:
其中,L_geo 用於 GeoNet 訓練,L_task 是本文當前標的任務的損失函式。在這種情況下,標的是點雲上取樣:。PUF 上取樣把一個隨機分佈的稀疏點集 X 作為輸入,並生成一個統一分佈的密集點雲。上取樣因子是:
其中第一個項是上取樣點集和 groundtruth 密集點雲之間的地球移動距離 EMD(Earth Mover Distance):
(3)中第二項是一個排斥損失函式,透過懲罰相近的點對來提升統一的空間分佈:
PointNet++ 測地融合。圖 3 下半部分給出了基於 PointNet++ 的融合方法的 pipeline。由於 PU-Net 和 PointNet++ 所面向的任務以及架構的不同,本文對 PUF 做了以下改變以設計一種使用 PointNet++ 的適宜的融合策略。
首先,對於 multi-scale grouping,本文使用學習的測地鄰域而不是歐氏鄰域。其次,儘管 PUF 層把每一鄰域點集已估計的融合進 backbone,在 GeoNet 中 POF 層依然使用提取自倒數第二個全連線層的潛在測地特徵。第三,在 PointNet++ 融合中,藉助最遠點取樣,本文以分層方式應用 POF 層。
因此,已學習的特徵同時編碼點集的區域性和全域性的結構化資訊。本文藉助 L_1 誤差估計點雲法向量:
接著,本文使用所估計的法向量透過泊松曲面重建(Poisson surface reconstruction)生成網格。為分類非網格物體的點雲,本文使用交叉熵損失函式:
實驗
本文透過評估點雲測地鄰域對 GeoNet 進行效能測試。為證明已學習的深度測地表示的可用性,本文在一系列對潛在曲面網格特徵理解有所要求的點雲任務上進行了實驗,比如點雲上取樣、法向量估計、網格重建、非剛性形狀分類。
測地鄰域估計
透過使用具有 512 個均布點的點雲,表 1 展示了 ShapeNet 資料集上的測地距離集合、和估計結果,並給出了多個半徑下的平均方誤差(MSE)。
▲ 表 1
GeoNet 在 baselines 上有持續提升,代表性結果如圖 4 所示。本文方法捕捉到不同的拓撲學樣式,比如彎曲面,分層結構,外部/內部部分等等。
▲ 圖 4:測地鄰域估計的表示結果。
點雲上取樣
本文在點雲上取樣任務重測試 PUF,結果如表 3 所示。本文在 3 個指標上與當前最優的點雲上取樣方法 PU-Net 進行了對比:MSE、EMD 以及倒角距離 CD(Chamfer Distance)。
▲ 表 3
由於測地鄰域較於歐氏鄰域具有更豐富的潛在點集拓撲學資訊,PUF 上取樣產生更少的異常值,並複原更多的細節,比如曲線及尖銳結構,如圖 5 所示。
▲ 圖 5:PUF 與 PU-Net 的點雲上取樣結果對比。
法向量估計及網格重建
本文將 PointNet++ 測地融合方法 POF 應用於法向量估計,接著借已完成的法向量估計做泊松曲面重建。Shrec15 和 ShapeNet 資料集上的法向量估計量化結果如表 4 和表 5 所示。透過對比傳統的 PCA 演演算法和當前最優的深度學習方法 PointNet++,POF 有 10% 左右的相對提升。
▲ 表 4
▲ 表 5
非剛性形狀分類
非剛性形狀分類的實驗結果如表 6 所示。儘管 POF 和 PointNet++ 只把歐式坐標系的點雲作為輸入,DeepGM 需要在 groudtruth 測地度量空間中利用精確網格資料獲取線下計算的固有特徵。儘管所用資料資訊量更少,但 POF 相較其他方法精度更高。
▲ 表 6
這進一步證明,POF 更適合解決需要理解潛在點雲曲面屬性的任務。
結論
本文提出 GeoNet,一種全新的深度學習架構,可學習點雲基於測地空間的拓撲學結構。其訓練過程在 groundtruth 測地距離的監督之下進行,因此已學習的表示可反映出點雲所潛在表徵的網格曲面特徵。
為證明這一拓撲學結構的有效性,本文藉助融合方法把 GeoNet 與當前最優的點雲分析 baseline 或 backbone 整合為一種計算方案,在點雲上取樣、法向量估計、網格重建及非剛性形狀分類等幾何學及語意任務上的實驗結果表明,GeoNet 效能優於當前最佳同類方法。
參考文獻
[1] L. Yu, X. Li, C.-W. Fu, D. Cohen-Or, and P.-A. Heng. Pu- net: Point cloud upsampling network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni- tion, pages 2790–2799, 2018.
[2] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 1(2):4, 2017.
[3] C.R.Qi,L.Yi,H.Su,andL.J.Guibas.Pointnet++:Deephi- erarchical feature learning on point sets in a metric space. In Advances in Neural Information Processing Systems, pages 5099–5108, 2017.
[4] X. Han, T. Leung, Y. Jia, R. Sukthankar, and A. C. Berg. Matchnet: Unifying feature and metric learning for patch- based matching. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3279– 3286, 2015.
[5] M.KazhdanandH.Hoppe.Screenedpoissonsurfacerecon- struction. ACM Transactions on Graphics (ToG), 32(3):29, 2013.
往期解讀:CVPR 2019 | 曠視提出 GIF2Video:首個深度學習 GIF 質量提升方法
傳送門
歡迎各位同學加入曠視西雅圖研究院 MEGVII Research US,簡歷可以投遞給西雅圖研究院負責人王珏 (wangjue@megvii.com)。