歡迎光臨
每天分享高質量文章

CVPR 2019 | 曠視研究院提出Re-ID新方法VPM,最佳化區域性成像下行人再識別

全球計算機視覺三大頂級會議之一 CVPR 2019 將於當地時間 6 月 16-20 日在美國洛杉磯舉辦。屆時,曠視研究院將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每週會介紹一篇被 CVPR 2019 接收的論文,本文是第 13 篇。圍繞行人再識別,並針對實際情況下行人經常被遮擋、僅能被部分成像這一困難,曠視研究院提出一種可見部件感知模型 VPM,其可透過自監督學習感知哪些部件可見或不可見,併在比較兩幅影象時,聚焦在二者共同可見的部件上,顯著提高部分成像下的行人再識別準確率。

論文名稱:Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification

論文連結:https://arxiv.org/abs/1904.00537

  • 導語

  • 簡介

  • 方法

    • VPM 結構

      • 部件定位器

      • 部件特徵提取器

    • 使用 VPM 

    • 訓練 VPM

      • 自監督

  • 實驗

    • 大規模資料集實驗

    • 對比 SOTA

  • 結論

  • 參考文獻

  • 往期解讀

 

導語

 

近年來,行人再識別研究取得迅速進展,2018 年下,在公開資料集 Market-1501 上,SOTA 方法的一選準確率已達到 95% 甚至更高水平;與此同時,CV 產業界也開始發力,推動其場景落地。但是在實際 re-ID 系統中,一些極具挑戰性的問題正等待剋服,部分成像下的行人再識別(partial re-ID)即是其中之一。

 

在 partial re-ID 場景下,影象可能只包含行人的部分可見資訊,例如腿部被遮擋、只有上半身被成像。此時,未經針對性設計的行人再識別方法通常會遭遇效能“滑鐵盧”,無法再準確識別行人。

 

為此,曠視研究院聯合清華大學,提出一種可見性感知區域性模型 VPM(Visibility-aware Part Model),透過自監督學習感知哪些部件可見/不可見(這種能力稱之為“可見部件感知能力”),併在比較兩幅影象時,聚焦在共同可見的部件上,顯著提高部分成像下的行人再識別準確率。

 

對於 partial re-ID,VPM 具有兩方面的優勢:1)VPM 引入了部件特徵,因此,與在傳統全身的行人再識別(holistic re-ID)問題中一樣,部件特徵受益於細粒度資訊,獲得更好的鑒別能力;2)由於具備可見部件感知能力,VPM 可估計出兩張影象之間的共享區域,併在評估其相似性時聚焦在共享區域,這種做法符合人腦識別行人的思維習慣。

 

實驗結果證明,VPM 可顯著改善特徵表達,在 re-ID、尤其是 partial re-ID 問題上取得了優異效能。

 

簡介

 

行人再識別需要在行人影象庫中,檢索出特定身份行人的所有影象。儘管近年來進展迅速,但在實際應用之前,仍然遇到了一系列嚴峻挑戰,其中之一是區域性成像問題。在實際的 re-ID 系統中,一個行人可能被其他物體部分遮擋,或是正在走出攝像機視場,因此相機經常無法對行人進行全身成像,產生所謂的區域性成像下的行人再識別問題——partial re-ID。

 

 圖1:區域性再識別的兩項挑戰 (a)、(b) 以及曠視研究院提出的VPM方法 (c)    

 

直覺上來講,區域性成像必然加大行人檢索難度;若仔細分析可以發現,相較於整體的行人再識別,區域性成像又額外引入了兩項特有挑戰:

 

1. 區域性成像加劇了查詢(query)影象與庫(gallery)影象之間的空間錯位。全域性 re-ID 場景下,空間錯位主要源自行人姿態變化和觀察視角的變換;然而在區域性成像條件下,即便兩個行人姿態相同,從同一個視角觀察,兩張影象間依然存在嚴重的空間錯位(如圖1(a))。

 

2. 如果生硬地比較全身影象和半身影象,二者之間不共享的區域(如圖 1(b)中藍色區域)不僅不再提供有益的線索,反而引入了額外的幹擾噪聲。這種額外噪聲在對比兩幅缺失程度不同的影象時也會發生。

 

針對上述挑戰,曠視研究院提出可見部件感知模型 VPM。給定一幅行人影象,VPM 能夠感知哪些區域缺失、哪些區域可見,透過聚焦於兩幅圖共享的區域,VPM 避免或是說緩解了上述與區域性重識別相關的兩個特殊困難(如圖1(c))。

 

值得強調的是,VPM 不依賴於頭部、軀幹等語意部件,而是依賴於預先定義的方形區域作為部件。這種做法被 PCB 推廣,其效能在全身行人在識別問題上已超過語意部件特徵學習。本文把這種思路進一步延續:部件特徵學習並不需要依賴人類習慣的語意部件,採用預先定義的方形部件高效且準確率可能更高。VPM 正是由於採用這種做法,不再需要代價高昂的語意部件學習,僅僅透過自動監督學習,即可獲得最關鍵的可見部件感知能力。

 

具體而言,曠視研究員首先在完整齣現了人體的影象上定義一系列區域。在訓練過程中,給定區域性行人影象,VPM 可以學習去定位所有在摺積特徵圖上的預定義區域。之後,VPM 會感知可見的區域,並學習區域層級的特徵。在測試過程中,給定兩張待比較的影象,VPM 首先會計算其共享區域之間的本地距離,然後得出兩張影象的總體距離。

 

方法

 

VPM 結構

       

 圖2:VPM結構圖示

 

VPM 是一個全摺積網路,結構如圖 2 所示。本文在完整的行人影象上預先定義一個固定的部件分割,將影象分成 p 個部件(如圖 2 分成上、中、下三個部件,即 p=3)。對於每一幅行人影象,VPM 輸出固定數量的部件特徵,以及相應的部件可見性得分。

 

註意,即使當前輸入影象有一些部件不可見(例如圖 2 中輸入影象的下端部件實際不可見),VPM 仍然會為所有部件分別產生一個部件特徵(包括那些不可見部件),但不可見部件的可見性得分將很低(趨於零)。這樣,VPM 就能夠知道哪些部件特徵有效,哪些部件特徵無效、不予採信。

 

為了實現上述功能,VPM 在摺積層輸出 Tensor T 上附加一個部件定位器和一個部件特徵提取器,前者透過自監督學習,學習 Tensor T 上的部件位置(及可見性得分),接著,後者則為每個部件生成一個相應特徵。

 

自監督學習的構建非常直觀,如圖 2 所示。本文在完整的行人影象上預先定義一個固定的部件分割,將影象分成 p 個部件,然後裁剪,把裁減後的影象縮放到固定尺寸輸入給 VPM。由於裁減引數可自動獲取,從而自然知道哪些部件是可見的(如圖中的上、中兩個部件),哪些部件是不可見的(如圖中的下端部件)。具體訓練方法請參見“訓練VPM”。

 

部件定位器

 

部件定位器直接在 T 上預測各個部件 pixel-wise 的分佈(也可以理解為一個影象分割器,只不過分割的物件是預先定義好的部件),從而感知哪些區域可見。為此,部件定位器在 T 上使用一層 1 × 1 摺積及一個 Softmax 函式來構建一個 pixel-wise 的部件分類器,這個公式並不必要,但是為了後面取用時清晰明確,將其如下列出:

 

       

      

這個部件分類器實際上將產生 p 個分佈機率圖,每個分佈機率圖對應一個預先定義好的部件。這個分佈機率圖以 soft mask 的形式,直接指示出各個部件的位置。如果一個部件實際上不可見,那麼對應於它的分佈機率圖應該處處為零,即各個畫素屬於這個部件的機率很小。

 

自然地,把各個機率圖加起來,即可得到相應的區域可見性得分 C。這個做法非常直觀:如果一個部件的分佈機率圖處處很小,那麼這個部件可見性則很低(即可能不可見)。

 

部件特徵提取器

 

得到部件的機率分佈圖後,就可以簡單地利用帶權池化提取部件特徵。公式同樣很簡單:

 

             

 

再次強調,透過上述公式,VPM 會給每個預先定義好的部件產生一個特徵,即使某個部件實際不可見,但這沒關係,因為實際上已知道這個部件不可見,因此可不採信這個部件特徵。具體如下節介紹。

使用 VPM

 

給定兩幅待比較的影象,VPM 將提取其部件特徵,並分別預測所有部件的可見性分數,即。為了度量兩幅影象的相似性,首先計算各個部件之間的歐氏距離。在部件距離的基礎上,結合部件可見性得分,VPM 能夠推導兩幅影象間的總體距離:

 

       

      

上式的效果是:採信可見區域之間的距離,忽視不可見區域之間的距離。換而言之,可見部件的距離將主導總體距離;相反,如果一個部件在任何影象中沒出現,那麼其部件特徵則被認為不可靠,無法對產生明顯影響。

 

這樣的呼叫過程非常高效:與 PCB 這種實用方法相比,VPM 僅僅增加了一層摺積運算用於預測部件可見性,計算距離則幾乎不增加時間(僅僅多了公式 4 所示的加權平均)。這使得 VPM 成為了為數不多的、能夠在 Market-1501 資料集上開展 partial re-ID 實驗的方法(也具有在大規模實際資料集上應用的潛力)。

訓練 VPM

 

VPM 的訓練包含 1)部件定位器的訓練和 2)部件特徵提取器的訓練。兩者在 Tensor T 之前共享摺積層,並以多工的方式被端到端訓練。部件定位器的訓練依靠自監督學習,而訓練部件特徵提取器也需要自監督訊號進行輔助。由實驗可知,自監督學習對 VPM 的效能至關重要。

 

自監督

 

自監督對於 VPM 十分關鍵,它監督 VPM 學習部件定位器,並要求 VPM 在學習部件特徵時,放棄對不可靠的部件特徵的監督,僅僅對可見區域施加監督。

 

部件定位器的訓練類似 Segmentation 訓練,這裡僅強調一下:Label 資訊由自監督產生。部件特徵的學習雖然也採用了常用的分類+度量學習聯合訓練,但需要做一些重要調整,如圖 3 所示。

 

 圖3:VPM透過輔助性自監督學習區域特徵   

 

由於 VPM 會為所有部件分別生成一個部件特徵,這導致在學習特徵時出現一個非常重要的問題:只有可見部件的特徵被允許貢獻訓練損失。藉助自監督訊號,曠視研究員動態地為特徵學習選擇可見區域。實驗結果表明,如果不加區分地對所有部件特徵施加監督,re-ID 準確率將劇烈降低。

 

總結一下,自監督對訓練 VPM 的貢獻體現在 3 個方面:

 

1. 自監督生成 pixel-wise 的部件標簽用以訓練部件定位器(類似於 Segmentation);

 

2. 在利用分類損失函式(Softmax Loss)學習部件特徵時,自監督使 VPM 僅僅關註可見部件;

 

3. 利用度量學習(Triplet)學習部件特徵時,自監督使 VPM 專註於影象的共有區域。

實驗

 

大規模資料集實驗

 

本文首先利用兩個大型全身 re-ID 資料集(Market-1501 和 DukeMTMC-reID)合成相應的部分成像 re-ID 資料集上的實驗評估 VPM 的有效性。

 

本文用了兩種基線作為對比:首先是一個學習全域性特徵的基線,它是利用分類損失函式和三元組損失函式聯合訓練的;第二個基線則是非常流行的全身部件特徵模型 PCB。實驗結果如表 1 所示,可以看到 VPM 相對這兩種基線都有明顯提高。

       

  表1:VPM、baseline與PCB之間的對比      

 

對比 SOTA

 

本文在兩個公開資料集 Partial-REID 和 Partial-iLIDS 把 VPM 與當前最佳方法做了對比。本文訓練了 3 個版本的 VPM:1)VPM(bottom),訓練時總是丟棄隨機比例的上半身,而下部區域可見;2)VPM(top),訓練時總是丟棄隨機比例的下半身,而影象的上部區域總是可見;3)VPM(bilateral),訓練時,影象的上部和下部區域都有可能被隨機比例丟棄。對比結果如表 2 所示。

 

 表2:VPM在Partial-REID和Partial-iLIDS上的評估結果

 

可以看到,訓練時的 crop 策略對效能是有影響的,VPM(bottom)結果比較差。這是因為首先大部分資料集以及在實際情況中,大部分影象是下半身缺失,而上半身可見,VPM(bottom)在訓練時的策略相反,背離了現實;此外,一般來講,上半身能夠提供的可鑒別線索本身就更為豐富。

 

文中還進行了一些其它有意思的實驗,例如透過 Ablation Study 分析各個環節中自監督對 VPM 效能的影響,VPM 定位各個部件的視覺化實驗。

結論

  

本文提出一個基於可見部件感知的行人特徵學習方法——VPM,它可解決區域性成像下的行人再識別問題。延續 PCB 的思路,VPM 沒有採用語意部件這種直觀做法,而是採用了均勻分割產生若干預定義的部件。透過自監督學習,VPM 能夠感知哪些部件可見、哪些部件缺失,並決定應該如何具體對比兩幅影象。實驗結果表明,VPM 同時超越了全域性特徵學習基線和部件特徵學習基線,併在公開的 partial re-ID 資料集上取得了國際領先水平。

 

參考文獻

 

L. He, J. Liang, H. Li, and Z. Sun. Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach. CoRR, abs/1801.00881, 2018.

Y. Sun, L. Zheng, Y. Yang, Q. Tian, and S. Wang. Beyond part models: Person retrieval with refined part pooling. In ECCV, 2018.

L. Zhao, X. Li, J. Wang, and Y. Zhuang. Deeply-learned part-aligned representations for person re-identification. In ICCV, 2017. 

L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian. Scalable person re-identification: A benchmark. In ICCV, 2015.

L. Zheng, Y. Yang, and A. G. Hauptmann. Person re-identification: Past, present and future. arXiv preprint arXiv:1610.02984, 2016.

W. Zheng, S. Gong, and T. Xiang. Person re-identification by probabilistic relative distance comparison. In The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011, Colorado Springs, CO, USA, 20-25 June 2011, 2011.

W. Zheng, X. Li, T. Xiang, S. Liao, J. Lai, and S. Gong. Partial person re-identification. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, December 7-13, 2015, 2015.

Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In ICCV, 2017. 

 

傳送門

 

歡迎各位同學關註曠視研究院影片分析組(以及知乎專欄「曠視Video組」:https://zhuanlan.zhihu.com/r-video),簡歷可以投遞給負責人張弛zhangchi@megvii.com)。

贊(0)

分享創造快樂