全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)將於 6 月 16-20在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每週會推出一篇 CVPR’19 接收論文解讀文章。本文是第 5 篇,曠視南京研究院提出了一種基於圖摺積網路的多標簽識別模型 ML-GCN 以及一種構建相關係數矩陣的二次加權方法。
論文名稱:Multi-Label Image Recognition with Graph Convolutional Networks
論文連結:https://arxiv.org/abs/1904.03582
-
導語
-
介紹
-
方法
-
動機
-
圖摺積網路簡介
-
用於多標簽識別的GCN
-
相關係數矩陣
-
-
實驗
-
MS-COCO實驗結果
-
VOC 2007實驗結果
-
分類器視覺化
-
在影象檢索上的表現
-
-
結論
-
參考文獻
-
往期解讀
導語
多標簽影象識別(multi-label image recognition)任務的標的是預測一張影象中出現的多個物體標簽,其在搜尋引擎、推薦系統中應用廣泛,長期以來作為計算機視覺和機器學習領域一項基礎研究課題備受學界業界關註。
由於多個相關物體通常同時出現在一副影象之中,因此提升識別效能的一個理想方法就是針對多標記識別的核心問題,即“如何有效建模標記間的協同關係”進行探索,對標簽之間的依賴性進行有效建模。
為獲取和利用這種依賴性,曠視研究院提出一種基於圖摺積網路(Graph Convolutional Network,GCN)的多標簽分類模型。該模型透過 data-driven 方式建立標記間有向圖(directed graph)並由 GCN 將類別標記對映(mapping)為對應類別分類器,以此建模類別關係,同時可提升表示學習能力。
此外針對 GCN 中的關鍵元素 correlation matrix 進行了深入分析和重設計,使其更勝任多標記問題。在兩個多標簽影象識別權威資料集上的實驗結果顯示,ML-GCN 明顯優於目前所有的最佳方法。另外,視覺化結果顯示,模型習得的分類器還能保持有意義的語意拓撲結構。
介紹
多標簽影象識別是計算機視覺領域的一項基本任務,其標的是識別影象中存在的一系列物件。這項技術可應用於醫學診斷識別、人類屬性識別和零售識別等諸多領域。相比於多類別影象分類,多標簽任務的難度更大,因為其輸出空間隨著類別數目呈指數增大。
▲ 圖1:透過構建標的標簽的有向圖來建模標簽依賴性
由於現實世界中很多物體通常會同時出現,因此對標簽之間的相關性進行建模就成了多標簽影象識別的關鍵,如圖 1 所示。
解決多標簽識別問題的一個樸素方法是分離地看待各個標的,透過將多標簽問題轉換成多組二值分類問題,預測每個標的是否存在。由於深度摺積神經網路在單標簽影象分類上取得的巨大成功,二值分類的效能已得到極大提升。
但是這些方法忽視了物體之間複雜的拓撲結構,因此在本質上有侷限性。正是這個缺陷促使研究員尋找能夠獲取並從多個角度探索標簽之間相關性的方法。其中的部分方法基於機率圖模型或迴圈神經網路(RNN),可顯式地對標簽依賴性進行建模。
另一個研究方向是透過註意力機制來對標簽相關性進行隱式建模。該方法考慮的是影象中被註意區域之間的關係(可視為區域性相關性)。不過即便如此,該方法還是忽略了影象中標簽之間的全域性相關性(全域性相關性需要透過單張影象之外的知識才能推斷出來)。
為此,曠視研究院提出基於圖摺積網路(GCN)的全新模型,即 ML-GCN(Multi-Label Graph Convolutional Network),用於建立多標簽之間的相關性,該方法有其它方法無法具備的擴充套件性和靈活性。
除了將標的分類器視為一組待學習的獨立引數向量外,曠視研究院還提出一種可從標簽的先驗特徵(如詞嵌入向量)學習相互依賴的標的分類器方法,它透過一個基於 GCN 的對映函式來實現。隨後,生成的分類器再被應用於由另一個子網路生成的影象特徵,以實現端到端訓練。
由於這些從詞嵌入向量到分類器的對映引數是在所有類別(如影象標簽)之間共享,因此來自所有分類器的梯度都會影響這個基於 GCN 的分類器生成函式。這可以對標簽的相關性進行隱式建模。此外,由於分類器的學習涉及到對標簽相關性的建模,因此本文設計了一個有效的標簽相關係數矩陣,來引導資訊在 GCN 各個節點之間的傳遞。
方法
本節將介紹這一新提出的多標簽影象識別模型 ML-GCN。首先是這一方法的動機,接著是一些圖摺積網路初步知識,最後是 ML-GCN 模型以及用於相關係數矩陣構建的二次加權方法。
動機
如何有效獲取標的標簽之間的相關性?如何利用這些標簽相關性提升分類表現?這是多標簽影象識別的兩個重要問題。本文使用圖(graph)來對標簽之間的相互依賴關係進行建模。這種方法能夠靈活地獲取標簽空間中的拓撲結構。
曠視研究員將圖中的每個節點(標簽)都表示為該標簽的詞嵌入向量,並提出使用 GCN 直接將詞嵌入向量對映到一組互相依賴的分類器上,這些分類器進一步又可直接應用於影象特徵以進行分類。基於 GCN 的模型有兩個設計動機:
1. 由於從詞嵌入向量到分類器的對映引數在所有類別中是共享的,所以習得的分類器能夠在詞嵌入空間中(語意相關的概念在詞嵌入空間中彼此臨近)保留較弱的語意結構。與此同時,對於可以對標簽依賴性進行隱式建模的分類器函式,所有分類器的梯度都會對它產生影響。
2. 基於標簽的共現樣式,曠視研究員設計了一個全新的標簽相關係數矩陣,可顯式地用 GCN 建模標簽相關性,讓節點的特徵在更新時也能從相關聯的節點(標簽)吸收資訊。
圖摺積網路簡介
圖摺積網路可用於進行半監督分類任務,其核心思想是透過節點之間的資訊傳播來更新節點的表示。
不同於在一張影象區域性歐氏結構之上進行操作的標準摺積方法,GCN 的標的是學習一個圖 G 的函式 f(., .)。該函式的輸入是特徵描述和相關係數矩陣,從而把節點特徵更新為。每個 GCN 層都可以寫成一個非線性函式:
f (., .) 可以表示為:
如此一來,便可以透過堆疊多個 GCN 層來對節點之間交織的複雜關係進行建模。
用於多標簽識別的GCN
GCN 的設計初衷是半監督分類,其節點層面的輸出結果是每個節點的預測分數。不同的是,在 ML-GCN 中,每個 GCN 節點的最終輸出都被設計成與標簽相關的分類器。此外,不同於其它任務,這裡的多標簽影象分類任務沒有提供預定義的圖結構(即相關係數矩陣)。這需要從頭構建相關係數矩陣。
圖 2 展示了該方法的整體架構,它包含兩個主要模組:影象特徵學習模組和基於 GCN 的分類器學習模組。
▲ 圖2:用於多標簽影象識別的ML-GCN模型整體框架
影象特徵學習:原則上可使用任意基於 CNN 的模型學習影象特徵。本文在實驗中使用 ResNet-101 作為實驗基礎模型;然後應用全域性最大池化獲取影象層面的特徵 x:
GCN 分類器學習:透過一個基於 GCN 的對映函式從標簽特徵學習相互依賴的標的分類器。曠視研究員使用堆疊 GCN,其中每個 GCN 層 I 的輸入都取前一層的節點特徵作為輸入,然後輸出新的節點特徵。第一層的輸入是詞嵌入向量,矩陣最後一層的輸出是分類器。
透過將所學到的分類器應用於影象特徵,得到預測分數:
假設一張影象的真實標簽是,那麼整個網路可使用傳統多標簽分類的損失函式來訓練,如下:
相關係數矩陣
基於相關係數矩陣,GCN 可在節點之間進行資訊傳遞,因此如何構建相關係數矩陣 A 就成了GCN 模型中一個非常重要的問題。曠視研究員在本文中以資料驅動的方式構建了一個相關係數矩陣,換句話說,相關性可以透過挖掘標簽在資料集中的共現樣式而來定義。
本文以條件機率的形式(即)對標簽的相關依賴性進行了建模。如圖 3 所示, 不等於,因此相關係數矩陣不是對稱的。
▲ 圖3:兩個標簽之間的條件機率示意
為構建相關係數矩陣,本文首先統計了訓練資料集中標簽對的出現次數,得到矩陣,然後使用這個標簽共現矩陣得到條件機率矩陣:
然而,上面這種簡單的相關性可能有兩個缺陷。首先,一個標簽和其它標簽的共現樣式可能表現為長尾分佈,其中某些罕見的共現可能是噪聲;其次,訓練和測試中共現的絕對數可能並不完全一致。因此,本文提出對相關係數矩陣進行二值化處理。具體而言,研究人員將閾值 T 用於過濾噪聲邊,其中 A 是二值相關係數矩陣:
過度平滑問題:根據 (2) 式可以知道,經過 GCN 後,一個節點的特徵是其自身特徵和相鄰節點特徵的加權和。而二值化相關係數矩陣的一個直接問題是其可能導致過度平滑。為了緩解這一問題,本文提出以下二次加權方法:
透過這種做法,在更新節點特徵時,節點本身的權重是固定的,相關節點的權重則由鄰近分佈確定。當 p→1 時,不考慮節點本身的特徵;當 p→0 時,往往忽略相鄰資訊。
實驗
多標簽影象識別基準資料集 MS-COCO 和 VOC 2007 上的實驗結果表明,本文方法實現當前最優。
MS-COCO實驗結果
對於 ML-GCN,曠視研究員給出了基於二值相關係數矩陣與基於二次加權相關係數矩陣兩個版本的結果,後者的分類表現更好,可以有效緩解上述問題,從而在幾乎所有指標上領先其它方法,這證明瞭新提出的網路與二次加權法的有效性。具體實驗結果見表 1。
▲ 表1:在MS-COCO資料集上ML-GCN與之前最佳方法的比較
VOC 2007實驗結果
為公平對比,曠視研究員給出了以 VGG 為基本模型的結果。由表 2 可知,使用權重更新方案的 ML-GCN 模型在 mAP 指標上得到 94% 的分數,高出先前最優方法 2%。此外,即使以 VGG 為基礎模型,仍然超出先前最佳水平 0.8%。
▲ 表2:在VOC 2007資料集上ML-GCN與之前最佳方法的AP與mAP比較
分類器視覺化
曠視研究員對採用 ML-GCN 模型習得的分類器與由 vanilla ResNet(即最後一個全連線層的引數)得到的基本分類器進行了視覺化分析。結果如圖 8 所示。可以清楚看到,由新提出的方法學習到的分類器能夠維持語意的拓撲結構。
▲ 圖8:在MS-COCO上新模型學習到的互相依賴型分類器與ResNet的基本分類器的視覺化
在影象檢索上的表現
進一步,曠視研究員考察了新模型在影象特徵上的學習能力,透過使用 k-NN 演演算法執行基於內容的影象檢索驗證由新模型習得的影象特徵的鑒別能力,結果表明(見圖 7),ML-GCN 不僅能透過有效獲取標簽依賴性學習更好的分類器,而且還能有助於多標簽的影象特徵學習。
▲ 圖7:使用查詢影象得到的排名前五的結果
結論
標簽相關性建模是多標簽影象識別的一大關鍵問題。為建模和利用這種重要資訊,曠視研究院提出基於 GCN 的模型來根據先驗的標簽特徵(比如詞嵌入向量)學習互相依賴的標的分類器。
為了對標簽相關性進行顯式建模,文中設計了一種全新的二次加權方法,可透過平衡節點與其相鄰節點來為 GCN 構建一個相關係數矩陣,以更新節點特徵,從而有效緩解了妨礙 GCN 效能的兩大問題:過擬合與過度平滑。定量和定性實驗結果都表明新方法的優越性。
傳送門
歡迎各位同學加入曠視南京研究院,簡歷可以投遞給南京研究院負責人魏秀參博士。
郵箱:weixiushen@megvii.com
參考文獻
[1] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
[2] Thomas N. Kipf, and Max Welling. Semi-supervised classification with graph convolutional networks. In ICLR, pages 1–10, 2017.
[3] Chung-Wei Lee, Wei Fang, Chih-Kuan Yeh, and YuChiang Frank Wang. Multi-label zero-shot learning with structured knowledge graphs. In CVPR, pages 1576–1585, 2018.
[4] Xiu-Shen. Wei, Quan Cui, Lei Yang, Peng Wang, and Lingqiao Liu, “RPC: A large-scale retail product checkout dataset,” arXiv preprint arXiv:1901.07249, pages. 1–9, 2019.
[5] Zhao-Min Chen, Xiu-Shen Wei, Xin Jin, Yanwen Guo. Multi-label Image Recognition with joint Class-aware Map Disentangling and Label Correlation Embedding. In ICME, pages 1-6, 2019.
朋友會在“發現-看一看”看到你“在看”的內容