歡迎光臨
每天分享高質量文章

ECCV 2018 | 美圖雲聯閤中科院提出基於互動感知註意力機制神經網路的行為分類技術

以往註意機制模型透過加權所有區域性特徵計算和提取關鍵特徵,忽略了各區域性特徵間的強相關性,特徵間存在較強的資訊冗餘。為解決此問題,來自美圖雲視覺技術部門和中科院自動化所的研發人員借鑒 PCA(主成分分析)思想,提出了一種引入區域性特徵互動感知的自註意機制模型,並將模型嵌入到 CNN 網路中,提出一個端到端的網路結構。該演演算法在多個學術資料集和美圖公司內部工業界影片資料集上的行為分類表現都非常出色。基於該演演算法思想的相關論文「Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification」已被 ECCV 2018 收錄,下文將從背景、核心思想、效果和應用前景幾個方面進行介紹。

一、背景


深度摺積神經網路中,特徵圖裡相鄰空間位置的區域性通道特徵,往往由於它們的感受野重疊而具有很高的相關性。自註意機制模型通常利用每個區域性特徵內部元素的加權和(或其他函式)來獲得其權重得分,此權重用於加權所有區域性特徵獲取關鍵特徵。儘管區域性特徵之間具有很高的相關性,但此權重計算並沒有考慮到它們之間的相互作用。


PCA 可以提取全域性特徵主要維度的主成分資訊,而這些主成分資訊可以看作是提取的區域性特徵,最後降維後的全域性特徵即是關鍵區域性特徵的集合。註意機制的目的是從區域性特徵集合中提取關鍵部分,也就是 PCA 中的區域性特徵。不同的是註意力機制使用每個區域性特徵對應的加權得分來計算最終的全域性特徵。PCA 利用協方差矩陣來獲得降維(或加權權重)的基向量,從而減少特徵間的資訊冗餘和噪聲。基於以上背景,該團隊使用 PCA 來指導提出的註意力模型,並透過將 PCA 演演算法轉換成損失設計實現。此外,由於深度網路中的不同層可以捕獲不同尺度的特徵圖,演演算法使用這些特徵圖來構造空間金字塔,利用多尺度資訊來計算每個區域性通道特徵更精確的註意力分數,這些權重得分用於在所有空間位置中對區域性特徵進行加權。

二、核心思想


本論文定義了一個新的互動感知時空金字塔註意力層,以此實現輸入在深度摺積神經網路中各個層的不同尺度區域性特徵的互動感知和時空特徵融合的功能。它的架構如上圖所示,演演算法首先定義了一個下取樣函式 R, 將不同層的特徵圖統一到一個尺度。接著對不同尺度的特徵圖的區域性通道特徵使用註意力機制進行關鍵特徵提取,透過使用融合函式對不同尺度的特徵進行融合,並計算每個區域性特徵的註意力得分,用於加權特徵。

 

在 PCA 中使用協方差矩陣計算投影向量並依此進行降維,即提取關鍵的區域性特徵,本論文將其轉化損失函式的設計加入到最終的模型中:

 

再對提出的空間金字塔註意力模型進行約束,使其不同尺度層的特徵圖儘量關註到不同的資訊,加入分類損失得出最終的損失函式:


論文提出的模型引數與輸入特徵圖的數目無關,因此,自然地將其拓展到影片級端到端訓練的時空網路,最終的網路結構定義如下圖:


三、效果


 研發人員將提出的基於互動感知的時空金字塔註意力機制神經網路演演算法應用於美圖公司的影片相關業務進行人物行為分類,效果表現優異。除此之外在公開資料集 UCF101、HMDB51 和無裁剪行為資料庫 Charades 上進行了評測,也取得了領先效果,結果如下圖所示 :


此外,該論文對影片時空輸入進行了評測,評測結果顯示出該模型能夠同時處理任意數量的影片幀輸入,並取得較好的實驗結果。



上圖給出了該演演算法在進行行為分類時的視覺化輸出結果,可以看出該演演算法能夠對影片中關鍵的行為進行精確定位。

四、展望


實際應用中,業務場景對演演算法的執行時間要求較嚴苛。本論文在公開資料集上的結果均透過擷取影片中的多幀得到,時間複雜度較高,後續會以降低演演算法時間複雜度為標的對核心模組進行最佳化。值得註意的是,本論文提出的空間金字塔註意力模型不受其輸入特徵圖數量的限制,因此它很容易擴充套件到一個可以相容任意數量的輸入幀的時空版本,在應用中可以在分類準確率幾乎不受影響的前提下,透過減少截幀數提升處理速度。

關於PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 加入社群刷論文

贊(0)

分享創造快樂