導讀:網際網路的內容繁雜,一不小心就會看到一些“辣眼睛”的內容,比如裸女,這也是為什麼我們需要審核人員的存在。當然,受益於 AI 技術的發展,現在很多審核工作已經自動化了。不過,僅僅識別出來還不夠,要是能為她們穿上衣服就更好了。
來源:人工智慧頭條(ID:AI_Thinker)
南大河州天主教大學(Pontifícia Universidade Católica do Rio Grande do Sul)是巴西南大河州的一所天主教私立大學,這裡的研究人員為了不讓那些裸露的圖片汙染大眾的眼睛煞費苦心,特意開發了一種技術,為裸女們自動“穿”上比基尼。當然,這也是為了她們好,畢竟裸照在網上流傳並不是一件好事。
下麵,我們就為大家簡單介紹下這項工作。
01 摘要
我們可以將裸體和色情資訊的審查工作視為二分類任務,分類的結果用於決定是否能夠完全忽略所訪問的內容。這樣的方法可能會損害使用者的體驗,因為無論是影象還是影片,最終都必須被移除或者阻斷。
在本文中,我們提出了一種正規化轉換來過濾掉影象中的一些敏感區域,而不是檢測並移除識別的內容,並將其用於成人審查任務。為此,我們基於對抗訓練的方法開發了一種影象翻譯技術,它能夠隱式地定位出影象中的敏感區域,併在保留語意資訊的同時改寫該區域。
我們在裸體女性影象上測試這種新穎的方法,我們的方法能夠為裸體自動進行生成比基尼並改寫敏感部位,而不需要額外標註身體部位的工作。
02 方法
我們將敏感內容區域 X 的影象 x (包含女性裸體影象) 翻譯到非敏感內容域 Y 的影象 y (包含比基尼女性的影象),這個過程我們在保留敏感區域語意資訊的同時,用比基尼改寫了影象中的敏感區域。此任務所需的資料很容易獲得,分別來自影象 X 和 Y 域,且不需要特殊資料標註。我們使用的兩個域資料是從網上爬取的,包括裸體女性和穿比基尼女性的照片。
我們對結果進行過濾,僅保留單個人出現的影象並將該資料集進一步分為訓練和測試集。對於穿比基尼女性 (X),最終有 1044 張訓練影象和 117 張測試影象;而對於裸體女性 (Y),最終有 921 張訓練影象和 103 張測試影象。
我們提出的方法在影象轉換過程無需資料配對,其模型結構如下圖 1 所示。該模型的關鍵思想在於利用對抗性訓練的方式來學習域之間的現實對映。
具體來說,框架由兩個對映生成器組成,G:X → Y 和 F:Y → X 和兩個判別器 DX和DY 構成。其中 DX 用於區分真實影象 {x} 和翻譯影象 {F (y)} = {^x},而 DY 用於區分真實影象 {y} 和翻譯的影象 {G(x)} = {^y}。
我們採用了 LSGANs 中的損失函式,它能夠更穩定的訓練以產生不錯的結果表現。為了很好地衡量跨領域影象的相似度,我們還探索了 cycle-consistent 的性質並用於衡量影象翻譯結果的質量。
▲圖1
我們的判別器採用標準的多層次摺積濾波結構。除了第一層和最後一層外,我們採用 Leaky ReLU 作為每層摺積的啟用函式併進行實體正則化 (instance normalization, IN)。
對於生成器,我們測試了兩種流行的結構。首先我們測試了 9-Blocks ResNet 結構的生成器,這種結構由帶殘餘連線的自編碼器構成,我們在每層的摺積後採用 ReLU 啟用函式和 IN 正則化。
此外,我們還採用了 U-Net 256 結構的生成器。U-Net 由一個帶殘餘連線的自動編碼器構成,它能夠在相同的空間維度上進行殘餘操作。同樣地,我們也採用 IN 正則化,並對編碼器採用 Leaky ReLU 啟用函式,而解碼器採用 ReLU 啟用函式。
03 實驗結果
我們模型的訓練解析度為 256×256 畫素。生成器和判別器都同時採用梯度下降法進行訓練,每個訓練步驟分別更新 DY,DX,以及 G 和 F 的權重。
我們使用 Adam 最佳化器,學習率為0.0002,β1 = 0.5,β2 = 0.99,並將 cycle consistent 項的權重值設為10。我們的網路以批次 1 重覆訓練 400 步,學習率隨著訓練的進行而線性衰減。此外,每 100 秒我們將翻譯的影象進行視覺化以檢視實驗結果。
1. 原始資料集的結果
下圖 2 展示了我們的方法在原始資料集中的結果。可以看到,與 U-Net 方法 (第三排) 相比,採用 ResNet 作為生成器結構 (第二排) 時始終能夠產生更好的結果。
▲圖2:在原始資料集上的訓練結果。頂行:真實影象 (手動刪除以保護讀者)。中間行:使用 9-Blocks esNet 結構的生成器結果。底行:使用 U-Net 256 結構的生成器結果 (產生模糊、令人不滿意的結果)。
2. 移除背景後的結果
下圖3顯示了我們的方法在無背景資料集上的結果。可以看到,這些結果比圖2原始資料集中的結果更加一致。基於 ResNet 結構的模型表現更優於 U-Net 結構,它能夠透過生成敏感性的影象元件來正確改寫真實的比基尼區域。此外,ResNet 結構模型生成的影象失真度更低。
▲圖3:在無背景資料集上的結果。頂行:真實影象 (手動刪除以保護讀者)。間行:使用9-Blocks esNet 結構的生成器結果。底行:使用 U-Net 256 結構的生成器結果 (產生模糊、令人不滿意的結果)。
04 魯棒性結果分析
▲圖5:魯棒性分析。左:真實影象;右:由生成器 F 建立的最小修改圖。
05 結論
本文我們提出了一種基於對抗訓練的影象翻譯技術,用於隱式地定位裸體影象中的敏感區域併在保留其語意資訊的同時改寫該區域。我們的方法不需要訓練樣本的配對工作,在實驗驗證過程中產生令人印象深刻而又高度逼真的結果,為解決裸體影象審查任務提供了一種新方法。
對於未來的工作,我們打算分析影響生成影象質量的不同模型架構和損失函式,並將我們的方法嵌入到瀏覽器應用程式中以保護公眾,避免看到那些不受歡迎的內容。
最後一天!
7月20日-24日
噹噹計算機圖書全場每滿100減50
經典好書都在滿減範圍內
劃!重!點!
噹噹網特意為【大資料】使用者準備了
“滿99減10”的優惠券
可與“滿100減50”活動疊加使用!
在付款時填寫優惠碼:J44SR2
即可享受雙重優惠
數量有限,先用先得
在大資料公眾號後臺回覆0720檢視詳情
長按下方二維碼進入活動連結
在下方推薦閱讀中檢視更多書單&書摘
不要錯過!
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞
檢視更多優質內容!
PPT | 報告 | 讀書 | 書單 | 乾貨
Python | 機器學習 | 深度學習 | 神經網路
區塊鏈 | 揭秘 | 高考 | 福利
推薦閱讀
Q: 穿上比基尼的小姐姐更好看了嗎?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視