SFOD：無源域適配升級優(yōu)化，讓檢測模型更容易適應(yīng)新數(shù)據(jù)

發(fā)布人：CV研究院時間：2022-06-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

論文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Li_Source-Free_Object_Detection_by_Learning_To_Overlook_Domain_Style_CVPR_2022_paper.pdf

無源目標(biāo)檢測 (SFOD) 需要將在標(biāo)記的源域上預(yù)訓(xùn)練的檢測器調(diào)整到目標(biāo)域，只有來自目標(biāo)域的未標(biāo)記訓(xùn)練數(shù)據(jù)。

技術(shù)簡要

無源目標(biāo)檢測 (SFOD) 需要將在標(biāo)記的源域上預(yù)訓(xùn)練的檢測器調(diào)整到目標(biāo)域，只有來自目標(biāo)域的未標(biāo)記訓(xùn)練數(shù)據(jù)?，F(xiàn)有的SFOD方法通常采用偽標(biāo)簽范式，模型自適應(yīng)在預(yù)測偽標(biāo)簽和微調(diào)模型之間交替進行。

由于域偏移的存在和目標(biāo)域訓(xùn)練數(shù)據(jù)的使用有限，這種方法的偽標(biāo)簽準(zhǔn)確性不令人滿意。如上圖所示。

在今天分享中，研究者提出了一種新穎的Learning to Overlook Domain Style(LODS) 方法，該方法以有原則的方式解決了這些限制。研究者的想法是通過強制模型忽略目標(biāo)域樣式來減少域轉(zhuǎn)移效應(yīng)，從而簡化模型適應(yīng)并變得更容易進行。

為此，增強了每個目標(biāo)域圖像的風(fēng)格，并利用原始圖像和增強圖像之間的風(fēng)格度差異作為模型適應(yīng)的自監(jiān)督信號。通過將增強圖像視為輔助視圖，利用學(xué)生教師架構(gòu)來學(xué)習(xí)忽略與原始圖像的風(fēng)格程度差異，其特征還在于新穎的風(fēng)格增強算法和圖形對齊約束。大量實驗表明LODS在四個基準(zhǔn)測試中產(chǎn)生了新的最先進的性能。

背景概述

目前，關(guān)于SFOD問題的研究不多。社區(qū)更加關(guān)注無源域適配（SFDA）。SFDA的方法大致可以分為兩類。

第一類是基于樣本生成的思想：

由于源數(shù)據(jù)不可訪問，傳統(tǒng)的域適應(yīng)技術(shù)不適用。生成具有源域樣式或目標(biāo)域樣式的標(biāo)記圖像，或服從源分布的標(biāo)記特征。成功的關(guān)鍵是滿意的樣本生成，這本身就具有足夠的挑戰(zhàn)性并且沒有很好地解決。

另一類利用基于自我訓(xùn)練的偽標(biāo)簽：

獲得可靠的標(biāo)簽并不容易，尤其是在領(lǐng)域差距很大的情況下，在自訓(xùn)練過程中總是只取高置信度的標(biāo)簽樣本。

很明顯，目標(biāo)域風(fēng)格（例如成像特征）對域相對于源域的遷移有很大貢獻。因此，最小化目標(biāo)域樣式對模型行為的影響將立即有效地減少域轉(zhuǎn)移。在上述基礎(chǔ)上，如剛開始的圖所示，提出了一種新的領(lǐng)域適應(yīng)方法（LODS）。

它首先增強每個目標(biāo)圖像的目標(biāo)域風(fēng)格，同時保持目標(biāo)圖像的原始風(fēng)格。這樣就構(gòu)建了基于風(fēng)格增強圖像的輔助視圖。有了這個輔助視圖，新方法讓目標(biāo)檢測器學(xué)會忽略目標(biāo)域樣式。學(xué)生-教師框架被用來完成這項任務(wù)。

新框架分析

提出的LODS方法由兩部分組成。如下圖所示，一個是style enhancement module；另一個是overlooking style module。

style enhancement module（上圖(a)）首先提取每個圖像的風(fēng)格，即通道均值和方差。對于一幅圖像，其增強的目標(biāo)域風(fēng)格被計算為它本身和任何目標(biāo)圖像的風(fēng)格的非線性組合。然后，通過替換增強樣式來增強樣式。通過將風(fēng)格增強圖像視為另一個領(lǐng)域，可以使用Mean-Teacher框架來利用風(fēng)格差異進行模型適應(yīng)（圖(b)）。目標(biāo)圖像和風(fēng)格增強版本分別輸入教師和學(xué)生模型。這兩個模型基于Faster-RCNN并初始化為預(yù)訓(xùn)練的源模型?；趫D匹配的類實例級對齊和圖像級對齊旨在幫助教師和學(xué)生相互學(xué)習(xí)。偽標(biāo)簽也用于增加學(xué)生模型的辨別力。

基于上述推斷，研究者設(shè)計了一個風(fēng)格增強模塊，如上圖所示。兩個網(wǎng)絡(luò)F1和F2分別設(shè)計為近似δ1和δ2。它們中的每一個都由兩個全連接層和一個ReLU層組成，具有最小的參數(shù)是非線性的。特征編碼器E源自預(yù)訓(xùn)練的VGG-16模型，并在訓(xùn)練和測試期間固定。****D是編碼器的逆。由于風(fēng)格一致性受限于底層特征，編碼器E = E2 ?E1進一步分為E1和E2部分，其中?是函數(shù)嵌套算子。****D = D2 ? D1作為D1和D2也是如此。具體來說，第一次下采樣后的第一個ReLU層是分割E的分割線。D被對稱分割為E。

實驗可視化