SFOD:無(wú)源域適配升級(jí)優(yōu)化,讓檢測(cè)模型更容易適應(yīng)新數(shù)據(jù)
論文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Li_Source-Free_Object_Detection_by_Learning_To_Overlook_Domain_Style_CVPR_2022_paper.pdf
無(wú)源目標(biāo)檢測(cè) (SFOD) 需要將在標(biāo)記的源域上預(yù)訓(xùn)練的檢測(cè)器調(diào)整到目標(biāo)域,只有來(lái)自目標(biāo)域的未標(biāo)記訓(xùn)練數(shù)據(jù)。
01
技術(shù)簡(jiǎn)要
無(wú)源目標(biāo)檢測(cè) (SFOD) 需要將在標(biāo)記的源域上預(yù)訓(xùn)練的檢測(cè)器調(diào)整到目標(biāo)域,只有來(lái)自目標(biāo)域的未標(biāo)記訓(xùn)練數(shù)據(jù)?,F(xiàn)有的SFOD方法通常采用偽標(biāo)簽范式,模型自適應(yīng)在預(yù)測(cè)偽標(biāo)簽和微調(diào)模型之間交替進(jìn)行。
由于域偏移的存在和目標(biāo)域訓(xùn)練數(shù)據(jù)的使用有限,這種方法的偽標(biāo)簽準(zhǔn)確性不令人滿意。如上圖所示。
在今天分享中,研究者提出了一種新穎的Learning to Overlook Domain Style(LODS) 方法,該方法以有原則的方式解決了這些限制。研究者的想法是通過(guò)強(qiáng)制模型忽略目標(biāo)域樣式來(lái)減少域轉(zhuǎn)移效應(yīng),從而簡(jiǎn)化模型適應(yīng)并變得更容易進(jìn)行。
為此,增強(qiáng)了每個(gè)目標(biāo)域圖像的風(fēng)格,并利用原始圖像和增強(qiáng)圖像之間的風(fēng)格度差異作為模型適應(yīng)的自監(jiān)督信號(hào)。通過(guò)將增強(qiáng)圖像視為輔助視圖,利用學(xué)生教師架構(gòu)來(lái)學(xué)習(xí)忽略與原始圖像的風(fēng)格程度差異,其特征還在于新穎的風(fēng)格增強(qiáng)算法和圖形對(duì)齊約束。大量實(shí)驗(yàn)表明LODS在四個(gè)基準(zhǔn)測(cè)試中產(chǎn)生了新的最先進(jìn)的性能。
02
背景概述
目前,關(guān)于SFOD問(wèn)題的研究不多。社區(qū)更加關(guān)注無(wú)源域適配(SFDA)。SFDA的方法大致可以分為兩類。
第一類是基于樣本生成的思想:
由于源數(shù)據(jù)不可訪問(wèn),傳統(tǒng)的域適應(yīng)技術(shù)不適用。生成具有源域樣式或目標(biāo)域樣式的標(biāo)記圖像,或服從源分布的標(biāo)記特征。成功的關(guān)鍵是滿意的樣本生成,這本身就具有足夠的挑戰(zhàn)性并且沒(méi)有很好地解決。
另一類利用基于自我訓(xùn)練的偽標(biāo)簽:
獲得可靠的標(biāo)簽并不容易,尤其是在領(lǐng)域差距很大的情況下,在自訓(xùn)練過(guò)程中總是只取高置信度的標(biāo)簽樣本。
很明顯,目標(biāo)域風(fēng)格(例如成像特征)對(duì)域相對(duì)于源域的遷移有很大貢獻(xiàn)。因此,最小化目標(biāo)域樣式對(duì)模型行為的影響將立即有效地減少域轉(zhuǎn)移。在上述基礎(chǔ)上,如剛開始的圖所示,提出了一種新的領(lǐng)域適應(yīng)方法(LODS)。
它首先增強(qiáng)每個(gè)目標(biāo)圖像的目標(biāo)域風(fēng)格,同時(shí)保持目標(biāo)圖像的原始風(fēng)格。這樣就構(gòu)建了基于風(fēng)格增強(qiáng)圖像的輔助視圖。有了這個(gè)輔助視圖,新方法讓目標(biāo)檢測(cè)器學(xué)會(huì)忽略目標(biāo)域樣式。學(xué)生-教師框架被用來(lái)完成這項(xiàng)任務(wù)。
03
新框架分析
提出的LODS方法由兩部分組成。如下圖所示,一個(gè)是style enhancement module;另一個(gè)是overlooking style module。
style enhancement module(上圖(a))首先提取每個(gè)圖像的風(fēng)格,即通道均值和方差。對(duì)于一幅圖像,其增強(qiáng)的目標(biāo)域風(fēng)格被計(jì)算為它本身和任何目標(biāo)圖像的風(fēng)格的非線性組合。然后,通過(guò)替換增強(qiáng)樣式來(lái)增強(qiáng)樣式。通過(guò)將風(fēng)格增強(qiáng)圖像視為另一個(gè)領(lǐng)域,可以使用Mean-Teacher框架來(lái)利用風(fēng)格差異進(jìn)行模型適應(yīng)(圖(b))。目標(biāo)圖像和風(fēng)格增強(qiáng)版本分別輸入教師和學(xué)生模型。這兩個(gè)模型基于Faster-RCNN并初始化為預(yù)訓(xùn)練的源模型?;趫D匹配的類實(shí)例級(jí)對(duì)齊和圖像級(jí)對(duì)齊旨在幫助教師和學(xué)生相互學(xué)習(xí)。偽標(biāo)簽也用于增加學(xué)生模型的辨別力。
基于上述推斷,研究者設(shè)計(jì)了一個(gè)風(fēng)格增強(qiáng)模塊,如上圖所示。兩個(gè)網(wǎng)絡(luò)F1和F2分別設(shè)計(jì)為近似δ1和δ2。它們中的每一個(gè)都由兩個(gè)全連接層和一個(gè)ReLU層組成,具有最小的參數(shù)是非線性的。特征編碼器E源自預(yù)訓(xùn)練的VGG-16模型,并在訓(xùn)練和測(cè)試期間固定。****D是編碼器的逆。由于風(fēng)格一致性受限于底層特征,編碼器E = E2 ?E1進(jìn)一步分為E1和E2部分,其中?是函數(shù)嵌套算子。****D = D2 ? D1作為D1和D2也是如此。具體來(lái)說(shuō),第一次下采樣后的第一個(gè)ReLU層是分割E的分割線。D被對(duì)稱分割為E。
04
實(shí)驗(yàn)可視化
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。