Label,Verify,Correct:一種簡單的Few Shot 目標(biāo)檢測方法
少樣本目標(biāo)檢測(few-shot object detection,F(xiàn)SOD)——僅在少數(shù)訓(xùn)練實(shí)例的情況下為新類別擴(kuò)展目標(biāo)檢測器的任務(wù)
01 前言
今天分享的目標(biāo)是少樣本目標(biāo)檢測(few-shot object detection,F(xiàn)SOD)——僅在少數(shù)訓(xùn)練實(shí)例的情況下為新類別擴(kuò)展目標(biāo)檢測器的任務(wù)。引入了一種簡單的偽標(biāo)記方法,從訓(xùn)練集中為每個新類別獲取高質(zhì)量的偽注釋,大大增加了訓(xùn)練實(shí)例的數(shù)量并減少了類不平衡;新提出的方法會找到以前未標(biāo)記的實(shí)例。
使用模型預(yù)測進(jìn)行Na¨?vely training會產(chǎn)生次優(yōu)性能;研究者提出了兩種新方法來提高偽標(biāo)記過程的精度:首先,引入了一種驗(yàn)證技術(shù)來刪除具有不正確類標(biāo)簽的候選檢測;其次,訓(xùn)練了一個專門的模型來糾正質(zhì)量差的邊界框。
在這兩個新步驟之后,獲得了大量高質(zhì)量的偽注釋,允許最終檢測器進(jìn)行端到端的訓(xùn)練。此外,研究者展示了新方法保持了基類性能,以及FSOD中簡單增強(qiáng)的實(shí)用性。在對PASCAL VOC和MS-COCO進(jìn)行基準(zhǔn)測試時,與所有shots數(shù)量的現(xiàn)有方法相比,新提出的方法實(shí)現(xiàn)了最先進(jìn)或次優(yōu)的性能。
02背景及相關(guān)技術(shù)
目標(biāo)檢測是指確定圖像是否包含特定類別的對象的任務(wù),如果是,則對它們進(jìn)行定位。近年來,通過為一組預(yù)定義的目標(biāo)類訓(xùn)練計(jì)算模型,在目標(biāo)檢測方面取得了巨大的成功,其中包含大量人工注釋標(biāo)簽,例如MS-COCO和PASCAL VOC。然而,這樣的訓(xùn)練范式限制了模型只能在有大量訓(xùn)練數(shù)據(jù)的封閉的小類別上表現(xiàn)良好。
相比之下,人類可以不斷擴(kuò)展他們的詞匯表,學(xué)習(xí)檢測更多的類別,即使只能訪問幾個例子。這也是現(xiàn)代計(jì)算機(jī)視覺系統(tǒng)的理想能力,并在少樣本目標(biāo)檢測 (FSOD) 任務(wù)中進(jìn)行了研究。
研究者工作的目標(biāo)是FSOD:給定一個現(xiàn)有的目標(biāo)檢測器,該檢測器已經(jīng)在某些類別的大量數(shù)據(jù)(稱為基本類別)上進(jìn)行了訓(xùn)練,我們希望學(xué)習(xí)僅使用一些注釋來檢測新類別,例如每個類別1-30個,同時保持原始基本類別的性能。
03新框架分析
Problem Definition
在今天分享中,我們考慮與TFA[Few-shot object detection via feature reweighting]中相同的問題設(shè)置。具體來說,假設(shè)我們有一個圖像數(shù)據(jù)集D和兩個注釋集。首先是 Ybase,對一組基本類別Cbase進(jìn)行了詳盡的注釋。其次YKNOVEL,在一組小類別 CNOVEL上只有K個注釋。請注意,基本類別的注釋是詳盡的,但對于新類別,大多數(shù)實(shí)例都沒有標(biāo)記,因?yàn)樵谏贅颖驹O(shè)置下,僅為圖像數(shù)據(jù)集D提供了K個注釋。
為了解決“監(jiān)督崩潰”的問題,我們采用了一種簡單的偽標(biāo)簽方法來挖掘新類別的實(shí)例,有效地擴(kuò)展了它們的注釋集。然而,來自檢測器的偽注釋(在Novel訓(xùn)練之后)是不可靠的,包含大量誤報。在這里,我們建立了一種方法來提高這些候選偽注釋的精度,方法是自動過濾掉具有不正確類標(biāo)簽的候選,并為剩余的那些改進(jìn)邊界框坐標(biāo)。我們的方法為新類別產(chǎn)生了大量高精度偽注釋,允許最終檢測器在基礎(chǔ)和新類別數(shù)據(jù)上進(jìn)行端到端訓(xùn)練。
主要講解下Label Verification!我們從Chum等人的查詢擴(kuò)展工作中獲得靈感[Total recall: Automatic query expansion with a generative feature model for object retrieval]。它使用空間驗(yàn)證在檢索期間接受或拒絕新實(shí)例。這里的目標(biāo)是驗(yàn)證每個候選檢測的預(yù)測類標(biāo)簽。具體來說,我們考慮為具有非常有限的few-shot注釋的新穎類別構(gòu)建分類器。僅使用少量注釋構(gòu)建分類器顯然不是一項(xiàng)簡單的任務(wù),因?yàn)樗ǔP枰哔|(zhì)量的特征表示。在這里,我們受益于自監(jiān)督模型的最新發(fā)展,例如MoCo、SwAV、DINO,并使用這些模型產(chǎn)生的高質(zhì)量特征構(gòu)建kNN分類器。在實(shí)踐中,這項(xiàng)工作使用了通過自監(jiān)督DINO方法訓(xùn)練的ViT模型的輸出CLS,其中NN性能被證明特別強(qiáng)。
為了執(zhí)行標(biāo)簽驗(yàn)證(上圖),我們首先使用自監(jiān)督模型計(jì)算每個給定的新類 ground-truth注釋的特征。這些特征在kNN分類器中用作訓(xùn)練數(shù)據(jù)。同樣,我們使用相同的自監(jiān)督模型計(jì)算候選檢測集中每個實(shí)例的特征。具體來說,為了計(jì)算給定注釋/候選檢測的特征,首先使用邊界框來裁剪相關(guān)圖像。然后調(diào)整該作物的大小并作為輸入傳遞給自監(jiān)督模型。
04實(shí)驗(yàn)及可視化
COCO數(shù)據(jù)上的性能比較
PASCAL VOC性能比較
左上:在標(biāo)簽驗(yàn)證期間驗(yàn)證的預(yù)測實(shí)例;來自我們的基線檢測器和我們的kNN分類器的預(yù)測類標(biāo)簽匹配。右上:在標(biāo)簽驗(yàn)證期間被拒絕的預(yù)測實(shí)例;我們的基線檢測器(誤報)和kNN預(yù)測的類標(biāo)簽不匹配。左下:經(jīng)過驗(yàn)證的質(zhì)量非常差的邊界框)藍(lán)色虛線)在框校正期間得到了顯著改善(石灰實(shí)心)。右下:經(jīng)過驗(yàn)證的可接受的邊界框(藍(lán)色虛線)得到進(jìn)一步改進(jìn)(石灰實(shí)心)。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。