Meta-DETR | 圖像級(jí)“元”學(xué)習(xí)提升目標(biāo)檢測(cè)精度

發(fā)布人：CV研究院時(shí)間：2021-04-27 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

One-shot目標(biāo)檢測(cè)旨在通過(guò)幾個(gè)標(biāo)注的樣本來(lái)檢測(cè)新的目標(biāo)。之前的工作已經(jīng)證明了元學(xué)習(xí)是一個(gè)很有前途的解決方案，它們中的大多數(shù)基本上是通過(guò)解決在區(qū)域上的元學(xué)習(xí)檢測(cè)來(lái)進(jìn)行分類和位置微調(diào)。

一、簡(jiǎn)要

啟發(fā)：人類可以只看目標(biāo)一次，就可以達(dá)到對(duì)目標(biāo)的快速識(shí)別能力，但是機(jī)器目前無(wú)法達(dá)到這樣的水平。也就是在小樣本情況下的深度學(xué)習(xí)目標(biāo)檢測(cè)仍然存在很大的困難。

然而，這些方法在很大程度上依賴于最初位置良好的候選區(qū)域，這通常在one-shot設(shè)置下很難獲得。研究者提出了一種新的元檢測(cè)器框架，即Meta-DETR，實(shí)現(xiàn)區(qū)域預(yù)測(cè)，并以統(tǒng)一互補(bǔ)的方式在圖像水平上學(xué)習(xí)目標(biāo)位置和分類。具體地說(shuō)，它首先將support和query圖像編碼為特定類別的特征，然后將它們輸入到一個(gè)與類別無(wú)關(guān)的****中，以直接生成具體類的預(yù)測(cè)。為了促進(jìn)深度網(wǎng)絡(luò)的元學(xué)習(xí)，研究者設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的語(yǔ)義對(duì)齊機(jī)制(Semantic Alignment Mechanism，SAM)，它協(xié)調(diào)高級(jí)和低級(jí)特征語(yǔ)義，以改進(jìn)元學(xué)習(xí)表示的泛化。

二、背景

計(jì)算機(jī)視覺(jué)近年來(lái)取得了重大進(jìn)展。然而，在從很少的例子中學(xué)習(xí)新概念方面，當(dāng)前的計(jì)算機(jī)視覺(jué)技術(shù)和人類視覺(jué)系統(tǒng)之間仍然存在著巨大的差距：大多數(shù)現(xiàn)有的方法需要大量的標(biāo)注樣本，而人類即使需要很少的指導(dǎo)，也可以毫不費(fèi)力地識(shí)別一個(gè)新概念。特別是當(dāng)沒(méi)有足夠的訓(xùn)練樣本或很難獲得其注釋時(shí)，這種從有限的例子中推廣的類人能力對(duì)于機(jī)器視覺(jué)系統(tǒng)是非?？扇〉摹?/p>

如上圖的上部，它們主要通過(guò)對(duì)區(qū)域執(zhí)行元學(xué)習(xí)，包括候選區(qū)域、定位點(diǎn)和窗口中心，來(lái)進(jìn)行分類和位置微調(diào)。然而，正如在[QiFan,WeiZhuo,Chi-KeungTang,andYu-WingTai.Few- shot object detection with attention-RPN and multi-relation detector. In CVPR, 2020]和[Weilin Zhang, Yu-Xiong Wang, and D. Forsyth. Coop- erating RPN’s improve few-shot object detection. ArXiv, 2011.10142, 2020]中所指出的那樣，這些方法在很大程度上依賴于初始候選區(qū)域的質(zhì)量，這在訓(xùn)練樣本稀缺的one-shot設(shè)置中不能得到保證，從而產(chǎn)生不準(zhǔn)確或缺失的檢測(cè)。雖然FSOD提議元學(xué)習(xí)區(qū)域候選的生成，但這個(gè)問(wèn)題仍然是由于該框架本身仍然是基于區(qū)域的。

基于上述分析，現(xiàn)有元檢測(cè)器的一個(gè)關(guān)鍵局限性是區(qū)域預(yù)測(cè)方法。此外，在具有挑戰(zhàn)性的one-shot目標(biāo)檢測(cè)設(shè)置下，對(duì)標(biāo)注樣本的監(jiān)督最小，應(yīng)該最大限度地利用分類和定位之間的互補(bǔ)效應(yīng)。因此，理想的元檢測(cè)器應(yīng)該放棄這種基于區(qū)域的預(yù)測(cè)，并通過(guò)完全端到端的元學(xué)習(xí)兩個(gè)子任務(wù)，有效地利用分類和定位之間的協(xié)同關(guān)系。然而，據(jù)我們所知，這樣的框架仍然沒(méi)有存在。

Few-Shot Learning

one-shot學(xué)習(xí)旨在在從很少的樣本中學(xué)習(xí)新概念，縮小現(xiàn)有模型和人類之間的差距。一個(gè)很有前途的解決方案是元學(xué)習(xí)，它旨在提取元層次的知識(shí)，可以通過(guò)“學(xué)習(xí)到學(xué)習(xí)”跨各種任務(wù)進(jìn)行推廣。大量的研究已經(jīng)證明了元學(xué)習(xí)范式在one-shot分類任務(wù)中的有效性。然而，其他更復(fù)雜的one-shot學(xué)習(xí)任務(wù)仍然相對(duì)沒(méi)有充分探索。

三、新框架

為了在圖像層面上進(jìn)行統(tǒng)一的定位和分類元學(xué)習(xí)，新框架的元學(xué)習(xí)在概念上很簡(jiǎn)單。如上圖所示，它由查詢編碼分支(QEB)、支持編碼分支(SEB)和解碼分支(DB)組成。給定一個(gè)查詢圖像和幾個(gè)帶有實(shí)例標(biāo)注的支持圖像，QEB和SEB首先分別將它們分別編碼為查詢特征和類別代碼。然后，DB以查詢特征和類別代碼作為輸入，并預(yù)測(cè)相應(yīng)支持類別的檢測(cè)結(jié)果。由于要檢測(cè)的目標(biāo)類別是基于提供的支持圖像的動(dòng)態(tài)條件的，Meta-DETR能夠提取類別不可知的元級(jí)知識(shí)，可以很容易地適應(yīng)新的類別。

Semantic Alignment Mechanism：一個(gè)簡(jiǎn)單的殘差連接作為自正則化，通過(guò)對(duì)齊輸入和輸出的特征語(yǔ)義，防止transformer編碼器依賴于期望的類別特定特征。

四、實(shí)驗(yàn)

Pascal VOC test 07測(cè)試結(jié)果

MS COCO val 2017測(cè)試結(jié)果

可視化查詢特征和類別代碼之間的相關(guān)性。通過(guò)引入語(yǔ)義對(duì)齊機(jī)制(SAM)，觀察到了對(duì)基類和新類（鳥）的清晰響應(yīng)，證明了SAM在增強(qiáng)元學(xué)習(xí)表示的泛化方面的有效性。

Visualization of multi-scale Meta-DETR’s 10-shot object detection results on Pascal VOC category split 1. Novel categories include bird, bus, cow, motorcycle, and sofa. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.

Visualization of multi-scale Meta-DETR’s 30-shot object detection results on MS COCO. Novel categories include person, bicycle, car, motorcycle, airplane, bus, train, boat, bird, cat, dog, horse, sheep, cow, bottle, chair, couch, potted plant, dining table, and tv. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

熱式質(zhì)量流量計(jì)相關(guān)文章:熱式質(zhì)量流量計(jì)原理
流量計(jì)相關(guān)文章:流量計(jì)原理

博客專欄

Meta-DETR | 圖像級(jí)“元”學(xué)習(xí)提升目標(biāo)檢測(cè)精度

相關(guān)推薦

技術(shù)專區(qū)