博客專欄

EEPW首頁 > 博客 > 性能大幅度提升(速度&遮擋) | 基于區(qū)域分解&集成的目標(biāo)檢測

性能大幅度提升(速度&遮擋) | 基于區(qū)域分解&集成的目標(biāo)檢測

發(fā)布人:CV研究院 時間:2021-08-17 來源:工程師 發(fā)布文章

最近杭州天氣陰陽不定,為了消除不愉快的心情,可以來和我們一起探討下接下來講述的技術(shù)框架,主要涉及深度學(xué)習(xí)及目標(biāo)檢測領(lǐng)域!

 研究背景

目標(biāo)檢測其實就是查找給定圖像的一個或多個目標(biāo)類的所有實例。

近年來,目標(biāo)檢測已經(jīng)被研究很長一段時間,并取得了很大的進步且部分都已經(jīng)應(yīng)用到實際生活當(dāng)中,好比人流量統(tǒng)計、刷臉支付、危險人物監(jiān)測等技術(shù)。其中最著名的框架屬R-CNN[1](2014年),首先使用選擇性搜索生成目標(biāo)區(qū)域候選[2](2013年),提取這些區(qū)域的CNN特征[3],并將其用特殊類的SVMs分類。然后,出現(xiàn)了Fast R-CNN[4],使用特征共享和RoI池化提高R-CNN的速度。最近的研究是將外部區(qū)域候選模塊整合到CNN中,以進一步提高訓(xùn)練和檢測速度。

因此,通過對區(qū)域候選和分類模塊的聯(lián)合學(xué)習(xí),也可以提高檢測精度。

[1] Girshick, R. B.; Donahue, J.; Darrell, T.; and  Malik, J. 2014. Rich feature hierarchies for accurate object detection  and semantic segmentation. In CVPR, 580–587.

[2] Uijlings, J. R. R.; van de Sande, K. E. A.; Gevers,  T.; and Smeulders, A. W. M. 2013. Selective search for object  recognition. IJCV 104(2):154–171.

[3] Krizhevsky, A.;  Sutskever, I.; and Hinton, G. E. 2012. Imagenet classification with  deep convolutional neural networks. In NIPS, 1106–1114.

[4] Girshick, R. B. 2015. Fast R-CNN. In ICCV,  1440–1448.

現(xiàn)代檢測器通常在固定的輸入尺度下簡化特征提取和目標(biāo)檢測過程。但是,即使在尺度變化下具有魯棒性,區(qū)域候選的精度也經(jīng)常會因所產(chǎn)生的候選和目標(biāo)區(qū)域的變化而降低。此外,對于小目標(biāo)檢測錯誤會增加。為了提高候選的精度,采用特征金字塔的多尺度特征表示來生成更強的綜合特征圖。然而,圖像金字塔的每層都顯著增加了推理時間。

 動機

一般情況下,檢測錯誤經(jīng)常由于目標(biāo)遮擋造成。在這種情況下,由于目標(biāo)的某些部分細(xì)節(jié)在區(qū)域中缺失,因此該目標(biāo)的CNN特征大量減少,意味著對整個目標(biāo)區(qū)域進行全局外觀特征的挖掘不足以對目標(biāo)進行準(zhǔn)確的分類和定位。具體例子如下:

1.jpg

 新框架分析

接下來直接進入主題——區(qū)域分解和集成的檢測器(R-DAD)。在下圖的框架中,首先是將一個目標(biāo)區(qū)域劃分為多個小區(qū)域,為了聯(lián)合捕獲目標(biāo)的整體外觀和部分細(xì)節(jié),在整個目標(biāo)區(qū)域和分解區(qū)域中提取CNN特征;然后將多區(qū)域特征逐步與區(qū)域集成塊相結(jié)合,學(xué)習(xí)目標(biāo)與其部件之間的語義關(guān)系,并利用組合的和高級語義特征進行目標(biāo)分類和定位。

2.jpg

為了更準(zhǔn)確地提出區(qū)域候選,提出了一個多尺度的候選層,可以生成不同尺度的目標(biāo)候選,將R-DAD集成到多個特征中,并且在VOC2017、VOC2012和MSCOCO數(shù)據(jù)集上進行實驗,發(fā)現(xiàn)有了顯著的性能提升。

該框架主要由3小部分組成:1)特征提取,2)基于多尺度的區(qū)域候選(MRP,Multi-Scale Region Proposal),3)目標(biāo)區(qū)域分解與集成階段(RDA,Region Decomposition and Assembly)。

特征提取

這部分主要基于Faster R-CNN的流程,我們主要說說第二步驟(MRP)及第三部分內(nèi)容(RDA)。

3.jpg

上圖中的MRP模塊主要作用是用來改善RPN生成的Region Proposals的準(zhǔn)確率??催^的同學(xué)應(yīng)該都知道,該思想特別簡單,就是利用傳統(tǒng)的RPN生成一些候選框,然后再用不同的縮放因子(該技術(shù)使用了5種縮放因子作為一組:s = [0.5, 0.7, 1, 1.2, 1.5])對生成出的候選框進行不同比例的縮小及放大,從而提高了區(qū)域候選的多樣性。

4.jpg

 如上,就生成了不同尺度的區(qū)域,有部分僅僅是局部區(qū)域,有部分是大于目標(biāo)本身的區(qū)域,其實這也有一個問題:原來的區(qū)域候選已經(jīng)有很大數(shù)量級,再乘以五個尺寸,也就是乘以五倍,想要該框架完全利用生成的候選框感覺很吃力?。?/p>

所以最后添加了RoI的采樣層,對得分較低的和跟GT重疊率較低的進行了篩選。由MRP網(wǎng)絡(luò)生成的各種Region Proposals可以進一步適應(yīng)目標(biāo)之間因為空間變化所導(dǎo)致的特征變化,提高結(jié)構(gòu)的魯棒性。

RDA

5.jpg

一般來說,特征的強烈響應(yīng)是識別目標(biāo)最重要的方法之一。因此,對于來自MRP網(wǎng)絡(luò)的每一個候選,都會通過結(jié)合多個區(qū)域的逐階段特征來進行強的再加工,如上圖。為此,需要學(xué)習(xí)能夠表示不同部分特征之間語義關(guān)系的權(quán)重,并利用這些權(quán)重來控制下一層特征的數(shù)量。上圖還顯示了學(xué)習(xí)的R-DAD的幾個層的語義特性。目標(biāo)內(nèi)部的一些強特征響應(yīng)是由R-DAD提取的。

先用線性插值兩倍上采樣之后再分解,這樣效果會更好。左右剛好是特征圖的左右一半,上下也同理,都會輸入到RAB模塊,RAB模塊如下圖所示:

6.jpg

通過上圖可以發(fā)現(xiàn),RAB模塊類似于一個Maxout的單元,它可以逼近任何連續(xù)函數(shù),所以該框架最終選擇了RAB而不是直接使用常用的ReLU函數(shù),這表明各種各樣的目標(biāo)特征構(gòu)造可以通過分層的RABs表示,此外該網(wǎng)絡(luò)生成的各種區(qū)域候選可以進一步提高目標(biāo)間空間配置變化所產(chǎn)生的特征變化的魯棒性。

 實驗

提出的多尺度區(qū)域候選和目標(biāo)區(qū)域分解/集成方法的效果

7.jpg

不同區(qū)域集成塊的檢測比較

8.jpg

在VOC數(shù)據(jù)集上與Faster R-CNN比較

9.jpg

在MSCOCO數(shù)據(jù)集上的結(jié)果比較

10.jpg

實驗效果圖

11.jpg

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 深度學(xué)習(xí)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉