用于精確目標(biāo)檢測的多網(wǎng)格冗余邊界框標(biāo)注

發(fā)布人：CV研究院時(shí)間：2022-01-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

論文地址：https://arxiv.org/pdf/2201.01857.pdf

現(xiàn)在領(lǐng)先的目標(biāo)檢測器是從基于深度CNN的主干分類器網(wǎng)絡(luò)重新調(diào)整用途的兩級(jí)或單級(jí)網(wǎng)絡(luò)。

一、前言

現(xiàn)在領(lǐng)先的目標(biāo)檢測器是從基于深度CNN的主干分類器網(wǎng)絡(luò)重新調(diào)整用途的兩級(jí)或單級(jí)網(wǎng)絡(luò)。YOLOv3就是這樣一種眾所周知的最先進(jìn)的單級(jí)檢測器，它接收輸入圖像并將其劃分為大小相等的網(wǎng)格矩陣。具有目標(biāo)中心的網(wǎng)格單元負(fù)責(zé)檢測特定目標(biāo)。

今天分享的，就是提出了一種新的數(shù)學(xué)方法，該方法為每個(gè)目標(biāo)分配多個(gè)網(wǎng)格，以實(shí)現(xiàn)精確的tight-fit邊界框預(yù)測。研究者還提出了一種有效的離線復(fù)制粘貼數(shù)據(jù)增強(qiáng)來進(jìn)行目標(biāo)檢測。新提出的方法顯著優(yōu)于一些當(dāng)前最先進(jìn)的目標(biāo)檢測器，并有望獲得更好的性能。

二、背景

目標(biāo)檢測網(wǎng)絡(luò)旨在使用緊密匹配的矩形邊界框在圖像上定位對象并正確標(biāo)記它。如今，有兩種不同的方法可以實(shí)現(xiàn)這一目的。第一個(gè)也是性能方面，最主要的方法是兩階段目標(biāo)檢測，最好的代表RCNN及其衍生物[Faster r-cnn: Towards real-time

object detection with region proposal networks]、[Fast r-cnn]。相比之下，第二組目標(biāo)檢測實(shí)現(xiàn)因其出色的檢測速度和輕量級(jí)而廣為人知，被稱為單階段網(wǎng)絡(luò)，代表性示例為[You only look once: Unified, real-time object detection]、[Ssd: Single shot multibox detector]、[Focal loss for dense object detection]。兩階段網(wǎng)絡(luò)依賴于一個(gè)潛在的區(qū)域建議網(wǎng)絡(luò)，該網(wǎng)絡(luò)生成可能包含感興趣對象的圖像的候選區(qū)域，第二個(gè)檢測頭處理分類和邊界框回歸。在單階段目標(biāo)檢測中，檢測是一個(gè)單一的、完全統(tǒng)一的回歸問題，它在一個(gè)完整的前向傳遞中同時(shí)處理分類和定位。因此，通常，單階段網(wǎng)絡(luò)更輕、更快且易于實(shí)現(xiàn)。

今天的研究依然是堅(jiān)持YOLO的方法，特別是YOLOv3，并提出了一種簡單的hack，可以同時(shí)使多個(gè)網(wǎng)格單元預(yù)測目標(biāo)坐標(biāo)、類別和目標(biāo)置信度。每個(gè)對象的多網(wǎng)格單元分配背后的基本理論是通過強(qiáng)制多個(gè)單元在同一對象上工作來增加預(yù)測緊密擬合邊界框的可能性。

多網(wǎng)格分配的一些優(yōu)點(diǎn)包括：

（a）為目標(biāo)檢測器提供它正在檢測的對象的多視角視圖，而不是僅依靠一個(gè)網(wǎng)格單元來預(yù)測對象的類別和坐標(biāo)；

（b ) 較少隨機(jī)和不穩(wěn)定的邊界框預(yù)測，這意味著高精度和召回率，因?yàn)楦浇木W(wǎng)格單元被訓(xùn)練來預(yù)測相同的目標(biāo)類別和坐標(biāo)；

此外，由于多網(wǎng)格分配是對現(xiàn)有參數(shù)的數(shù)學(xué)利用，并且不需要額外的關(guān)鍵點(diǎn)池化層和后處理來將關(guān)鍵點(diǎn)重新組合到其對應(yīng)的目標(biāo)，如CenterNet和CornerNet，可以說它是一個(gè)更實(shí)現(xiàn)無錨或基于關(guān)鍵點(diǎn)的目標(biāo)檢測器試圖實(shí)現(xiàn)的自然方式。除了多網(wǎng)格冗余注釋，研究者還引入了一種新的基于離線復(fù)制粘貼的數(shù)據(jù)增強(qiáng)技術(shù)，用于準(zhǔn)確的目標(biāo)檢測。

三、MULTI-GRID ASSIGNMENT

上圖包含三個(gè)目標(biāo)，即狗、自行車和汽車。為簡潔起見，我們將解釋我們在一個(gè)對象上的多網(wǎng)格分配。上圖顯示了三個(gè)對象的邊界框，其中包含更多關(guān)于狗的邊界框的細(xì)節(jié)。下圖顯示了上圖的縮小區(qū)域，重點(diǎn)是狗的邊界框中心。包含狗邊界框中心的網(wǎng)格單元的左上角坐標(biāo)用數(shù)字0標(biāo)記，而包含中心的網(wǎng)格周圍的其他八個(gè)網(wǎng)格單元的標(biāo)簽從1到8。

到目前為止，我已經(jīng)解釋了包含目標(biāo)邊界框中心的網(wǎng)格如何注釋目標(biāo)的基本事實(shí)。這種對每個(gè)對象僅一個(gè)網(wǎng)格單元的依賴來完成預(yù)測類別的困難工作和精確的tight-fit邊界框引發(fā)了許多問題，例如：

（a）正負(fù)網(wǎng)格之間的巨大不平衡，即有和沒有對象中心的網(wǎng)格坐標(biāo)

（b）緩慢的邊界框收斂到GT

（c）缺乏要預(yù)測的對象的多視角（角度）視圖。

所以這里要問的一個(gè)自然問題是，“顯然，大多數(shù)對象包含一個(gè)以上網(wǎng)格單元的區(qū)域，因此是否有一種簡單的數(shù)學(xué)方法來分配更多這些網(wǎng)格單元來嘗試預(yù)測對象的類別和坐標(biāo)連同中心網(wǎng)格單元？”。這樣做的一些優(yōu)點(diǎn)是（a）減少不平衡，（b）更快的訓(xùn)練以收斂到邊界框，因?yàn)楝F(xiàn)在多個(gè)網(wǎng)格單元同時(shí)針對同一個(gè)對象，（c）增加預(yù)測tight-fit邊界框的機(jī)會(huì)（d) 為YOLOv3等基于網(wǎng)格的檢測器提供多視角視圖，而不是對象的單點(diǎn)視圖。新提出的多重網(wǎng)格分配試圖回答上述問題。

Ground-truth encoding

四、訓(xùn)練

A. The Detection Network: MultiGridDet

MultiGridDet是一個(gè)目標(biāo)檢測網(wǎng)絡(luò)，通過從YOLOv3中刪除六個(gè)darknet卷積塊來使其更輕、更快。一個(gè)卷積塊有一個(gè)Conv2D+Batch Normalization+LeakyRelu。移除的塊不是來自分類主干，即Darknet53。相反，將它們從三個(gè)多尺度檢測輸出網(wǎng)絡(luò)或頭中刪除，每個(gè)輸出網(wǎng)絡(luò)兩個(gè)。盡管通常深度網(wǎng)絡(luò)表現(xiàn)良好，但太深的網(wǎng)絡(luò)也往往會(huì)快速過度擬合或大幅降低網(wǎng)絡(luò)速度。

B. The Loss function

Coordinate activation function plot with different β values

C. Data Augmentation

離線復(fù)制粘貼人工訓(xùn)練圖像合成工作如下：首先，使用簡單的圖像搜索腳本，使用地標(biāo)、雨、森林等關(guān)鍵字從谷歌圖像下載數(shù)千張背景無對象圖像，即沒有我們感興趣的對象的圖像。然后，我們從整個(gè)訓(xùn)練數(shù)據(jù)集的隨機(jī)q個(gè)圖像中迭代地選擇p個(gè)對象及其邊界框。然后，我們生成使用它們的索引作為ID選擇的p個(gè)邊界框的所有可能組合。從組合集合中，我們選擇滿足以下兩個(gè)條件的邊界框子集：

if arranged in some random order side by side, they must fit within a given target background image area

and should efficiently utilize the background image space in its entirety or at least most part of it without the objects overlap.

五、實(shí)驗(yàn)及可視化

Pascal VOC 2007上的性能比較