目標檢測創(chuàng)新:一種基于區(qū)域的半監(jiān)督方法,部分標簽即可
研究表明,當訓練數據缺少注釋(即注釋稀疏的數據)時,目標檢測器的性能會顯著下降。
一、前言
研究表明,當訓練數據缺少注釋(即注釋稀疏的數據)時,目標檢測器的性能會顯著下降?,F在的方法側重于以偽標簽的形式或通過在訓練期間重新加權未標記框的梯度來解決缺失真實標注的問題。
在這項工作中,研究者重新審視了稀疏注釋目標檢測的公式。研究者觀察到稀疏注釋的目標檢測可以被認為是區(qū)域級別的半監(jiān)督目標檢測問題。基于這一見解,研究者們提出了一種基于區(qū)域的半監(jiān)督算法,該算法可以自動識別包含未標記前景對象的區(qū)域。然后,提出的算法以不同方式處理標記和未標記的前景區(qū)域,這是半監(jiān)督方法中的常見做法。為了評估所提出方法的有效性,對PASCAL-VOC和COCO數據集上稀疏注釋方法常用的五個分割進行了詳盡的實驗,并實現了最先進的性能。除此之外,還表明新提出的方法在標準半監(jiān)督設置上實現了競爭性能,證明了新方法的強度和廣泛適用性。
二、背景
傳統的目標檢測方法假設訓練數據集被詳盡地標記。這種檢測器的性能對標記數據的質量很敏感。用于訓練目標檢測器的數據中的噪聲可能是由于噪聲類標簽或不正確/丟失的邊界框而產生的。在這項工作中,研究者處理了缺少類標簽和邊界框注釋的更難的問題,即稀疏注釋的存在。稀疏注釋目標檢測(SAOD)是在訓練數據中存在缺失注釋的情況下提高目標檢測魯棒性的問題。這個問題在當前至關重要,因為獲取眾多數據集可能既昂貴又費力。另一種方法是使用計算機輔助協議來收集注釋。然而,這些方法受到嘈雜/缺失標簽的影響。因此,必須調整當前的目標檢測器來解決稀疏注釋的問題。
問題的癥結在于訓練期間分配標簽的方式。稀疏注釋減少了真正的正樣本并將假負樣本引入訓練,從而降低了網絡性能。雖然這過于簡單化了,但它可以更好地了解正在處理的問題。研究者建立在一個簡單的觀察之上,即SAOD是區(qū)域級別的半監(jiān)督目標檢測(SSOD)。然而,未標記的數據,在我們的例子中是包含前景對象的區(qū)域,是先驗未知的,必須被識別。因此,SSOD方法不能直接應用于SAOD,因為當前的方法假設一個已知的未標記集以及一個詳盡標記的訓練集。同樣,最近提出的SAOD方法在訓練期間丟棄所有沒有單個注釋的圖像,并且不能像SSOD方法那樣真正利用未標記數據的力量。分別在上圖的第1行和第2行中說明了SSOD和SAOD。
假設稀疏注釋的目標檢測方法應該是一個很好的半監(jiān)督學習器,因為SSOD中的未標記圖像可以被視為SAOD的缺失注釋。我們在上圖的第3行展示了這個公式。
三、新框架分析
所提出的方法如下圖所示,由一個標準的骨干網絡組成,該網絡從圖像的原始視圖和增強視圖中提取特征。
一個通用的RPN將骨干網絡提取的特征連接起來,生成一組通用的候選區(qū)域。候選區(qū)域b可以屬于三個組之一,即:
標記區(qū)域b∈ Bl
未標記區(qū)域b∈Bul
背景區(qū)域b∈ Bbg
對于給定的一組真實標注,可以自動識別第一組,即標記區(qū)域。然后問題就變成了從背景區(qū)域中識別和分離第二組,即未標記區(qū)域。給定所有候選區(qū)域,pseudo-positive mining(PPM)步驟識別未標記區(qū)域并將它們與背景區(qū)域分離。受半監(jiān)督方法的啟發(fā),標記和未標記區(qū)域分別受到監(jiān)督和非監(jiān)督損失的監(jiān)督。我們在下面詳細描述每個階段。
Feature Extraction
給定圖像I,計算表示為A(I)的I的增強版本。在這項工作中,我們使用隨機對比度、亮度、飽和度、光照和邊界框以級聯方式擦除以生成A(I)。 一個檢測器骨干網絡用于分別從I和A(I)中提取兩個特征fo和fa。
Common RPN (C-RPN)
傳統的兩階段目標檢測器使用區(qū)域提議網絡(RPN)來生成感興趣區(qū)域(ROI)。fo和fa這兩個特征使用RPN生成兩組不同的ROI。對兩組ROI進行操作增加了識別標記區(qū)域、未標記區(qū)域和背景區(qū)域的難度,同時增加了處理時間。此外,對于關聯,必須執(zhí)行匹配算法,如基于IoU)分數的Kuhn-Munkres算法,以獲得輸入圖像的一組通用標記、未標記和背景框。由于不完美的匹配,此過程可能會很嘈雜。為了避免這種情況,提出了一種連接fo和fa以獲得ROI的C-RPN。
Pseudo Positive Mining
給定來自C-RPN的ROI,下一步是從標記區(qū)域和背景區(qū)域中識別未標記區(qū)域?;谖覀兊挠^察,即使在使用稀疏注釋進行訓練時,RPN也可以可靠地區(qū)分前景和背景區(qū)域,我們廣泛依賴RPN的分數來識別未標記區(qū)域。
首先,根據可用的Ground Truth,所有分配為正的ROI都從C-RPN的輸出中刪除。接下來,所有具有大于閾值(本工作中為0.5和IoU小于閾值(本工作中為0.2)且具有任何GT的ROI都被視為未標記區(qū)域。剩余的ROI分配給負樣本。我們稍后會證明這個簡單的步驟可以提高RPN的召回率。請注意,由于閾值不同,一些未標記的區(qū)域可能會被錯誤地分配給負樣本。這些地區(qū)將在后續(xù)階段得到照顧。
Losses
在pseudo positive mining步驟之后,來自C-RPN的ROI被分為標記、未標記和背景區(qū)域。首先,ROI池化層從特征fo中提取標記區(qū)域和背景區(qū)域的區(qū)域特征,然后將其饋送到檢測頭。檢測頭預測每個區(qū)域的類別概率和邊界框。稀疏GT用于監(jiān)督這些預測,方法是將交叉熵損失應用于標記和背景區(qū)域的分類,以及平滑L1用于標記區(qū)域的邊界框回歸:
最后,對未標記區(qū)域執(zhí)行與類別無關的NMS,以刪除導致Nu唯一區(qū)域的重復項。Nu未標記區(qū)域與fo和fa一起通過ROI池化層和檢測頭,分別獲得fdo和fda。應用了如下所示的一致性正則化損失,它強制原始區(qū)域和增強區(qū)域的特征彼此一致。
四、實驗
Sparsely annotated object detection在COCO的結果
Sparsely annotated object detection在VOC結果
Qualitative results showing the unlabeled regions identified by the pseudo-positive mining step. The red boxes correspond to the available ground truth. A class agnostic NMS was performed on the regions and the result is shown in white.
將使用可用的GT(頂部)訓練的“普通”模型的輸出與使用新提出的方法訓練的模型(底部)進行比較的定性結果。顯示類別置信度分數大于0.9的預測。紅色:人,青色:狗,紫色:馬,黃色:時鐘,綠色:停車標志,藍色:停車計時器,紫色:長頸鹿,橙色:盆栽,黑色:沖浪板,深綠色:船。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。