純干貨:Box Size置信度偏差會損害目標(biāo)檢測器
檢測器的置信度預(yù)測在目標(biāo)大小和位置方面存在偏差,但目前尚不清楚這種偏差與受影響的目標(biāo)檢測器的性能有何關(guān)系。
一、前言
無數(shù)應(yīng)用依賴于目標(biāo)檢測器的可靠置信度估計的準確預(yù)測。然而,眾所周知,包括目標(biāo)檢測器在內(nèi)的神經(jīng)網(wǎng)絡(luò)會產(chǎn)生錯誤校準的置信估計。最近的工作甚至表明,檢測器的置信度預(yù)測在目標(biāo)大小和位置方面存在偏差,但目前尚不清楚這種偏差與受影響的目標(biāo)檢測器的性能有何關(guān)系。
研究者正式證明條件置信偏差(conditional confidence bias)正在損害目標(biāo)檢測器的預(yù)期性能,并憑經(jīng)驗驗證這些發(fā)現(xiàn)。具體來說,研究者們演示了如何修改直方圖分箱校準,不僅可以避免性能受損,還可以通過條件置信校準來提高性能。
研究者進一步發(fā)現(xiàn),在檢測器的訓(xùn)練數(shù)據(jù)上生成的檢測器中也存在置信偏差,利用這些偏差在不使用額外數(shù)據(jù)的情況下執(zhí)行提出的去偏差。此外,Test Time Augmentation會放大這種偏差,從而從我們的校準方法中獲得更大的性能提升。最后,研究者在一組不同的目標(biāo)檢測架構(gòu)上驗證了他們的發(fā)現(xiàn),并在沒有額外數(shù)據(jù)或訓(xùn)練的情況下顯示了高達0.6 mAP和0.8 mAP50的改進。
二、背景
Accurate probability estimates對于自動化決策過程至關(guān)重要。它們對于準確可靠的性能以及正確評估風(fēng)險至關(guān)重要。對于目標(biāo)檢測器來說尤其如此,它們經(jīng)常部署在自動駕駛、醫(yī)學(xué)成像和安全應(yīng)用等獨特的關(guān)鍵領(lǐng)域,這些領(lǐng)域可能危及人的生命。盡管存在這些高風(fēng)險,目標(biāo)檢測器的置信度校準受到的關(guān)注相對較少。目標(biāo)檢測器設(shè)計中的大部分注意力都集中在追求性能基準上的最新結(jié)果,而忽略了其預(yù)測置信度方面的問題。 此外,最近已經(jīng)證明目標(biāo)檢測器在其位置回歸預(yù)測方面也容易受到條件置信偏差的影響,但目前尚不清楚這種偏差與受影響目標(biāo)檢測器的性能有何關(guān)系?
為了強調(diào)置信校準的重要性,研究者表明條件置信偏差正在損害目標(biāo)檢測性能。該現(xiàn)象的簡化說明如下圖所示。
三、新方法分析
Evaluating Object Detectors
Confidence Calibration
置信度校準背后的想法是,每個預(yù)測的ci應(yīng)該等于經(jīng)驗?zāi)繕?biāo)檢測器的TP預(yù)測概率P(τ i=1| d=di)。從這里開始,我們將其簡稱為Pi。對于置信度校準,將目標(biāo)檢測器視為一個隨機過程。預(yù)測di的標(biāo)簽現(xiàn)在由隨機變量Ti~Bernoulli(Pi)表示,從中抽取tIoU=0.50的τi作為樣本。Pi也可以看作是目標(biāo)檢測器對于具有相同置信度ci的一組檢測的精度;將Pi稱為“successful”或TP檢測的概率P(τ i=1| d=di)以避免與上等式中定義的度量混淆。
Bias in Confidence of Object Detector
研究者假設(shè)條件置信偏差正在損害目標(biāo)檢測器的性能。 如第一張圖,基于具有不同校準曲線的兩組檢測的夸大示例來形象化這個想法。 每個組只有一個各自的置信值的檢測,在這個例子中很明顯,置信閾值為0.55的檢測器對于未校準檢測(0,1)的精度為50%;如果檢測器被完美校準 (2,3),精度為70%。 在精確召回曲線中可以觀察到相關(guān)的改進。 該曲線下的面積與AP指標(biāo)密切相關(guān)。 簡單示例和假設(shè)表明,目標(biāo)檢測器相對于邊界框大小和位置的置信估計偏差正在損害檢測器的性能。
接下來都是算式證明
Maximizing Average Precisio
為了證明提出的假設(shè),即置信偏差正在損害目標(biāo)檢測器的性能,我們看一下AP與P的關(guān)系以及如何在一組檢測D中最大化它。目標(biāo)檢測器可以被視為一個隨機過程 ,所以我們需要分析預(yù)期的AP:
代入Prec和Rec:
如果我們假設(shè)每個Pi和Pj獨立,i≠j:
通過一些簡單的算術(shù),我們可以將其重新表述為:
因此,我們可以通過根據(jù)P從大到小對預(yù)測進行排序來最大化AP計算中的總和。由于檢測在評估AP之前根據(jù)其置信度進行排序,因此在以下條件下最大化:
Confidence Calibration
不同邊界框大小的置信度校準的變化降低了檢測器的預(yù)期性能?,F(xiàn)在已經(jīng)證明了這個假設(shè),研究者希望在證明的基礎(chǔ)上通過校正校準曲線之間的變化來提高檢測器的性能,看看它是否會提高性能指標(biāo)。如果找到消除條件偏差的檢測置信度映射,則消除了變化,從而產(chǎn)生了相等的校準曲線。這可以通過將置信度映射為每個邊界框大小的成功概率來實現(xiàn)。當(dāng)然,概率通常是未知的,但置信度校準正好解決了找到將置信度分數(shù)映射到他們的經(jīng)驗成功概率的函數(shù)的問題。根據(jù)以上的推理,條件置信校準應(yīng)該減少目標(biāo)檢測器的框大小置信偏差。減少這種偏差應(yīng)該會增加檢測器的AP。我們嘗試使用公開可用的目標(biāo)檢測器CenterNet來驗證這一點,它帶有Hourglass的主干網(wǎng)絡(luò),并在COCO上進行了訓(xùn)練。我們以60:40的比例分割2017 COCO驗證集,在第一個分割上進行校準,并在較小的第二個分割上評估校準檢測。我們對80個類別中的每一個類別進行類別校準以考慮不同類別的變化,然后將每個類別的檢測分為三個大小相同的邊界框大小的子組。每個子組都使用具有7個置信區(qū)間的直方圖分箱進行校準。校準檢測的性能顯著差于未校準檢測的,35.7 mAP和40.1mAP。這個結(jié)果與我們最初的推理和形式證明相矛盾,發(fā)生了什么?Modifying Histogram Binning
研究者仔細研究histogram binning,以了解為什么它會大大降低測試檢測器的性能。發(fā)現(xiàn)它違反了我們先前的一些假設(shè),我們修改了標(biāo)準直方圖分箱校準以實際驗證我們的原始假設(shè),即我們可以使用校準來提高預(yù)測性能。為此,我們在直方圖分箱中加入以下假設(shè):第一個假設(shè)是校準提高了我們根據(jù)預(yù)測成為TP的概率對預(yù)測進行排序的能力。直方圖合并將置信范圍映射到單個估計的精度值,丟棄細粒度的置信差異,如下圖:由于我們已經(jīng)根據(jù)它們的大小將檢測分為子組,我們可以假設(shè)檢測器在這些子組中產(chǎn)生有意義的置信度排序:畢竟,這是它的訓(xùn)練目標(biāo)。由于我們希望保持每個子組內(nèi)的排序,我們在直方圖bin的中心之間添加linear splines。
我們還將對splines的supports設(shè)置為每個bin中檢測的平均置信度,以最大限度地減少每個bin內(nèi)不均勻分布的置信度造成的錯誤。在上圖右中可以看到supports處減少的方差以及所有修改。我們像以前一樣在同一個目標(biāo)檢測器上測試每個修改和最終修改的校準函數(shù)。結(jié)果見之前的表格驗證個別修改和我們最初的假設(shè),即框大小置信偏差降低了目標(biāo)檢測器的性能,而我們的校準可以減少這種偏差并提高性能。還有較多的證明推理,感興趣的同學(xué)可以在論文中繼續(xù)詳讀了解:
https://arxiv.org/pdf/2112.01901.pdf
四、實驗
擴展優(yōu)化指標(biāo)的 mAP 性能變化
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。