30%Token就能實(shí)現(xiàn)SOTA性能,華為諾亞輕量目標(biāo)檢測器Focus-DETR效率倍增(2)
在依靠前期設(shè)計(jì)的前景篩選器得到較為準(zhǔn)確的前景特征后,F(xiàn)ocus-DETR 使用一種有效的操作來獲得更為細(xì)粒度的特征,利用這些細(xì)粒度特征以獲得更好的檢測性能。直觀地說,作者假設(shè)在這個(gè)場景中引入更細(xì)粒度的類別信息將是有益的。基于這一動機(jī),作者提出了一種新的注意力機(jī)制,并結(jié)合前景特征選擇,以更好地結(jié)合利用細(xì)粒度特征和前景特征。
如圖 2 所示,為了避免對背景 token 進(jìn)行冗余的計(jì)算,作者采用了一種同時(shí)考慮位置信息和類別語義信息的堆疊策略。具體來說,預(yù)測器 (?) 計(jì)算出的前景評分
和類別評分
的乘積將作為作者最終的標(biāo)準(zhǔn)
來確定注意力計(jì)算中涉及的細(xì)粒度特征,即:
其中和
分別代表前景得分和類別概率。
與兩階段 Deformable DETR 的 query 選擇策略不同,F(xiàn)ocus-DETR 的多類別概率不包括背景類別 (?)。該模塊可以被視為一個(gè) self-attention ,對細(xì)粒度特征進(jìn)行增強(qiáng)計(jì)算。然后,已增強(qiáng)的特征將被 scatter 回原始的前景特征并對其進(jìn)行更新。
實(shí)驗(yàn)結(jié)果
主要結(jié)果
如表一所示,作者將 Focus-DETR 在 COCO 驗(yàn)證集上和其他模型的性能進(jìn)行比較??梢园l(fā)現(xiàn)同樣基于 DINO,F(xiàn)ocus-DETR 僅使用 30% token 的情況下,超過 Sparse DETR 2.2 個(gè) AP。相比原始 DINO,僅損失 0.5 個(gè) AP,但是計(jì)算量降低 45%,推理速度提升 40.8%。表 1:總體對比實(shí)驗(yàn)結(jié)果
模型效能分析
在圖 6 中,從不同模型的精度和計(jì)算量之間的關(guān)系來看,F(xiàn)ocus-DETR 在精度和計(jì)算復(fù)雜度之間達(dá)到了最好的平衡。整體來看對比其他模型,獲得了 SOTA 的性能。圖 6 不同模型測試精度和計(jì)算復(fù)雜度之間的關(guān)聯(lián)分析
消融實(shí)驗(yàn)
如表 2 所示,作者針對模型設(shè)計(jì)進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證作者提出的算法的有效性。表 2 本研究提出的前景特征剪枝策略和細(xì)粒度特征自注意力增強(qiáng)模塊對實(shí)驗(yàn)性能的影響
1. 前景特征選擇策略的影響
直接使用前景得分預(yù)測 AP 為 47.8,增加 label assignment 策略生成的標(biāo)簽作為監(jiān)督,AP 提升 1.0。增加自上而下的調(diào)制策略,能夠提升多尺度特征圖之間的交互,AP 提升 0.4。這表明提出的策略對于提升精度是非常有效的。如圖 7 可視化可以發(fā)現(xiàn),F(xiàn)ocus-DETR 可以精確地選擇多尺度特征上的前景 token。并且可以發(fā)現(xiàn),在不同尺度的特征度之間,可以檢測的物體存在重疊,這正是因?yàn)?Focus-DETR 使用了交疊的設(shè)置導(dǎo)致的。圖 7 多尺度特征保留的 token
2. 自上而下的評分調(diào)制策略的影響 表 3. 多尺度特征圖前景評分的關(guān)聯(lián)方法,作者嘗試自頂向下和自底向上的調(diào)制。
作者對比了自上而下的調(diào)制策略和自下而上的調(diào)制策略的影響,對比結(jié)果可以發(fā)現(xiàn),作者提出的自上而下的調(diào)制策略可以獲得更好的性能。
3. 前景保留比率對實(shí)驗(yàn)性能的影響 表 4.Focus-DETR、Sparse DETR 和 DINO+Sparse DETR 保留前景 token 的比例
作者對比了不同的剪枝比例的性能,從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),F(xiàn)ocus-DETR 在相同的剪枝比例情況下,均獲得了更優(yōu)的結(jié)果。
總結(jié)
Focus-DETR 僅利用 30% 的前景 token 便實(shí)現(xiàn)了近似的性能,在計(jì)算效率和模型精度之間取得了更好的權(quán)衡。Focus-DETR 的核心組件是一種基于多層次的語義特征的前景 token 選擇器,同時(shí)考慮了位置和語義信息。Focus-DETR 通過精確地選擇前景和細(xì)粒度特征,并且對細(xì)粒度特征進(jìn)行語義增強(qiáng),使得模型復(fù)雜度和精度實(shí)現(xiàn)更好平衡。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。