30%Token就能實(shí)現(xiàn)SOTA性能，華為諾亞輕量目標(biāo)檢測(cè)器Focus-DETR效率倍增（1）

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2023-08-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

目前 DETR 類模型已經(jīng)成為了目標(biāo)檢測(cè)的一個(gè)主流范式。但 DETR 算法模型復(fù)雜度高，推理速度低，嚴(yán)重影響了高準(zhǔn)確度目標(biāo)檢測(cè)模型在端側(cè)設(shè)備的部署，加大了學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用之間的鴻溝。

來自華為諾亞、華中科技大學(xué)的研究者們?cè)O(shè)計(jì)了一種新型的 DETR 輕量化模型 Focus-DETR 來解決這個(gè)難題。

論文地址：https://arxiv.org/abs/2307.12612
代碼地址 - mindspore：https://github.com/linxid/Focus-DETR
代碼地址 - torch：https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR

為實(shí)現(xiàn)模型性能和計(jì)算資源消耗、顯存消耗、推理時(shí)延之間的平衡，F(xiàn)ocus-DETR 利用精細(xì)設(shè)計(jì)的前景特征選擇策略，實(shí)現(xiàn)了目標(biāo)檢測(cè)高相關(guān)特征的精確篩選；繼而，F(xiàn)ocus-DETR 進(jìn)一步提出了針對(duì)篩選后特征的注意力增強(qiáng)機(jī)制，來彌補(bǔ) Deformable attention 遠(yuǎn)距離信息交互的缺失。相比業(yè)界全輸入 SOTA 模型， AP 降低 0.5 以內(nèi)，計(jì)算量降低 45%，F(xiàn)PS 提高 41%，并在多個(gè) DETR-like 模型中進(jìn)行了適配。
作者對(duì)多個(gè) DETR 類檢測(cè)器的 GFLOPs 和時(shí)延進(jìn)行了對(duì)比分析，如圖 1 所示。從圖中發(fā)現(xiàn)，在 Deformable-DETR 和 DINO 中，encoder 的計(jì)算量分別是 decoder 計(jì)算量的 8.8 倍和 7 倍。同時(shí)，encoder 的時(shí)延大概是 decoder 時(shí)延的 4~8 倍。這表明，提升 encoder 的效率至關(guān)重要。
圖 1：多個(gè) DETR 類檢測(cè)器的計(jì)算量和時(shí)延對(duì)比分析
網(wǎng)絡(luò)結(jié)構(gòu)
Focus-DETR 包括一個(gè) backbone，一個(gè)由 dual-attention 組成的 encoder 和一個(gè) decoder。前景選擇器（Foreground Token Selector）在 backbone 和 encoder 之間，是一個(gè)基于跨多尺度特征的自頂向下評(píng)分調(diào)制，用來確定一個(gè) token 是否屬于前景。Dual attention 模塊通過多類別評(píng)分機(jī)制，選擇更細(xì)粒度的目標(biāo) token，然后將其輸入到一個(gè)自注意模塊來彌補(bǔ) token 交互信息的缺失。
圖 2 ：Focus-DETR 整體網(wǎng)絡(luò)結(jié)構(gòu)
計(jì)算量降低：前景篩選策略
目前已經(jīng)有一些對(duì)于前景 token 進(jìn)行剪枝提升性能的方法。例如，Sparse DETR（ICLR2022）提出采用 decoder 的 DAM（decoder attention map）作為監(jiān)督信息。然而作者發(fā)現(xiàn)，如圖 3 所示，Sparse DETR 篩選的 token 并不都是前景區(qū)域。作者認(rèn)為，這是由于 Sparse DETR 使用 DAM 來監(jiān)督前景 token 導(dǎo)致的，DAM 會(huì)在訓(xùn)練的時(shí)候引入誤差。而 Focus-DETR 使用 ground truth（boxes 和 label）來監(jiān)督前景的 token 的篩選。
圖 3：Focus-DETR 和 Sparse DETR 在不同 feature map 上保留的 token 對(duì)比
為了更好地訓(xùn)練前景篩選器，作者優(yōu)化了 FCOS 的前背景標(biāo)簽分配策略，如圖 4 所示。作者首先為不同特征映射的包圍框設(shè)置了一個(gè)大小范圍。與傳統(tǒng)的多尺度特征標(biāo)簽分配方法不同，它允許相鄰兩個(gè)特征尺度之間的范圍重疊，以增強(qiáng)邊界附近的預(yù)測(cè)能力。對(duì)每個(gè)擁有步長的特征，其中代表多尺度特征的層級(jí)序號(hào)，代表在二維特征圖上的位置坐標(biāo)，作者定義該特征在原圖上的映射位置為，那么，因此特征所對(duì)應(yīng)的標(biāo)簽應(yīng)該為：

其中代表坐標(biāo)和真值框中心之間的最大棋盤距離，代表真值目標(biāo)框，分別代表被第層特征圖預(yù)測(cè)的目標(biāo)的尺度的最大值和最小值，由于尺度重疊設(shè)置，。
圖 4. 前背景標(biāo)簽分配可視化
此外，來自不同特征映射的特征選擇的差異也被忽略，這限制了從最合適的分辨率選擇特征的潛力。為彌補(bǔ)這一差距，F(xiàn)ocus-DETR 構(gòu)造了基于多尺度 feature map 的自頂向下的評(píng)分調(diào)制模塊，如圖 5 所示。為了充分利用多尺度特征圖之間的語義關(guān)聯(lián)，作者首先使用多層感知器 (MLP) 模塊來預(yù)測(cè)每個(gè)特征圖中的多類別語義得分。考慮到高層語義特征，低層語義特征包含更豐富的語義信息，作者利用高層 feature map 的 token 重要性得分，作為補(bǔ)充信息來調(diào)制低層 feature map 的預(yù)測(cè)結(jié)果。

圖 5：top-down 前景篩選評(píng)分調(diào)制策略

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

30%Token就能實(shí)現(xiàn)SOTA性能，華為諾亞輕量目標(biāo)檢測(cè)器Focus-DETR效率倍增（1）

相關(guān)推薦

技術(shù)專區(qū)