改進(jìn)的檢測(cè)算法：用于高分辨率光學(xué)遙感圖像目標(biāo)檢測(cè)

作者：時(shí)間：2024-04-29 來源：中國(guó)機(jī)器視覺網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

前景概要

本文引用地址：http://2s4d.com/article/202404/458229.htm

目前，難以在檢測(cè)效率和檢測(cè)效果之間獲得適當(dāng)?shù)钠胶?。我們就研究出了一種用于高分辨率光學(xué)遙感圖像中目標(biāo)檢測(cè)的增強(qiáng)YOLOv5算法，利用多層特征金字塔、多檢測(cè)頭策略和混合注意力模塊來提高光學(xué)遙感圖像的目標(biāo)檢測(cè)網(wǎng)絡(luò)的效果。根據(jù)SIMD數(shù)據(jù)集，新算法的mAP比YOLOv5好2.2%，比YOLOX好8.48%，在檢測(cè)效果和速度之間實(shí)現(xiàn)了更好的平衡。

背景&動(dòng)機(jī)

隨著遙感技術(shù)的快速發(fā)展，高分辨率光學(xué)遙感圖像已被用于描述地球表面的許多物體，包括飛機(jī)、汽車、建筑物等。目標(biāo)檢測(cè)在遙感圖像的解釋中起著至關(guān)重要的作用，可用于遙感圖像的分割、描述和目標(biāo)跟蹤。然而，由于其相對(duì)較大的視場(chǎng)和高海拔的必要性，航空光學(xué)遙感圖像表現(xiàn)出尺度、視點(diǎn)特異性、隨機(jī)定向和高背景復(fù)雜性的多樣性，而大多數(shù)傳統(tǒng)數(shù)據(jù)集包含地面視圖。因此，用于構(gòu)建人工特征的對(duì)象檢測(cè)技術(shù)傳統(tǒng)上在精度和速度方面具有較差的記錄?；诰矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法明顯比傳統(tǒng)的目標(biāo)檢測(cè)方法更高效。由于社會(huì)的需要和深度學(xué)習(xí)發(fā)展的支持，在光學(xué)遙感圖像中使用神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)是必要的。

目前結(jié)合深度學(xué)習(xí)分析光學(xué)遙感照片的目標(biāo)檢測(cè)算法可以分為有監(jiān)督、監(jiān)督不力或無監(jiān)督。然而，由于無監(jiān)督和弱監(jiān)督算法的復(fù)雜性和不穩(wěn)定性，監(jiān)督算法是最常用的算法。此外，監(jiān)督目標(biāo)檢測(cè)算法可以分為單階段或兩階段?；陲w機(jī)通常位于機(jī)場(chǎng)，船舶通常位于港口和海洋的假設(shè)，在下采樣衛(wèi)星圖像中檢測(cè)機(jī)場(chǎng)和港口，然后將發(fā)現(xiàn)的項(xiàng)目映射回原始的超高分辨率衛(wèi)星圖像，可以成功地同時(shí)檢測(cè)不同大小的物體。有研究者提出了一種基于RCNN的旋轉(zhuǎn)目標(biāo)檢測(cè)方法，通過解決目標(biāo)方向的隨機(jī)化問題，提高遙感圖像中目標(biāo)檢測(cè)的準(zhǔn)確性。

新算法研究

目前的大多數(shù)YOLO系列檢測(cè)頭都是基于FPN和PAFPN的輸出特性，其中基于FPN的網(wǎng)絡(luò)，如YOLOv3及其變體如下圖a所示，它們直接利用單向融合特性進(jìn)行輸出，YOLOv4和YOLOv5的基于PAFPN算法在此基礎(chǔ)上增加了一個(gè)低電平到高電平的信道，它直接向上傳輸?shù)图?jí)信息（下圖b）。

微信圖片_20240130151437.png

如上圖c所示，類似地，在一些研究中，TPH-YOLOv5模型中的特定檢測(cè)任務(wù)添加了一個(gè)檢測(cè)頭。在上圖b，c中，只有PAFPN功能用于輸出，而FPN功能未得到充分利用。因此，YOLOv7將三個(gè)輔助磁頭連接到FPN輸出，如上圖d所示，盡管輔助磁頭僅用于“粗略選擇”，并且重量較低。SSD的檢測(cè)頭是為了改善YOLO網(wǎng)絡(luò)對(duì)錨集過于粗糙的設(shè)計(jì)而提出的，如上圖e所示，設(shè)計(jì)概念主要由多個(gè)尺度上具有多個(gè)縱橫比的密集錨設(shè)計(jì)組成。受圖c–e的啟發(fā)，我們研究并提出了一種用于YOLO檢測(cè)頭的多檢測(cè)頭策略，如圖f所示，該策略可以同時(shí)利用PANet和FPN的特征信息。此外，在64倍下采樣處直接添加了輸出頭，這使得網(wǎng)絡(luò)包含先前的全局信息。

多檢測(cè)頭方法可以有效地利用網(wǎng)絡(luò)的輸出特征。改進(jìn)的YOLO是一個(gè)用于高分辨率遙感照片的目標(biāo)探測(cè)網(wǎng)絡(luò)。如下圖所示：

微信圖片_20240130151435.png

主干網(wǎng)的基本結(jié)構(gòu)是以C3和卷積模塊為核心的CSP密集網(wǎng)。在數(shù)據(jù)增強(qiáng)之后，圖像被饋送到網(wǎng)絡(luò)中，并且在核大小6的Conv模塊進(jìn)行信道混合之后，許多卷積模塊檢索特征。在名為SPPF的特征增強(qiáng)模塊之后，他們連接到Neck的PANet。為了提高網(wǎng)絡(luò)的檢測(cè)能力，進(jìn)行了雙向特征融合。Conv2d用于獨(dú)立縮放融合的特征層，以生成多層輸出。如下圖a所示，NMS算法將所有單層檢測(cè)器的輸出組合在一起，生成最終的檢測(cè)幀。

微信圖片_20240130151432.png

下圖b描述了改進(jìn)的YOLO網(wǎng)絡(luò)每個(gè)模塊的結(jié)構(gòu)組成。

微信圖片_20240130151429.png

Conv包括2D卷積層、BN層批量歸一化和Silu激活函數(shù)，C3包括兩個(gè)2D卷積層和一個(gè)瓶頸層，Upsample是上采樣層。SPPF模塊是SPP模塊的加速版本，MAB模塊如上面提及的所示，其中ECA如左下角所示。在沒有降維的信道級(jí)全局平均池化之后，考慮到每個(gè)信道與其k個(gè)鄰居的關(guān)系，使用大小為k的快速1D卷積來捕獲局部跨信道交互信息，從而有效地執(zhí)行ECA。上述兩個(gè)變換沿著兩個(gè)空間方向收集特征，以產(chǎn)生一對(duì)方向感知特征圖，然后將其連接起來，并使用卷積和Sigmoid函數(shù)進(jìn)行修改，以提供注意力輸出。

實(shí)驗(yàn)及可視化

SIMD數(shù)據(jù)集是一個(gè)多類別、開源、高分辨率遙感對(duì)象檢測(cè)數(shù)據(jù)集，共包含15個(gè)類別，如圖4所示。此外，SIMD數(shù)據(jù)集更多地分布在中小型目標(biāo)（w<0.4，h<0.4）中，并且我們提出的改進(jìn)YOLO用于檢測(cè)該區(qū)域的檢測(cè)頭是普通YOLO算法使用的檢測(cè)頭數(shù)量的兩倍，因此改進(jìn)的YOLO在該數(shù)據(jù)集上具有更大的優(yōu)勢(shì)。

微信圖片_20240130151425.png

微信圖片_20240130151422.png

可以將SPPF模塊的輸出連接到輸出頭，從而識(shí)別圖像中的大目標(biāo)。然而，SPPF模塊的輸出具有多個(gè)連接，并且涉及多個(gè)尺度的目標(biāo)，因此直接將其用于探測(cè)頭來識(shí)別大型物體將導(dǎo)致較差的模型表示，如上圖所示，顯示了添加MAB模塊前后一些檢測(cè)結(jié)果熱圖的視覺比較。在添加MAB模塊后，該檢測(cè)頭專注于檢測(cè)大目標(biāo)，而將小目標(biāo)的預(yù)測(cè)分配給其他預(yù)測(cè)頭，提高了模型的表達(dá)效果，也更符合YOLO算法中基于目標(biāo)大小劃分檢測(cè)頭的要求。

微信圖片_20240130151419.png

一些檢測(cè)結(jié)果如上圖所示。從各個(gè)檢測(cè)結(jié)果來看，與其他算法沒有太大差異，但與其他算法相比，我們研究的算法在保證時(shí)間消耗不顯著增加的同時(shí)，提高了模型的檢測(cè)效果，并利用注意力機(jī)制增強(qiáng)了模型的表達(dá)效果。

微信圖片_20240130151401.png

新聞中心

改進(jìn)的檢測(cè)算法：用于高分辨率光學(xué)遙感圖像目標(biāo)檢測(cè)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)