單目3D目標檢測之入門(1)
一、單目3D目標檢測
1. 3D目標檢測領(lǐng)域有哪些任務(wù)和方法?
為了更直觀,我畫了一個思維導(dǎo)圖,點擊鏈接后,注意需要切換一下思維導(dǎo)圖狀態(tài)。
在3D目標檢測領(lǐng)域,根據(jù)輸入信息的不同,大致可分為三類方法。
Point Cloud-based Methods (基于點云來做)
Multimodal Fusion-based Methods(點云和圖像的融合)
Monocular/Stereo Image-based Methods(單目/立體圖像的方法)
首先,基于點云的經(jīng)典方法,比如VoxelNet(2018年)、PointPillars(2019年)、PointRCNN(2019年)等。
這類方法都是直接在點云數(shù)據(jù)上進行特征的提取和RPN操作,將2D目標檢測中的網(wǎng)絡(luò)結(jié)構(gòu)和思想遷移到3D點云中。
點云和圖像的融合方法是當前3D目標檢測的主流。比較經(jīng)典的算法有,2018年的MV3D、Frustum PointNets、2019年的Pseudo-LiDAR、2020年的PointPainting等算法。
這里的Pseudo-LiDAR(也叫為激光雷達)這篇文章對后來的單目3D目標檢測領(lǐng)域的發(fā)展起到了促進的作用。
這里使用了雙目圖像來生成深度圖,根據(jù)深度圖得到點云數(shù)據(jù),再進行目標檢測任務(wù)。
Stereo Image-based方法中,主要是基于雙目圖像的3D目標檢測,這一領(lǐng)域我不太了解,以后再做補充。
單目3D目標檢測我是2021年剛接觸的,比較出色的單目3D檢測方法主要有:Mono3D PLiDAR、AutoShape、MonoRCNN、CaDDN等。
而在單目3D目標檢測領(lǐng)域,又可細分為三類方法。關(guān)于單目3D目標檢測的分類翻譯自CaDNN這篇文章
直接法(Direct Methods)
所謂直接法就是直接從圖像中估計出3D檢測框,也無需預(yù)測中間的3D場景表示[9,52,4,32]。
更進一步的說就是,直接法可以結(jié)合2D圖像平面和3D空間的幾何關(guān)系來輔助檢測[53,12,40,3]。
例如,可以在圖像平面上估計出某對象的關(guān)鍵點,以幫助使用已知幾何結(jié)構(gòu)構(gòu)建3D box[33,29]。[M3D-RPN][M3D-RPN: monocular 3D region proposal network for object detection. ICCV, 2019.][3]
引入深度感知卷積,它按行劃分輸入并學(xué)習每個區(qū)域的no-shared kernels,以學(xué)習3D空間中位于相關(guān)區(qū)域的特定特征。
可以對場景中的物體進行形狀估計,從而理解三維物體的幾何形狀。
形狀估計可以從3D CAD模型的標記頂點中被監(jiān)督[5,24],或從LiDAR掃描[22],或直接從輸入數(shù)據(jù)以自我監(jiān)督的方式[2]。
直接法的缺點是檢測框直接從2D圖像中生成,沒有產(chǎn)生明確的深度信息,相對于其它方法,定位性能較差。
基于深度的方法(Depth-Based Methods)
該方法先利用深度估計網(wǎng)絡(luò)結(jié)構(gòu)來估計出圖像的像素級深度圖,再將該深度圖作為輸入用于3D目標檢測任務(wù),[論文][Deep ordinal regression network for monocular depth estimation. CVPR, 2018.]。
將估計的深度圖與原圖像結(jié)合,再執(zhí)行3D檢測任務(wù)的論文有許多[38,64,36,13]。
深度圖可以轉(zhuǎn)換成3D點云,這種方法被稱為偽激光雷達(Pseudo-LiDAR)[59],或者直接使用[61,65],或者結(jié)合圖像信息[62,37]來生成3D目標檢測結(jié)果。
基于深度的方法在訓(xùn)練階段將深度估計從三維目標檢測任務(wù)中分離,導(dǎo)致還需要學(xué)習用于三維檢測任務(wù)的次佳的深度地圖。
如何理解上邊這句話呢?**對于屬于感興趣的目標的像素,應(yīng)該優(yōu)先考慮獲取精確的深度信息,而對于背景像素則不那么重要,如果深度估計和目標檢測是獨立訓(xùn)練的,則無法捕捉到這一屬性。
**所以將深度估計和目標檢測任務(wù)融合成一個網(wǎng)絡(luò),效果會不會更好呢?
基于網(wǎng)格的方法(Grid-Based Methods)
基于網(wǎng)格的方法通過預(yù)測BEV網(wǎng)格表示(BEV grid representation)[48,55],來避免估計用做3D 檢測框架輸入的原始深度值。
具體來說,OFT[48]通過將體素投射到圖像平面和采樣圖像特征來填充體素網(wǎng)格,并將其轉(zhuǎn)換為BEV表示。
多個體素可以投影到同一圖像特征上,導(dǎo)致特征沿著投影射線重復(fù)出現(xiàn),降低了檢測精度。
2. 什么是單目3D目標檢測?
推薦參考博客:
單目3D目標檢測論文筆記 3D Bounding Box Estimation - 知乎
ICCV 2021 | 悉尼大學(xué)&商湯提出GUPNet:單目3D目標檢測新網(wǎng)絡(luò)
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。