博客專欄

EEPW首頁 > 博客 > CLOCs:3D目標(biāo)檢測多模態(tài)融合之Late-Fusion

CLOCs:3D目標(biāo)檢測多模態(tài)融合之Late-Fusion

發(fā)布人:計算機視覺工坊 時間:2020-09-11 來源:工程師 發(fā)布文章

0 前言

目前很多3D目標(biāo)檢測的工作都朝著多模態(tài)融合的方向發(fā)展,即是不僅僅使用單張圖像或者僅僅使用點云做3D目標(biāo)檢測任務(wù),而是在融合這兩種傳感器信息上作出一定的探索,今天筆者想要分享的一篇研究工作即是在這方面比較新的文章。論文
筆者給出該文章目前在KITTI object 3d的實驗效果如下.(本文介紹的這篇文章于20.9.1放置在arxiv上,并不是下圖對應(yīng)的IROS的文章,但是是同一個作者)

10.png

KITTI檢測結(jié)果可視化如下。

1599794257969925.png

1 背景知識

1.1 三種多模態(tài)融合的方法

不僅僅是指點云和圖像的兩種模態(tài)的信息融合方法,一般的來講針對多模態(tài)信息的融合一般有如下的幾種方式。
Early-Fusion

Early-Fusion 即是在對原始傳感器數(shù)據(jù)做特征提取之前做特征融合。在3D目標(biāo)檢測中有文章pointpainting(CVPR 20),PIRCNN(AAAI20)等文章采用這種方式,就pointpainting而言,首先是對image圖像做語義分割,然后將分割后的特征通過點到圖像像素的矩陣映射到點云上。再經(jīng)過深度學(xué)習(xí)網(wǎng)絡(luò)對Bbox回歸。就理論上講,該種融合方法是多模態(tài)融合的可能最好的方法,因為此時對應(yīng)的特征在現(xiàn)實中存在一定的索引關(guān)系和更少的特征抽象。

1599794303596945.png

Deep Fusion

如下圖所示的融合方法,該融合需要在特征層中做一定的交互。目前就3D目標(biāo)檢測多模態(tài)的研究中,存在的文章有今年ECCV的EPNet,3的CVF等文章,就EPnet而言,主要的融合方式是對lidar 和image分支都各自采用特征提取器,對圖像分支和lidar分支的網(wǎng)絡(luò)在前饋的層次中逐語義級別融合,做到multi-scale信息的語義融合。這是這里提到的三種融合方法中比較難,也是最可能創(chuàng)造出新的融合方法的融合方式。

1599794338786944.png

Late fusion

如下圖所示,最簡單的融合方法就是兩種模態(tài)的特征不在特征層或者最開始就融合,因為不同傳感器的數(shù)據(jù)本身存在比較大的差異,就LiDAR和Image而言,最大的差異就在view的不同,導(dǎo)致在圖像上存在物體scale隨距離的不同而改變,但是在點云上不存在這個問題;此外,筆者認(rèn)為圖像和點云做特征層的融合最大的難點也在像素和點云點之間索引精準(zhǔn)性和領(lǐng)域差異的問題。就本文介紹的這篇文章而言,采用了late fusion的融合方法,因此作者自己給出的本文的優(yōu)勢在于該融合方式是low-complexity的。

1599794355619040.png

總結(jié)一下上訴提到的三種融合方式,其中第一種的early-fusion實際上是在最初的輸入上的融合,而deep-fusion則是在特征層面上的融合,最后的late-fusion則是對應(yīng)在決策層上的融合。
1.2 主要的幾種多模態(tài)融合方法

目前3D目標(biāo)檢測的多模態(tài)融合的方法可以從最早的F-pointnet說起(CVPR17),PointFusion(CVPR18),F(xiàn)rustum ConvNet(ICRA18)都是通過2D目標(biāo)檢測器首先生成Bbox,然后再采用投影到三維點云上做進一步對Bbox做優(yōu)化工作,該類方法對2D的檢測的效果比較依賴。后續(xù)是AVOD(CVPR18)和MV3D(CVPR17),從BEV視圖上對點云做特征提取,但是該類方法存在點云到BEV視圖的壓縮時丟失幾何結(jié)構(gòu)信息。MMF(CVPR19)將點云BEV視圖信息和圖像信息在point-wise級別上做特征融合。


2. 本文的工作

2.1 主要創(chuàng)新點

1. Versatility & Modularity

本文的方法使用任何一對預(yù)先訓(xùn)練好的2D和3D檢測器,而不需要再訓(xùn)練,因此,可以很容易地被任何相關(guān)的已經(jīng)優(yōu)化的檢測方法所使用。
2. Probabilistic-driven Learning-based Fusion

CLOCs的設(shè)計目的是利用二維和三維檢測的幾何和語義一致性,自動學(xué)習(xí)訓(xùn)練數(shù)據(jù)的概率依賴進行融合。
4. Detection Performance

CLOCs改進了單模態(tài)檢測器的檢測性能,以達到新的水平。
2.2 主要工作

1. 怎么做點云和圖像的融合工作

筆者前面介紹了目前流型的三種常用的多模態(tài)特征融合工作,而本文采用的則是在決策層面的特征融合,即是late-fusion,這樣融合的好處在于兩種模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)之間互不干擾,可以獨自訓(xùn)練和組合;但是也存在一定的缺點就是在決策層做融合實際上是對原始數(shù)據(jù)信息融合的最少的。同樣就前文中描述的late-fusion存在的問題而言,兩種模各自產(chǎn)生對應(yīng)的proposals,每個proposals在對應(yīng)的模態(tài)中的置信分?jǐn)?shù)是不存在聯(lián)系的,因此需要解決的問題之一就是讓多模態(tài)之間產(chǎn)生的proposals置信分?jǐn)?shù)存在聯(lián)系。
2. 如何讓不同模態(tài)的proposals存在聯(lián)系

也就是上面提到的問題,這里的話,作者采用的方式是Geometric-consistency和Semantic-consistency這兩種。
1)Geometric-consistency:基于如下圖所示的這種觀察:如果說在二維檢測和三維檢測上都同時檢測到這個物體,并且都是ture-positive的,那么這中情況下二維和三維對應(yīng)的角點是大概率一致,或者存在比較小的偏差。但是如果該檢測結(jié)果是flase-positive的,那么兩種檢測器之間的檢測結(jié)果就大概率是在角點上對不上的。因此作者認(rèn)為這種幾何結(jié)構(gòu)一致性是可以作為檢測結(jié)果的一種聯(lián)系。

1599794551992254.png

2)Semantic consistency: 因為對于每一個模態(tài)的檢測器而言,可能都存在多種類別的輸出,作者在融合階段僅僅只是對同類別的object做融合。
3. 網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計

主要的網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示,這里可以看出經(jīng)歷了三個主要的階段(1)2D和3D的目標(biāo)檢測器分別提出proposals(2)將兩種模態(tài)的proposals編碼成稀疏張量(3)對于非空的元素采用二維卷積做對應(yīng)的特征融合。

1599794579477148.png

1)稀疏張量編碼

對于二維圖像檢測出來的二維檢測結(jié)果,如下圖所示,作者采用混合表示的方式表示兩種模態(tài)的的檢測結(jié)果,其中第一項表示在圖像中的第i個檢測結(jié)果和點云中的第j個的幾何一致性(也就是前面提到的Geometric-consistency,這里用IOU表示),第二項內(nèi)容是二維檢測的第i個檢測到的物體的置信度分?jǐn)?shù),第三個為在點云場景下的置信度分?jǐn)?shù)。最后一項表示在點云場景下檢測到的第j個物體到地面的歸一化距離。這樣就可以把該結(jié)果表示為一個系數(shù)的四維張量,后續(xù)可直接輸入卷積網(wǎng)絡(luò)做融合。

1599794620686215.png

2) 網(wǎng)絡(luò)細節(jié)設(shè)計

盡管采用的二維卷積對上述的稀疏張量做特征融合,其對應(yīng)的需求僅僅是融合而不是感知,所以在卷積核的設(shè)計上作者采用的1×1的核大小。如網(wǎng)絡(luò)結(jié)果圖所示的詳細的網(wǎng)絡(luò)參數(shù),最后采用maxpooling的方式選擇最終的融合結(jié)果。


3. 實驗

在KITTI的test數(shù)據(jù)集的BEV視圖上的實驗結(jié)果如下,因為本文實際上提出的是一種融合方法,并不是某種確定的網(wǎng)絡(luò)結(jié)構(gòu),因此對于二維檢測器和三維檢測器的選擇上純在多種可能,就作者的實驗可以看出,PV-RCNN+Cascad RCNNd的實驗效果是最好的。

1599794655802208.png

此外,在val數(shù)據(jù)集上,作者采用當(dāng)前流型的幾種二維目標(biāo)檢測和三維目標(biāo)檢測的網(wǎng)絡(luò)結(jié)合的實驗如下。但是這里筆者需要提到的是,這里采用的是最新的Recall40的結(jié)果而不是前幾年的reall11的結(jié)果,因此顯得比較高也是正常的,但是筆者也認(rèn)為這里應(yīng)該給出對應(yīng)的使用點云的單模態(tài)的精度結(jié)果。

1599794682129115.png

4. 筆者的思考

就本文的內(nèi)容而言,筆者認(rèn)為相對以往的融合工作來說還是容易的,但是作者選擇了最容易操作的late-fusion模式,利用了late-fusion中單模態(tài)檢測器之間互不干擾的特性做了多種檢測器的組合,因此這是值得借鑒和推廣的。
不過筆者還是想提出的就是目前的融合工作更多地都是采用第二種deep-fusion的方式,原因主要是這種融合方式的自由度更大,在特征層的融合可以實現(xiàn)不同傳感器信息之間的互補,而不采用early-fusion的方式則是因為這種融合方式則是該階段會存在更多的視角,特征表示上的差距導(dǎo)致了融合困難。
最后筆者也想推薦一下最近筆者整理的一個項目,該項目主要針對自動駕駛場景的3D目標(biāo)檢測的論文和項目的匯總。方便大家查閱最新的文章。該項目地址為:https://github.com/LittleYuanzi/awesome-Automanous-3D-detection-methods

參考文獻

[1] CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection :https://arxiv.org/pdf/2009.00784.pdf
[2] PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module :https://arxiv.org/pdf/1911.06084
[3]PointPainting: Sequential Fusion for 3D Object Detection. https://arxiv.org/pdf/1911.10150
[4]EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection. https://arxiv.org/pdf/2007.08856
[5]Deep Continuous Fusion for Multi-Sensor 3D Object Detection. http://openaccess.thecvf.com/content_ECCV_2018/papers/Ming_Liang_Deep_Continuous_Fusion_ECCV_2018_paper.pdf
[6]End-to-end Learning of Multi-sensor 3D Tracking by Detection. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8462884
[7] IPOD: Intensive Point-based Object Detector for Point Cloud. https://arxiv.org/abs/1812.05276

 

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉