博客專欄

EEPW首頁(yè) > 博客 > RandomRooms:用于3D目標(biāo)檢測(cè)的無(wú)監(jiān)督預(yù)訓(xùn)練方法(ICCV2021)

RandomRooms:用于3D目標(biāo)檢測(cè)的無(wú)監(jiān)督預(yù)訓(xùn)練方法(ICCV2021)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2021-11-06 來(lái)源:工程師 發(fā)布文章

論文標(biāo)題:RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection

論文地址:https://arxiv.org/abs/2108.07794

1.png

摘要:近年來(lái),三維點(diǎn)云理解取得了一定的進(jìn)展。然而,一個(gè)主要的瓶頸是有注釋的真實(shí)數(shù)據(jù)集的稀缺,尤其是與2D目標(biāo)檢測(cè)任務(wù)相比,因?yàn)閷?duì)注釋場(chǎng)景的真實(shí)掃描需要大量的人力。解決這一問(wèn)題的一個(gè)方法是利用由計(jì)算機(jī)輔助設(shè)計(jì)對(duì)象模型組成的合成數(shù)據(jù)集來(lái)實(shí)現(xiàn)在真實(shí)數(shù)據(jù)集上的學(xué)習(xí),上述方法可以采用預(yù)訓(xùn)練和微調(diào)程序?qū)崿F(xiàn)。但是,當(dāng)將在合成目標(biāo)上學(xué)習(xí)的特征轉(zhuǎn)移到真實(shí)世界中應(yīng)用時(shí),往往會(huì)失敗。在這項(xiàng)工作中,研究人員提出了一種新的方法,通過(guò)利用合成計(jì)算機(jī)輔助設(shè)計(jì)數(shù)據(jù)集中的目標(biāo)來(lái)生成場(chǎng)景的隨機(jī)布局,并且通過(guò)對(duì)從同一組合成目標(biāo)生成的兩個(gè)隨機(jī)場(chǎng)景應(yīng)用object-level對(duì)比學(xué)習(xí)來(lái)學(xué)習(xí)3D場(chǎng)景表示,用于為后期微調(diào)提供更好的初始化。從經(jīng)驗(yàn)上看,該方法在幾個(gè)基本模型上的下游3D檢測(cè)任務(wù)上的性能具有提升,尤其是當(dāng)使用較少的訓(xùn)練數(shù)據(jù)時(shí),上述結(jié)果證明了該研究方法的有效性和通用性。通過(guò)運(yùn)用豐富的語(yǔ)義知識(shí)和合成數(shù)據(jù)的多樣化對(duì)象,研究人員的方法在廣泛使用的3D檢測(cè)基準(zhǔn)ScanNetV2和SUN RGB-D上獲取了當(dāng)前最好的性能。研究人員期望該方法有望為目標(biāo)和場(chǎng)景級(jí)別的3D理解提供新的視角。

研究貢獻(xiàn):

在這項(xiàng)工作中,研究人員提出了一個(gè)新的框架,旨在對(duì)下游3D對(duì)象檢測(cè)任務(wù)進(jìn)行微調(diào)之前,先使用合成CAD模型數(shù)據(jù)集(即ShapeNet)進(jìn)行三維預(yù)訓(xùn)練。為此,研究人員提出了RandomRooms的方法,其中,研究人員建議使用從ShapeNet數(shù)據(jù)集中隨機(jī)抽樣的一組對(duì)象生成兩種不同的場(chǎng)景布局,然后在object-level對(duì)兩者進(jìn)行對(duì)比學(xué)習(xí)。

研究方法:

1.合成對(duì)象

與ScanNetV2相比,ScanNetV2包含17個(gè)類別的15000個(gè)對(duì)象,ShapeNet提供更為豐富的數(shù)據(jù)源,包含55個(gè)類別的52000個(gè)對(duì)象。因此,本研究的主要目標(biāo)是研究如何使用ShapeNet收集的合成CAD模型來(lái)改進(jìn)下游任務(wù),如真實(shí)數(shù)據(jù)集上的3D檢測(cè)和分割。

現(xiàn)有研究不足:之前的研究工作直接在ShapeNet上進(jìn)行預(yù)訓(xùn)練無(wú)法提高下游檢測(cè)和分割任務(wù)的性能,主要原因可能是ShapeNet上的單個(gè)對(duì)象分類任務(wù)與真實(shí)數(shù)據(jù)集上的多對(duì)象局部化任務(wù)之間存在差距。為了彌補(bǔ)這一差距,研究人員建議利用合成對(duì)象生成偽場(chǎng)景(RandomRooms),以構(gòu)建有助于場(chǎng)景級(jí)理解的訓(xùn)練數(shù)據(jù)。

具體操作步驟:

1)對(duì)象增強(qiáng):研究人員首先將對(duì)象調(diào)整為[0.5m,2.0m]的隨機(jī)大小,以確保對(duì)象與ScanNetV2中的對(duì)象具有相似的大小。然后,研究人員應(yīng)用了常用的對(duì)象點(diǎn)云掃描技術(shù),包括旋轉(zhuǎn)等。

2)布局生成:為了便于生成布局,研究人員將對(duì)象放置在矩形房間中。房間的大小根據(jù)增強(qiáng)對(duì)象的總面積自適應(yīng)調(diào)整。布局基于兩個(gè)簡(jiǎn)單的原則生成:(1)不重疊:任何兩個(gè)對(duì)象不應(yīng)占據(jù)房間中的同一空間;(2)根據(jù)重力原則,物體不應(yīng)漂浮在空中,較大的物體不應(yīng)置于較小的物體之上。對(duì)于每個(gè)對(duì)象,研究人員首先隨機(jī)選擇X-Y平面上滿足上述原則的位置,然后根據(jù)位置的當(dāng)前最大高度確定位置(Z值)。如果當(dāng)前位置的最大高度超過(guò)2米,物體將不會(huì)被放置在某個(gè)位置。

3)場(chǎng)景增強(qiáng):研究人員對(duì)整個(gè)場(chǎng)景應(yīng)用數(shù)據(jù)增強(qiáng),如繞Z軸旋轉(zhuǎn)等。為了使生成的場(chǎng)景更接近真實(shí)場(chǎng)景,研究人員還添加了地板和墻壁作為混淆因素。

示例圖像如下圖所示。

2.png

2.運(yùn)用Random Rooms進(jìn)行表示學(xué)習(xí)

為了利用生成的隨機(jī)房間,研究人員設(shè)計(jì)了一種object-level對(duì)比學(xué)習(xí)(OCL)方法,該方法學(xué)習(xí)區(qū)分性表示而無(wú)需類別標(biāo)注,整體框架如下圖所示。

3.png

研究中給定n個(gè)隨機(jī)采樣對(duì)象,根據(jù)上述步驟生成2個(gè)隨機(jī)房間,采用點(diǎn)云編碼器-****網(wǎng)絡(luò)提取設(shè)定的2個(gè)場(chǎng)景中的特征。為了獲得每個(gè)對(duì)象的特征,研究中對(duì)屬于該對(duì)象的每點(diǎn)特征應(yīng)用平均池化操作:

4.png

然后類似于對(duì)比學(xué)習(xí)中的常見(jiàn)做法,使用多層感知器和L2歸一化將對(duì)象特征投影到單位超球面上,Object-level對(duì)比學(xué)習(xí)目標(biāo)可以寫成:

5.png

實(shí)驗(yàn):

表示學(xué)習(xí)的一個(gè)主要目標(biāo)是學(xué)習(xí)能夠轉(zhuǎn)移到下游任務(wù)的表征。為了將研究人員的Random Rooms方法應(yīng)用于對(duì)于場(chǎng)景級(jí)別的理解(如3D目標(biāo)檢測(cè)),研究人員結(jié)合了無(wú)監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)。具體來(lái)說(shuō),研究人員首先使用本研究方法在ShapeNet上預(yù)訓(xùn)練主干模型,然后使用預(yù)訓(xùn)練的權(quán)重作為初始化,并在下游3D對(duì)象檢測(cè)任務(wù)中進(jìn)一步微調(diào)模型。

(1) 預(yù)訓(xùn)練設(shè)置

研究人員對(duì)ShapeNet進(jìn)行了預(yù)訓(xùn)練,ShapeNet是一個(gè)由55個(gè)常見(jiàn)類別的3D CAD模型表示的具有豐富注釋的形狀組成的數(shù)據(jù)集。要生成隨機(jī)房間,研究人員首先需要從數(shù)據(jù)集中隨機(jī)采樣多個(gè)對(duì)象。研究人員采樣的對(duì)象數(shù)是一個(gè)從12到18的隨機(jī)整數(shù),與ScanNetV2場(chǎng)景中的平均對(duì)象數(shù)相似。然后,對(duì)于每個(gè)采樣對(duì)象,研究人員執(zhí)行隨機(jī)房間生成算法,采用object-level對(duì)比學(xué)習(xí)損失以無(wú)監(jiān)督的方式對(duì)模型進(jìn)行訓(xùn)練.

對(duì)于下游3D目標(biāo)檢測(cè)任務(wù),研究人員使用了其他研究中的主干模型,該模型以40000個(gè)點(diǎn)作為輸入點(diǎn)。根據(jù)相應(yīng)的網(wǎng)絡(luò)模型配置,研究人員使用1024點(diǎn)特征作為主干模型的輸出,并對(duì)該特征進(jìn)行對(duì)比學(xué)習(xí)。在訓(xùn)練期間,研究人員使用初始學(xué)習(xí)率為0.001的Adam優(yōu)化器,對(duì)模型進(jìn)行了300個(gè)epoch的訓(xùn)練,在第100次和第200次epoch時(shí),學(xué)習(xí)率乘以0.1,batch size設(shè)置為16,這樣在每次迭代中,大約200~300個(gè)對(duì)象參與對(duì)比學(xué)習(xí)。

(2) 3D物體檢測(cè)

數(shù)據(jù)集:研究人員在兩個(gè)廣泛使用的3D檢測(cè)基準(zhǔn)上進(jìn)行了實(shí)驗(yàn),ScanNetV2和SUNRGBD。ScanNetV2是一個(gè)具有豐富注釋的室內(nèi)場(chǎng)景三維重建網(wǎng)格數(shù)據(jù)集。它包含1513個(gè)掃描和重建的真實(shí)場(chǎng)景,由18個(gè)不同大小和形狀的不同類別的對(duì)象組成。目前,它是使用輕型RGB-D掃描程序創(chuàng)建的最大的一個(gè)數(shù)據(jù)集。然而,與2D視覺(jué)中的數(shù)據(jù)集相比,它的規(guī)模仍然小得多。研究人員將整個(gè)數(shù)據(jù)集劃分為兩個(gè)子集,分別有1201和312個(gè)場(chǎng)景,用于以下訓(xùn)練和測(cè)試。

SUN RGB-D是用于三維場(chǎng)景理解的單視圖RGB-D數(shù)據(jù)集。它包含10335個(gè)室內(nèi)RGB和深度圖像,帶有對(duì)象邊界框和帶有10種不同對(duì)象類別的語(yǔ)義標(biāo)簽。研究人員也嚴(yán)格遵循相應(yīng)的拆分方法,5285個(gè)樣本作為訓(xùn)練數(shù)據(jù),5050個(gè)樣本作為測(cè)試數(shù)據(jù)。

檢測(cè)模型:研究人員將本方法與最近提出的兩種最先進(jìn)的方法進(jìn)行了比較:一種是VoteNet,另一個(gè)是H3DNet。它們都以無(wú)色的3D點(diǎn)云作為輸入。研究人員還將GSPN、3D-SIS、DSS、F-PointNet、2D-driven和Cloud of gradient等使用其他類型的信息進(jìn)行目標(biāo)檢測(cè)的信息納入比較。

消融研究:如下表所示,研究人員進(jìn)行了三組消融研究,都是在以VoteNet為主干的 ScanNetV2數(shù)據(jù)集上進(jìn)行的,使用mAP@0.25作為評(píng)估指標(biāo)。

首先研究執(zhí)行預(yù)訓(xùn)練的數(shù)據(jù)集的選擇。研究人員發(fā)現(xiàn)在ShapeNet或ScanNetV2上進(jìn)行預(yù)訓(xùn)練都可以提高性能,然而,由于ShapeNet的規(guī)模更大,即來(lái)自更多樣化類別的樣本,與ScanNetV2相比,對(duì)其進(jìn)行預(yù)訓(xùn)練可以獲得更好的結(jié)果。此外,研究中展示了組合兩個(gè)數(shù)據(jù)集以幫助預(yù)訓(xùn)練的可能性,擁有來(lái)自兩個(gè)數(shù)據(jù)集的對(duì)象,與使用單個(gè)數(shù)據(jù)集相比,可以獲得更好的微調(diào)結(jié)果。同時(shí),研究人員研究了用于預(yù)訓(xùn)練的損失函數(shù)的影響。與PointContrast使用的point-level對(duì)比損失相比,可以通過(guò)instance-level對(duì)比損失獲得更好的預(yù)訓(xùn)練結(jié)果。這表明object-level對(duì)比學(xué)習(xí)可以通過(guò)結(jié)合更多instance-level知識(shí)更好地幫助下游定位任務(wù)。此外,由于ShapeNet中對(duì)象的標(biāo)簽易于訪問(wèn),還通過(guò)為對(duì)象的所有點(diǎn)分配相應(yīng)的對(duì)象標(biāo)簽來(lái)增加額外的分割損失。上述說(shuō)明該研究中的無(wú)監(jiān)督預(yù)訓(xùn)練策略可以實(shí)現(xiàn)與合成數(shù)據(jù)集上的監(jiān)督預(yù)訓(xùn)練相當(dāng)?shù)男阅堋?/p>

6.png

可視化:通過(guò)可視化在VoteNet的檢測(cè)結(jié)果,如下圖所示,預(yù)訓(xùn)練的模型可以產(chǎn)生更準(zhǔn)確的檢測(cè)結(jié)果,錯(cuò)誤更少,并且更接近于真實(shí)邊界框??梢暬慕Y(jié)果進(jìn)一步證實(shí)了所提出方法的有效性。

7.png

總結(jié):

該研究提出了一種新的框架,RandomRoom,應(yīng)用于3D預(yù)訓(xùn)練,它可以利用合成的CAD模型數(shù)據(jù)集來(lái)幫助在高級(jí)3D對(duì)象檢測(cè)任務(wù)中學(xué)習(xí)真實(shí)數(shù)據(jù)集。與之前在點(diǎn)級(jí)別執(zhí)行對(duì)比學(xué)習(xí)的工作不同,該研究通過(guò)從CAD模型數(shù)據(jù)集中隨機(jī)采樣的同一組對(duì)象組合兩個(gè)不同的場(chǎng)景,在object-level執(zhí)行對(duì)比學(xué)習(xí),并在多個(gè)基礎(chǔ)模型的3D檢測(cè)任務(wù)中提升了性能,尤其是在使用較少訓(xùn)練數(shù)據(jù)時(shí)。通過(guò)運(yùn)用豐富的語(yǔ)義知識(shí)和合成數(shù)據(jù)的多樣化對(duì)象,研究人員的方法在廣泛使用的3D檢測(cè)基準(zhǔn)ScanNetV2和SUN RGB-D上獲取了當(dāng)前最好的性能。除了這項(xiàng)工作,該研究可以為未來(lái)的研究開(kāi)辟一條新途徑,即如何利用易于訪問(wèn)的合成對(duì)象來(lái)執(zhí)行更復(fù)雜的3D場(chǎng)景理解任務(wù)。

備注:作者也是我們「3D視覺(jué)從入門到精通」特邀嘉賓:一個(gè)超干貨的3D視覺(jué)學(xué)習(xí)社區(qū)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉