MVTN:用于3D形狀識(shí)別的多視圖轉(zhuǎn)換網(wǎng)絡(luò)(ICCV2021)
論文標(biāo)題:MVTN: Multi-View Transformation Network for 3D Shape Recognition
論文、項(xiàng)目地址:在公眾號(hào)「計(jì)算機(jī)視覺(jué)工坊」,后臺(tái)回復(fù)「MVTN」,即可直接下載。
摘要:多視圖投影方法在3D形狀識(shí)別方面能達(dá)到先進(jìn)的性能,現(xiàn)有的這些方法學(xué)習(xí)從多個(gè)視圖聚合信息。然而,對(duì)于所有形狀,這些視圖的相機(jī)視點(diǎn)往往是啟發(fā)式設(shè)置和固定的。為了避免當(dāng)前固化的多視圖方法,研究人員引入了多視圖轉(zhuǎn)換網(wǎng)絡(luò) (MVTN),它基于可微渲染的最新研究進(jìn)展實(shí)現(xiàn)3D形狀識(shí)別的視點(diǎn)回歸。因此,MVTN可以與任何用于3D形狀分類(lèi)的多視圖網(wǎng)絡(luò)一起進(jìn)行端到端的訓(xùn)練。研究人員將MVTN集成到可以渲染3D網(wǎng)格或點(diǎn)云的新型自適應(yīng)多視圖網(wǎng)絡(luò)中。MVTN在3D形狀分類(lèi)和3D形狀檢索任務(wù)中表現(xiàn)出明顯的性能提升,而無(wú)需額外的訓(xùn)練監(jiān)督。在這些任務(wù)中,MVTN在ModelNet40、ShapeNet Core55和最新的ScanObjectNN數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能(提高了6%)。同時(shí)研究表明MVTN可以針對(duì)旋轉(zhuǎn)和遮擋提高網(wǎng)絡(luò)的魯棒性。
研究貢獻(xiàn):
1.提出了MVTN網(wǎng)絡(luò),利用可微分渲染器,支持3D形狀識(shí)別任務(wù)的端到端訓(xùn)練。
2.將MVTN與多視圖方法相結(jié)合,在標(biāo)準(zhǔn)基線ModelNet40、ShapeNet Core55和ScanObjectNN上的3D分類(lèi)和形狀檢索方面取得了當(dāng)前研究中的最佳結(jié)果。
3.MVTN針對(duì)多視圖旋轉(zhuǎn)和遮擋問(wèn)題,提高網(wǎng)絡(luò)的魯棒性,使MVTN在3D模型未完全對(duì)齊或部分裁剪的現(xiàn)實(shí)場(chǎng)景中更加實(shí)用。
研究方法:
1.MultiView 3D 識(shí)別概述
3D多視圖識(shí)別通過(guò)從相同形狀S的多個(gè)視點(diǎn)渲染定義了M幅圖像,這些視圖被輸入至同一個(gè)骨干網(wǎng)絡(luò)f中,使用該網(wǎng)絡(luò)提取每個(gè)視圖的判別特征,然后將這些特征在視圖中進(jìn)行聚合,進(jìn)而用于下游任務(wù),例如分類(lèi)或檢索。
Training Multi-View Networks:
上述公式中的這些參數(shù)表示影響渲染圖像的屬性,包括相機(jī)視點(diǎn)、光線、對(duì)象顏色和背景等。其中R是渲染器,它將形狀Sn和參數(shù)u0作為輸入以生成每個(gè)形狀的M個(gè)多視圖圖像Xn。
Canonical Views:
以前的多視圖方法主要依賴(lài)于與整個(gè)3D數(shù)據(jù)集預(yù)定義相關(guān)的場(chǎng)景參數(shù)u0。特別是,固定的攝像機(jī)視點(diǎn)通常是運(yùn)用數(shù)據(jù)集中3D模型的對(duì)齊進(jìn)行選擇的。最常見(jiàn)的視圖配置是圓形和球形,圓形是在對(duì)象的一個(gè)圓上對(duì)齊視點(diǎn),球形是在對(duì)象的球體上對(duì)齊等距的視點(diǎn)。相比于上述方法,MVTN學(xué)習(xí)回歸每個(gè)形狀的觀點(diǎn),如下圖所示。
2.Multi-View Transformation Network (MVTN)
以前的多視圖方法將多視圖圖像X作為3D形狀的唯一表示,其中X使用固定的場(chǎng)景參數(shù)u0進(jìn)行渲染。本文中考慮一般性的情況,其中u是可變的,但是其在±ubound范圍內(nèi)變化。該研究中,ubound是正數(shù),它定義了場(chǎng)景參數(shù)的允許范圍,將相對(duì)應(yīng)角的ubound設(shè)置為180°和90°。
Differentiable Renderer:
View-Points Conditioned on 3D Shape.:
研究人員通過(guò)學(xué)習(xí)MVTN網(wǎng)絡(luò),將u設(shè)計(jì)為3D形狀的函數(shù)。與依賴(lài)于恒定不變的渲染參數(shù)的上述公式不同,MVTN針對(duì)每個(gè)對(duì)象形狀S自適應(yīng)地預(yù)測(cè)u,并與分類(lèi)器C一起進(jìn)行優(yōu)化。經(jīng)過(guò)端到端訓(xùn)練,以最大限度地減少N個(gè)對(duì)象數(shù)據(jù)集上的損失:
該公式中,G通過(guò)編碼一個(gè)3D形狀以預(yù)測(cè)其針對(duì)特定任務(wù)的多視圖網(wǎng)絡(luò)C的最佳視點(diǎn)。由于G僅用于預(yù)測(cè)視點(diǎn)而不是對(duì)對(duì)象進(jìn)行分類(lèi),因此其架構(gòu)較為簡(jiǎn)單輕便。因此,研究人員使用一個(gè)簡(jiǎn)單的點(diǎn)編碼器(例如PointNet中的共享MLP),處理來(lái)自S的P個(gè)點(diǎn)并產(chǎn)生維度 b上的粗略形狀特征。然后,淺層MLP從全局形狀特征中回歸場(chǎng)景參數(shù)。為了控制預(yù)測(cè)參數(shù)u在允許的范圍ubound內(nèi),研究人員使用由ubound縮放的雙曲正切函數(shù)。
MVTN for 3D Shape Classification:
為了訓(xùn)練MVTN實(shí)現(xiàn)3D形狀分類(lèi),研究人員定義了交叉熵?fù)p失,但也可以使用其他損失和正則化器。多視圖網(wǎng)絡(luò)(C)和MVTN(G)在相同的損失上進(jìn)行聯(lián)合訓(xùn)練。該多視圖網(wǎng)絡(luò)的一個(gè)優(yōu)點(diǎn)是它能夠無(wú)縫處理3D點(diǎn)云,這在以前的多視圖方法中是不存在的。當(dāng)S是3D點(diǎn)云時(shí),簡(jiǎn)單地將R定義為可微分點(diǎn)云渲染器。
MVTN for 3D Shape Retrieval:
三維形狀檢索任務(wù)定義如下:給定一個(gè)查詢(xún)形狀Sq,在大小為N的集合中找到最相似的形狀。對(duì)于這個(gè)任務(wù),研究人員遵循MVCNN中的檢索設(shè)置,并且考慮了C中分類(lèi)器之前最后一層的深層特征表示,使用LFDA以減少將這些特征投影到更具表現(xiàn)力的空間中,并將減少的特征視為描述形狀的特征。
實(shí)驗(yàn)設(shè)置與結(jié)果:
1.數(shù)據(jù)集:ModelNet40,ShapeNet Core55,ScanObjectNN
2.Baseline:Voxel Networks,Point Cloud Networks,Multi-view Networks
3.結(jié)構(gòu):研究人員選擇MVCNN、RotationNet和ViewGCN作為在MVTN管道中選擇的多視圖網(wǎng)絡(luò)。實(shí)驗(yàn)中,選擇 PointNet作為3D點(diǎn)編碼器網(wǎng)絡(luò)G,從每個(gè)網(wǎng)格中采樣P = 2048 個(gè)點(diǎn)作為點(diǎn)編碼器的輸入,并使用5層MLP進(jìn)行回歸網(wǎng)絡(luò),它將大小為b = 40的點(diǎn)編碼器提取的點(diǎn)特征作為輸入。所有MVTN變體和baseline多視圖網(wǎng)絡(luò)使用在ImageNet上預(yù)訓(xùn)練的ResNet-18作為C中的多視圖主干網(wǎng)絡(luò),輸出特征大小為d=1024。主要分類(lèi)和檢索采用基于 MVTN-sphereal和ViewGCN的多視圖網(wǎng)絡(luò)C。
4.實(shí)驗(yàn)結(jié)果:
相關(guān)實(shí)驗(yàn)結(jié)果如上面幾個(gè)表格所示,其中表1在ModelNet40上比較了MVTN與其他方法的性能,與以前的方法相比,MVTN實(shí)現(xiàn)了93.8%的測(cè)試準(zhǔn)確率。ViewGCN依靠來(lái)自更先進(jìn)但不可微分的OpenGL渲染器的更高質(zhì)量的圖像來(lái)實(shí)現(xiàn)更高的分類(lèi)性能。為了公平比較,研究人員使用MVTN中使用的渲染器生成的圖像報(bào)告了ViewGCN的性能。使用相同的渲染過(guò)程,使用MVTN提高了基線ViewGCN在12視圖和20視圖的分類(lèi)性能。研究人員認(rèn)為可微渲染的進(jìn)展將彌合渲染圖像與原始高質(zhì)量預(yù)渲染圖像之間的差距。表2報(bào)告了12視圖MVTN在實(shí)際ScanObjectNN基準(zhǔn)測(cè)試上的分類(lèi)精度。MVTN提高了數(shù)據(jù)集不同變體的性能。ScanObjectNN(PB_T50_RS)最困難的變體包括物體進(jìn)行平移和旋轉(zhuǎn)的挑戰(zhàn)性場(chǎng)景。本研究中的MVTN在這個(gè)變體上取得了最先進(jìn)的結(jié)果(+2.6%),突出了MVTN在逼真3D點(diǎn)云掃描方面的優(yōu)點(diǎn)。表3報(bào)告了MVTN的檢索mAP與最近在ModelNet40和ShapeNet Core55上的方法比較的結(jié)果。表4體現(xiàn)了對(duì)訓(xùn)練模型魯棒性的檢測(cè)。
總結(jié):
當(dāng)前的多視圖方法依賴(lài)于與數(shù)據(jù)集對(duì)齊的固定視圖。本研究中提出了MVTN,可以在完全可微中學(xué)習(xí)回歸任何多視圖網(wǎng)絡(luò)的視點(diǎn)。MVTN利用可微渲染的最新發(fā)展,并且不需要任何額外的培訓(xùn)監(jiān)督。上述實(shí)驗(yàn)結(jié)果體現(xiàn)了MVTN在3D分類(lèi)和3D形狀檢索中的優(yōu)勢(shì)。MVTN未來(lái)的研究工作可能包括將其擴(kuò)展到其他3D視覺(jué)任務(wù),例如形狀和場(chǎng)景分割。此外,MVTN可以包括與攝像機(jī)視點(diǎn)不同的更復(fù)雜的場(chǎng)景參數(shù),例如光線和紋理。
備注:作者也是我們「3D視覺(jué)從入門(mén)到精通」知識(shí)特邀嘉賓:一個(gè)超干貨的3D視覺(jué)學(xué)習(xí)社區(qū)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。