CVPR2022 | PanopticDepth:深度感知全景分割的統(tǒng)一框架
來源丨 CV技術指南
前言 本文提出了一種基于深度感知的全景分割(DPS)的統(tǒng)一框架,旨在從一幅圖像中重建具有實例級語義的三維場景。該框架將動態(tài)卷積技術應用于全景分割(PS)和深度預測任務中,以生成特定于實例的內(nèi)核來預測每個實例的深度和分割掩碼。此外,利用實例級深度估計方案,添加了額外的實例級深度線索,以通過新的深度損失來幫助監(jiān)督深度學習。
論文:PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation
論文:http://arxiv.org/pdf/2206.00468
代碼:
https://github.com/NaiyuGao/PanopticDepth.
背景
深度感知全景分割(DPS)是場景理解中的一項新的挑戰(zhàn)性任務,它試圖從單個圖像構建具有實例級語義理解的三維場景。
DPS的一個簡單解決方案是在全景分割(PS)網(wǎng)絡中添加一個密集的深度回歸頭,為每個標記的像素生成一個深度值,該方法直觀但次優(yōu)。
由于它使用兩個獨立的分支處理這兩個任務,因此它沒有探索它們之間的互利關系,尤其是沒有利用方便的實例級語義線索來提高深度準確性。
另外,作者觀察到,相鄰實例的像素通常具有不連續(xù)的深度。例如,一條線中的兩輛車可能有不同的深度。因此,使用相同的像素深度回歸器很難預測兩輛車的準確深度。
另一方面,作者考慮到這些像素來自不同的車輛,如果分別使用單獨的回歸器,則有利于深度估計。
按照上述思路,作者在本文中提出了一個可以以相同的實例方式預測掩碼和深度值的統(tǒng)一的PanopticDepth模型框架(如圖1)。
圖1 深度感知全景分割統(tǒng)一解決方案的示例
貢獻
1.提出了一種特定于實例的動態(tài)卷積核技術將深度估計和全景分割方法統(tǒng)一起來,從而提高了這兩種任務的性能。
2.為了簡化深度估計,受批量歸一化的啟發(fā),提出將每個實例深度圖表示為三元組,即歸一化深度圖、深度范圍和深度偏移,將原始實例深度映射的值規(guī)范化為[0,1],以提高了學習效率。
3.基于新的深度圖表示(如深度偏移)添加了實例級深度統(tǒng)計,以加強深度監(jiān)控。為適應這種新的監(jiān)督,提出了相應的深度損失,以改進深度預測。
方法
作者提出了一種統(tǒng)一的深度感知全景分割模型PanopticDepth,它以相同的實例方式預測掩模和深度值。除了主干網(wǎng)和特征金字塔網(wǎng)絡之外,它還包括三個子網(wǎng)絡,包括用于生成實例分類的核生成器、實例特定掩碼和深度卷積核、用于生成實例掩碼的全景分割模型以及用于估計實例深度的實例深度圖生成器。網(wǎng)絡架構如圖2所示。
圖2 PanopticDepth框架
1.內(nèi)核生成器
通過核生成器子網(wǎng)絡生成實例分類、掩碼卷積核和深度估計核(圖2的上半部分)。內(nèi)核生成器基于最先進的全景分割模型PanopticFCN,該模型采用了PS的動態(tài)卷積技術,與其他最新方法相比,所需的訓練時間和GPU內(nèi)存更少。
作者采用的內(nèi)核生成器分為內(nèi)核生成器和內(nèi)核融合兩個階段。在內(nèi)核生成器階段,將FPN中第i階段的一個單階段特征作為輸入,生成器生成一個內(nèi)核權重映射,以及分別為對象和對象生成的兩個位置映射,給定每個FPN階段的位置圖和核權重圖,在核融合階段,合并多個FPN階段的重復核權重,通過提出的自適應核融合(AKF)操作實現(xiàn)的。
2.全景分割
采用了一種特定于實例的核方法來執(zhí)行全景分割,如圖2底部所示。thing和stuff實例的掩碼M是通過卷積共享的高分辨率掩碼嵌入映射得到的∈ ,掩碼核為,然后進行Sigmoid激活:
首先丟棄冗余實例掩碼。然后,將所有剩余的實例掩碼與argmax合并,以生成不重疊的全景分割結果,這樣每個像素都被分配到一個事物或填充片段,而沒有任何像素標記為“VOID”。
此外,作者還提出了一個額外的訓練過程,即在全圖像尺度上微調(diào)學習模型,但批量較小。以彌補訓練和測試之間的性能差距。
3.基于實例的深度估計
通過在全景分割中使用的相同實例特定核技術來預測每個實例的深度,該技術將深度估計和全景分割的管道統(tǒng)一起來。如圖2的中間部分所示,首先在深度嵌入上運行深度核以生成實例深度圖,然后根據(jù)全景分割結果合并這些單獨的圖像以生成最終的整體深度圖。
3.1深度生成器
給定實例特定深度內(nèi)核Kd和共享深度嵌入Ed,類似于實例掩碼生成過程,通過卷積和Sigmoid激活生成規(guī)范化的實例深度圖D',然后通過等式4或等式5將其非規(guī)范化為深度圖D:
其中深度圖D′只對每個實例中的相對深度值進行編碼,因此可以更容易地學習。此外,作者開發(fā)了兩種歸一化方案,即公式4和公式5,并發(fā)現(xiàn)后者效果更好。
在獲得所有實例深度圖之后,作者根據(jù)不重疊的全景分割掩碼M將它們聚合為一個完整的圖像深度圖。這在實例邊界處生成了精確的深度值。
3.2深度損失
作者基于比例不變對數(shù)誤差和相對平方誤差的組合開發(fā)了深度損失函數(shù),如下:
由于采用了基于實例的深度估計方法,作者在傳統(tǒng)的像素級監(jiān)控和額外的實例級監(jiān)控下學習深度預測,這從經(jīng)驗上提高了深度精度。為了實現(xiàn)雙重監(jiān)督,最終深度損失Ldep包括兩個損失項。一個是像素級深度損失,另一個是實例級深度損失:
實驗
表1:城市景觀驗證和測試集的全景分割結果。”AKF:“自適應內(nèi)核融合”FSF:全面微調(diào)
表2:城市景觀DPS上的深度感知全景分割結果
表3:城市景觀DPS的消融研究?!盜DE“:實例深度估計”IDN“:實例深度規(guī)范化
表4:城市景觀的單目深度估計結果方法利用全景分割注釋
圖3:像素級深度估計在兩個實例的邊界處輸出平滑值,而實例級深度估計可以生成更合理的不連續(xù)深度值
圖4:PanopticDepth模型的預測示例
結論
本文提出了一個統(tǒng)一的深度感知全景分割框架,生成特定于實例的內(nèi)核來預測每個實例的深度和分割掩碼。
采用動態(tài)核技術將高層目標信息引入深度估計,使用深度偏移和深度范圍對每個實例深度圖進行歸一化,以簡化共享深度嵌入的學習。
此外,本文還提出了一種新的深度損失方法來監(jiān)督實例級深度線索的深度學習。在城市景觀DPS和SemKITTI DPS基準上的實驗證明了該方法的有效性。
本文僅做學術分享,如有侵權,請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
晶振相關文章:晶振原理