CVPR2022 | PanopticDepth：深度感知全景分割的統(tǒng)一框架

發(fā)布人：計(jì)算機(jī)視覺(jué)工坊時(shí)間：2022-06-22 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

作者丨簡(jiǎn)單

來(lái)源丨 CV技術(shù)指南

前言本文提出了一種基于深度感知的全景分割（DPS）的統(tǒng)一框架，旨在從一幅圖像中重建具有實(shí)例級(jí)語(yǔ)義的三維場(chǎng)景。該框架將動(dòng)態(tài)卷積技術(shù)應(yīng)用于全景分割（PS）和深度預(yù)測(cè)任務(wù)中，以生成特定于實(shí)例的內(nèi)核來(lái)預(yù)測(cè)每個(gè)實(shí)例的深度和分割掩碼。此外，利用實(shí)例級(jí)深度估計(jì)方案，添加了額外的實(shí)例級(jí)深度線索，以通過(guò)新的深度損失來(lái)幫助監(jiān)督深度學(xué)習(xí)。

論文：PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation

論文：http://arxiv.org/pdf/2206.00468

代碼：

https://github.com/NaiyuGao/PanopticDepth.

背景

深度感知全景分割（DPS）是場(chǎng)景理解中的一項(xiàng)新的挑戰(zhàn)性任務(wù)，它試圖從單個(gè)圖像構(gòu)建具有實(shí)例級(jí)語(yǔ)義理解的三維場(chǎng)景。

DPS的一個(gè)簡(jiǎn)單解決方案是在全景分割（PS）網(wǎng)絡(luò)中添加一個(gè)密集的深度回歸頭，為每個(gè)標(biāo)記的像素生成一個(gè)深度值，該方法直觀但次優(yōu)。

由于它使用兩個(gè)獨(dú)立的分支處理這兩個(gè)任務(wù)，因此它沒(méi)有探索它們之間的互利關(guān)系，尤其是沒(méi)有利用方便的實(shí)例級(jí)語(yǔ)義線索來(lái)提高深度準(zhǔn)確性。

另外，作者觀察到，相鄰實(shí)例的像素通常具有不連續(xù)的深度。例如，一條線中的兩輛車可能有不同的深度。因此，使用相同的像素深度回歸器很難預(yù)測(cè)兩輛車的準(zhǔn)確深度。

另一方面，作者考慮到這些像素來(lái)自不同的車輛，如果分別使用單獨(dú)的回歸器，則有利于深度估計(jì)。

按照上述思路，作者在本文中提出了一個(gè)可以以相同的實(shí)例方式預(yù)測(cè)掩碼和深度值的統(tǒng)一的PanopticDepth模型框架（如圖1）。

圖1 深度感知全景分割統(tǒng)一解決方案的示例

貢獻(xiàn)

1.提出了一種特定于實(shí)例的動(dòng)態(tài)卷積核技術(shù)將深度估計(jì)和全景分割方法統(tǒng)一起來(lái)，從而提高了這兩種任務(wù)的性能。

2.為了簡(jiǎn)化深度估計(jì)，受批量歸一化的啟發(fā)，提出將每個(gè)實(shí)例深度圖表示為三元組，即歸一化深度圖、深度范圍和深度偏移，將原始實(shí)例深度映射的值規(guī)范化為[0，1]，以提高了學(xué)習(xí)效率。

3.基于新的深度圖表示（如深度偏移）添加了實(shí)例級(jí)深度統(tǒng)計(jì)，以加強(qiáng)深度監(jiān)控。為適應(yīng)這種新的監(jiān)督，提出了相應(yīng)的深度損失，以改進(jìn)深度預(yù)測(cè)。

方法

作者提出了一種統(tǒng)一的深度感知全景分割模型PanopticDepth，它以相同的實(shí)例方式預(yù)測(cè)掩模和深度值。除了主干網(wǎng)和特征金字塔網(wǎng)絡(luò)之外，它還包括三個(gè)子網(wǎng)絡(luò)，包括用于生成實(shí)例分類的核生成器、實(shí)例特定掩碼和深度卷積核、用于生成實(shí)例掩碼的全景分割模型以及用于估計(jì)實(shí)例深度的實(shí)例深度圖生成器。網(wǎng)絡(luò)架構(gòu)如圖2所示。

圖2 PanopticDepth框架

1.內(nèi)核生成器

通過(guò)核生成器子網(wǎng)絡(luò)生成實(shí)例分類、掩碼卷積核和深度估計(jì)核（圖2的上半部分）。內(nèi)核生成器基于最先進(jìn)的全景分割模型PanopticFCN，該模型采用了PS的動(dòng)態(tài)卷積技術(shù)，與其他最新方法相比，所需的訓(xùn)練時(shí)間和GPU內(nèi)存更少。

作者采用的內(nèi)核生成器分為內(nèi)核生成器和內(nèi)核融合兩個(gè)階段。在內(nèi)核生成器階段，將FPN中第i階段的一個(gè)單階段特征作為輸入，生成器生成一個(gè)內(nèi)核權(quán)重映射，以及分別為對(duì)象和對(duì)象生成的兩個(gè)位置映射，給定每個(gè)FPN階段的位置圖和核權(quán)重圖，在核融合階段，合并多個(gè)FPN階段的重復(fù)核權(quán)重，通過(guò)提出的自適應(yīng)核融合（AKF）操作實(shí)現(xiàn)的。

2.全景分割

采用了一種特定于實(shí)例的核方法來(lái)執(zhí)行全景分割，如圖2底部所示。thing和stuff實(shí)例的掩碼M是通過(guò)卷積共享的高分辨率掩碼嵌入映射得到的∈ ，掩碼核為，然后進(jìn)行Sigmoid激活：

首先丟棄冗余實(shí)例掩碼。然后，將所有剩余的實(shí)例掩碼與argmax合并，以生成不重疊的全景分割結(jié)果，這樣每個(gè)像素都被分配到一個(gè)事物或填充片段，而沒(méi)有任何像素標(biāo)記為“VOID”。

此外，作者還提出了一個(gè)額外的訓(xùn)練過(guò)程，即在全圖像尺度上微調(diào)學(xué)習(xí)模型，但批量較小。以彌補(bǔ)訓(xùn)練和測(cè)試之間的性能差距。

3.基于實(shí)例的深度估計(jì)

通過(guò)在全景分割中使用的相同實(shí)例特定核技術(shù)來(lái)預(yù)測(cè)每個(gè)實(shí)例的深度，該技術(shù)將深度估計(jì)和全景分割的管道統(tǒng)一起來(lái)。如圖2的中間部分所示，首先在深度嵌入上運(yùn)行深度核以生成實(shí)例深度圖，然后根據(jù)全景分割結(jié)果合并這些單獨(dú)的圖像以生成最終的整體深度圖。

3.1深度生成器

給定實(shí)例特定深度內(nèi)核Kd和共享深度嵌入Ed，類似于實(shí)例掩碼生成過(guò)程，通過(guò)卷積和Sigmoid激活生成規(guī)范化的實(shí)例深度圖D'，然后通過(guò)等式4或等式5將其非規(guī)范化為深度圖D：

其中深度圖D′只對(duì)每個(gè)實(shí)例中的相對(duì)深度值進(jìn)行編碼，因此可以更容易地學(xué)習(xí)。此外，作者開(kāi)發(fā)了兩種歸一化方案，即公式4和公式5，并發(fā)現(xiàn)后者效果更好。

在獲得所有實(shí)例深度圖之后，作者根據(jù)不重疊的全景分割掩碼M將它們聚合為一個(gè)完整的圖像深度圖。這在實(shí)例邊界處生成了精確的深度值。

3.2深度損失

作者基于比例不變對(duì)數(shù)誤差和相對(duì)平方誤差的組合開(kāi)發(fā)了深度損失函數(shù)，如下：

由于采用了基于實(shí)例的深度估計(jì)方法，作者在傳統(tǒng)的像素級(jí)監(jiān)控和額外的實(shí)例級(jí)監(jiān)控下學(xué)習(xí)深度預(yù)測(cè)，這從經(jīng)驗(yàn)上提高了深度精度。為了實(shí)現(xiàn)雙重監(jiān)督，最終深度損失Ldep包括兩個(gè)損失項(xiàng)。一個(gè)是像素級(jí)深度損失，另一個(gè)是實(shí)例級(jí)深度損失：

實(shí)驗(yàn)

表1：城市景觀驗(yàn)證和測(cè)試集的全景分割結(jié)果?！盇KF：“自適應(yīng)內(nèi)核融合”FSF：全面微調(diào)

表2：城市景觀DPS上的深度感知全景分割結(jié)果

表3：城市景觀DPS的消融研究?！盜DE“：實(shí)例深度估計(jì)”IDN“：實(shí)例深度規(guī)范化

表4：城市景觀的單目深度估計(jì)結(jié)果方法利用全景分割注釋

圖3：像素級(jí)深度估計(jì)在兩個(gè)實(shí)例的邊界處輸出平滑值，而實(shí)例級(jí)深度估計(jì)可以生成更合理的不連續(xù)深度值

圖4：PanopticDepth模型的預(yù)測(cè)示例

結(jié)論

本文提出了一個(gè)統(tǒng)一的深度感知全景分割框架，生成特定于實(shí)例的內(nèi)核來(lái)預(yù)測(cè)每個(gè)實(shí)例的深度和分割掩碼。

采用動(dòng)態(tài)核技術(shù)將高層目標(biāo)信息引入深度估計(jì)，使用深度偏移和深度范圍對(duì)每個(gè)實(shí)例深度圖進(jìn)行歸一化，以簡(jiǎn)化共享深度嵌入的學(xué)習(xí)。

此外，本文還提出了一種新的深度損失方法來(lái)監(jiān)督實(shí)例級(jí)深度線索的深度學(xué)習(xí)。在城市景觀DPS和SemKITTI DPS基準(zhǔn)上的實(shí)驗(yàn)證明了該方法的有效性。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

晶振相關(guān)文章:晶振原理

博客專欄

CVPR2022 | PanopticDepth：深度感知全景分割的統(tǒng)一框架

相關(guān)推薦

技術(shù)專區(qū)