博客專欄

EEPW首頁(yè) > 博客 > 多任務(wù)學(xué)習(xí) | YOLOP,一個(gè)網(wǎng)絡(luò)同時(shí)完成三大任務(wù)

多任務(wù)學(xué)習(xí) | YOLOP,一個(gè)網(wǎng)絡(luò)同時(shí)完成三大任務(wù)

發(fā)布人:CV研究院 時(shí)間:2022-07-23 來(lái)源:工程師 發(fā)布文章
YOLOP: You Only Look Once for Panoptic Driving Perception。提出了一個(gè)全景駕駛感知網(wǎng)絡(luò)(YOLOP)來(lái)同時(shí)執(zhí)行交通目標(biāo)檢測(cè)、可行駛區(qū)域分割車道檢測(cè)。


一、前言


全景駕駛感知系統(tǒng)是自動(dòng)駕駛的重要組成部分,高精度、實(shí)時(shí)的感知系統(tǒng)可以輔助車輛在行駛中做出合理的決策。本文提出了一個(gè)全景駕駛感知網(wǎng)絡(luò)(YOLOP)來(lái)同時(shí)執(zhí)行交通目標(biāo)檢測(cè)、可行駛區(qū)域分割和車道檢測(cè)。它由一個(gè)用于特征提取的編碼器和三個(gè)用于處理特定任務(wù)的****組成。所提模型在具有挑戰(zhàn)性的 BDD100K 數(shù)據(jù)集上表現(xiàn)非常出色,在準(zhǔn)確性和速度方面在所有三個(gè)任務(wù)上都達(dá)到了SOTA。此外,本文通過(guò)消融研究驗(yàn)證了所提多任務(wù)學(xué)習(xí)模型對(duì)聯(lián)合訓(xùn)練的有效性,應(yīng)該第一個(gè)可以在嵌入式設(shè)備 Jetson TX2(23 FPS)上用一個(gè)網(wǎng)絡(luò)實(shí)時(shí)同時(shí)處理三個(gè)視覺(jué)感知任務(wù)并保持出色精度的工作。

論文作者 | 華科王興剛老師團(tuán)隊(duì)


二、YOLOP多任務(wù)學(xué)習(xí)
全景駕駛感知系統(tǒng)中通常會(huì)涉及物體檢測(cè),以幫助車輛避開障礙物并遵守交通規(guī)則,還需要可行駛區(qū)域分割和車道檢測(cè),這對(duì)于規(guī)劃車輛的行駛路線至關(guān)重要。已經(jīng)有許多方法在分別處理這些任務(wù),例如,F(xiàn)aster R-CNN 和 YOLOv4 處理對(duì)象檢測(cè),UNet 、DeepLab 和 PSPNet 來(lái)執(zhí)行語(yǔ)義分割,SCNN 和 SAD-ENet 用于檢測(cè)車道。但在自動(dòng)駕駛汽車常用的嵌入式設(shè)備上部署全景駕駛感知系統(tǒng)時(shí),需要考慮有限的計(jì)算資源和延遲,單獨(dú)處理這些任務(wù)需要更長(zhǎng)的耗時(shí)。另外,交通場(chǎng)景理解中的不同任務(wù)往往有很多相關(guān)的信息,如圖 1 所示,車道往往是可行駛區(qū)域的邊界,可行駛區(qū)域通常緊密圍繞著交通目標(biāo)。多任務(wù)網(wǎng)絡(luò)更適合這種情況,因?yàn)椋?)它可以通過(guò)一次處理多個(gè)任務(wù)而不是一個(gè)接一個(gè)地處理來(lái)加速圖像分析過(guò)程,(2)它可以在多個(gè)任務(wù)之間共享信息,這可以提升每一個(gè)任務(wù)的性能,因?yàn)槎嗳蝿?wù)網(wǎng)絡(luò)的每個(gè)任務(wù)通常共享相同的特征提取主干。因此,探索自動(dòng)駕駛中的多任務(wù)方法至關(guān)重要。

圖片

圖1 多任務(wù)模型輸出結(jié)果

多任務(wù)學(xué)習(xí)的目標(biāo)是通過(guò)多個(gè)任務(wù)之間的共享信息來(lái)學(xué)習(xí)更好的表示,尤其是基于CNN的多任務(wù)學(xué)習(xí)方法還可以實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的卷積共享。Mask R-CNN 擴(kuò)展了 Faster R-CNN,增加了一個(gè)預(yù)測(cè)對(duì)象掩碼的分支,有效地結(jié)合了實(shí)例分割和對(duì)象檢測(cè)任務(wù),這兩個(gè)任務(wù)可以相互提升性能。

MultiNet共享一個(gè)編碼器和三個(gè)獨(dú)立的****,同時(shí)完成場(chǎng)景分類、目標(biāo)檢測(cè)和駕駛區(qū)域分割三個(gè)場(chǎng)景感知任務(wù)。它在這些任務(wù)上表現(xiàn)良好,并在 KITTI 可行駛區(qū)域分割任務(wù)上達(dá)到了最先進(jìn)的水平。然而,分類任務(wù)在控制車輛方面不如車道檢測(cè)那么重要。

DLT-Net繼承了編碼器-****結(jié)構(gòu),將交通目標(biāo)檢測(cè)、可行駛區(qū)域分割和車道檢測(cè)結(jié)合在一起,并提出上下文張量來(lái)融合****之間的特征圖,以在任務(wù)之間共享指定信息。雖然具有競(jìng)爭(zhēng)力的性能,但它并沒(méi)有達(dá)到實(shí)時(shí)性。 

張等人提出了車道區(qū)域分割和車道邊界檢測(cè)之間相互關(guān)聯(lián)的子結(jié)構(gòu),同時(shí)提出了一種新的損失函數(shù)來(lái)將車道線限制在車道區(qū)域的外輪廓上,以便它們?cè)趲缀紊现丿B。然而,這個(gè)先驗(yàn)的假設(shè)也限制了它的應(yīng)用,因?yàn)樗贿m用于車道線緊緊包裹車道區(qū)域的場(chǎng)景。

更重要的是,多任務(wù)模型的訓(xùn)練范式也值得思考??档热酥赋鲋挥挟?dāng)所有這些任務(wù)確實(shí)相關(guān)時(shí),聯(lián)合訓(xùn)練才是合適和有益的,否則需要采用交替優(yōu)化。所以 Faster R-CNN 采用實(shí)用的 4 步訓(xùn)練算法來(lái)學(xué)習(xí)共享特征,這種范式有時(shí)可能會(huì)有所幫助,但也乏善可陳。

本文為全景駕駛感知系統(tǒng)構(gòu)建了一個(gè)高效的多任務(wù)網(wǎng)絡(luò)YOLOP,包括目標(biāo)檢測(cè)、可行駛區(qū)域分割和車道檢測(cè)任務(wù),并且可以在部署 TensorRT 的嵌入式設(shè)備 Jetson TX2 上實(shí)現(xiàn)實(shí)時(shí)。通過(guò)同時(shí)處理自動(dòng)駕駛中的這三個(gè)關(guān)鍵任務(wù),本文方法減少了全景駕駛感知系統(tǒng)的推理時(shí)間,將計(jì)算成本限制在一個(gè)合理的范圍內(nèi),并提高了每個(gè)任務(wù)的性能。

為了獲得高精度和快速的速度,YOLOP設(shè)計(jì)了一個(gè)簡(jiǎn)單高效的網(wǎng)絡(luò)架構(gòu)。本文使用輕量級(jí) CNN 作為編碼器從圖像中提取特征,然后將這些特征圖饋送到三個(gè)****以完成各自的任務(wù)。檢測(cè)****基于當(dāng)前性能最佳的單級(jí)檢測(cè)網(wǎng)絡(luò) YOLOv4,主要有兩個(gè)原因:(1)單級(jí)檢測(cè)網(wǎng)絡(luò)比兩級(jí)檢測(cè)網(wǎng)絡(luò)更快,(2) 單級(jí)檢測(cè)器基于網(wǎng)格的預(yù)測(cè)機(jī)制與其他兩個(gè)語(yǔ)義分割任務(wù)相關(guān),而實(shí)例分割通常與基于區(qū)域的檢測(cè)器相結(jié)合。編碼器輸出的特征圖融合了不同級(jí)別和尺度的語(yǔ)義特征,分割分支可以利用這些特征圖出色地完成像素級(jí)語(yǔ)義預(yù)測(cè)。

除了端到端的訓(xùn)練策略外,本文還嘗試了一些交替優(yōu)化范式,逐步訓(xùn)練模型。一方面,將不相關(guān)的任務(wù)放在不同的訓(xùn)練步驟中,以防止相互限制,另一方面,先訓(xùn)練的任務(wù)可以指導(dǎo)其他任務(wù),所以這種范式有時(shí)雖然繁瑣但效果很好。然而,實(shí)驗(yàn)表明本文所提的模型并沒(méi)有這個(gè)必要,因?yàn)槎说蕉擞?xùn)練的模型可以表現(xiàn)得足夠好。最終,所設(shè)計(jì)的全景駕駛感知系統(tǒng)在單個(gè) NVIDIA TITAN XP 上達(dá)到了 41 FPS,在 Jetson TX2 上達(dá)到了 23 FPS;同時(shí),它在 BDD100K 數(shù)據(jù)集的三個(gè)任務(wù)上取得SOTA。

YOLOP主要貢獻(xiàn)是:

(1)提出了一個(gè)高效的多任務(wù)網(wǎng)絡(luò),可以一個(gè)網(wǎng)絡(luò)模型同時(shí)處理自動(dòng)駕駛中的三個(gè)關(guān)鍵任務(wù):物體檢測(cè)、可行駛區(qū)域分割和車道檢測(cè),減少推理時(shí)間的同時(shí)提高了每項(xiàng)任務(wù)的性能,顯著節(jié)省計(jì)算成本。應(yīng)該是第一個(gè)在嵌入式設(shè)備上一個(gè)模型同時(shí)跑三個(gè)任務(wù)實(shí)現(xiàn)實(shí)時(shí)性,同時(shí)在 BDD100K 數(shù)據(jù)集上保持SOTA的工作。

(2)設(shè)計(jì)了消融實(shí)驗(yàn)驗(yàn)證了所提多任務(wù)處理方案的有效性,證明了三個(gè)任務(wù)可以聯(lián)合學(xué)習(xí),無(wú)需繁瑣的交替優(yōu)化。


三、YOLOP方法細(xì)節(jié)

本文提出了一個(gè)簡(jiǎn)單高效的前饋網(wǎng)絡(luò),可以同時(shí)完成交通目標(biāo)檢測(cè)、可行駛區(qū)域分割和車道檢測(cè)任務(wù)。如圖 2 所示,本文的全景駕駛感知單次網(wǎng)絡(luò) YOLOP,包含一個(gè)共享編碼器和三個(gè)后續(xù)****來(lái)解決特定任務(wù)。不同****之間沒(méi)有復(fù)雜和冗余的共享塊,這減少了計(jì)算消耗并使網(wǎng)絡(luò)能夠輕松地進(jìn)行端到端的訓(xùn)練。

圖片

圖2 YOLOP網(wǎng)絡(luò)結(jié)構(gòu)

A. 編碼器

網(wǎng)絡(luò)共享一個(gè)編碼器,它由骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)組成。

1. Backbone

骨干網(wǎng)絡(luò)用于提取輸入圖像的特征。通常將一些經(jīng)典的圖像分類網(wǎng)絡(luò)作為主干。鑒于YOLOv4在物體檢測(cè)上的優(yōu)異性能,本文選擇CSPDarknet 作為主干,其解決了優(yōu)化 Cspnet 時(shí)梯度重復(fù)的問(wèn)題。它支持特征傳播和特征重用,減少了參數(shù)量和計(jì)算量,有利于保證網(wǎng)絡(luò)的實(shí)時(shí)性。

2. Neck

Neck 用于融合 backbone 產(chǎn)生的特征。YOLOP 的 Neck 主要由空間金字塔池(SPP)模塊和特征金字塔網(wǎng)絡(luò)(FPN)模塊組成。SPP生成并融合不同尺度的特征,F(xiàn)PN融合不同語(yǔ)義層次的特征,使得生成的特征包含多尺度、多語(yǔ)義層次的信息,采用串聯(lián)的方法來(lái)融合這些特征。

B. ****

網(wǎng)絡(luò)中的三個(gè)頭是三個(gè)任務(wù)的特定****。

1. Detect Head

與YOLOv4類似,采用基于anchor的多尺度檢測(cè)方案。首先,使用一種稱為路徑聚合網(wǎng)絡(luò)(PAN)的結(jié)構(gòu),其是一種自下而上的特征金字塔網(wǎng)絡(luò)。FPN自頂向下傳遞語(yǔ)義特征,PAN自底向上傳遞定位特征,將它們結(jié)合起來(lái)以獲得更好的特征融合效果,直接使用PAN中的多尺度融合特征圖進(jìn)行檢測(cè)。多尺度特征圖的每個(gè)網(wǎng)格將被分配三個(gè)不同長(zhǎng)寬比的先驗(yàn)anchor,檢測(cè)頭將預(yù)測(cè)位置的偏移量、尺度化的高度和寬度,以及每個(gè)類別的對(duì)應(yīng)概率和預(yù)測(cè)的置信度。

2. Drivable Area Segment Head & Lane Line Segment Head

可行駛區(qū)域分割頭和車道線分割頭采用相同的網(wǎng)絡(luò)結(jié)構(gòu),將 FPN 的底層饋送到分割分支,大小為 (W/8, H/8, 256)。分割分支非常簡(jiǎn)單,經(jīng)過(guò)三個(gè)上采樣過(guò)程,將輸出特征圖恢復(fù)到(W, H, 2)的大小,兩個(gè)通道分別代表了輸入圖像中每個(gè)像素對(duì)于可行駛區(qū)域/車道線和背景的概率。由于頸部網(wǎng)絡(luò)中共享SPP,本文沒(méi)有像其他人通常所做的那樣添加額外的SPP模塊到分割分支,因?yàn)檫@不會(huì)對(duì)所提網(wǎng)絡(luò)的性能帶來(lái)任何改善。此外,上采樣層使用最鄰近插值方法來(lái)降低計(jì)算成本而不是反卷積。因此,模型的分割****不僅獲得了高精度的輸出,而且在推理過(guò)程中也非???。

C. 損失函數(shù)

由于網(wǎng)絡(luò)中有三個(gè)****,因此多任務(wù)損失包含三個(gè)部分。對(duì)于檢測(cè)損失  ,它是分類損失、目標(biāo)損失和邊界框損失的加權(quán)和,如公式(1)所示:

ααα

其中  和  采用的是 Focal Loss 損失,用于減少分類良好的樣本的損失,從而迫使網(wǎng)絡(luò)專注于困難的樣本。  用于懲罰分類,  用于懲罰一個(gè)預(yù)測(cè)的置信度。  采用的是 CIoU,它考慮了預(yù)測(cè)框和 ground truth 之間的距離、重疊率、尺度和縱橫比的相似性。


可行駛區(qū)域分割的損失  和車道線分割損失  都是包含具有 Logits  的交叉熵?fù)p失,旨在最小化網(wǎng)絡(luò)輸出像素和目標(biāo)之間的分類誤差。值得提出的是 IoU loss:   添加到了  ,它對(duì)于車道線稀疏類別的預(yù)測(cè)特別有效。  和  分別定義為等式(2)和(3):


 
 


最終損失函數(shù)是三個(gè)部分的加權(quán)和,如公式 (4) 所示: γγγ

D. 訓(xùn)練范式

本文嘗試了不同的范式來(lái)訓(xùn)練模型。最簡(jiǎn)單的一種是端到端的訓(xùn)練,可以聯(lián)合學(xué)習(xí)三個(gè)任務(wù)。當(dāng)所有任務(wù)確實(shí)相關(guān)時(shí),這種訓(xùn)練范式很有用。

此外,還嘗試了一些交替優(yōu)化算法,逐步訓(xùn)練模型。在每一步中,模型都可以專注于一個(gè)或多個(gè)相關(guān)的任務(wù),而不管那些不相關(guān)的任務(wù)。即使不是所有的任務(wù)都是相關(guān)的,所提模型仍然可以通過(guò)這種范式對(duì)每個(gè)任務(wù)進(jìn)行充分的學(xué)習(xí)。算法 1 說(shuō)明了一種逐步訓(xùn)練方法的過(guò)程。圖片

算法1 一種逐步訓(xùn)練多任務(wù)模型的方法


四、實(shí)驗(yàn)

A. 設(shè)置

1. 數(shù)據(jù)集設(shè)置

BDD100K 數(shù)據(jù)集支持自動(dòng)駕駛領(lǐng)域多任務(wù)學(xué)習(xí)的研究,擁有 10 萬(wàn)幀圖片和 10 個(gè)任務(wù)的注釋,是最大的駕駛視頻數(shù)據(jù)集。由于數(shù)據(jù)集具有地理、環(huán)境和天氣的多樣性,在 BDD100K 數(shù)據(jù)集上訓(xùn)練的算法足夠健壯,可以遷移到新環(huán)境,因此用 BDD100K 數(shù)據(jù)集來(lái)訓(xùn)練和評(píng)估網(wǎng)絡(luò)是很好的選擇。BDD100K 數(shù)據(jù)集分為三部分,70K 圖像的訓(xùn)練集,10K 圖像的驗(yàn)證集,20K 圖像的測(cè)試集。由于測(cè)試集的標(biāo)簽不是公開的,所以在驗(yàn)證集上進(jìn)行模型評(píng)估。

2. 實(shí)現(xiàn)細(xì)節(jié)

為了提高模型的性能,根據(jù)經(jīng)驗(yàn)采用了一些實(shí)用的技術(shù)和數(shù)據(jù)增強(qiáng)方法。

為了使檢測(cè)器能夠獲得更多交通場(chǎng)景中物體的先驗(yàn)知識(shí),使用 k-means 聚類算法從數(shù)據(jù)集的所有檢測(cè)幀中獲取先驗(yàn)錨點(diǎn)。使用 Adam 作為優(yōu)化器來(lái)訓(xùn)練模型,初始學(xué)習(xí)率、β1 和 β2 分別設(shè)置為 0.001、0.937 和 0.999。在訓(xùn)練過(guò)程中使用預(yù)熱(Warm-up)和余弦退火來(lái)調(diào)整學(xué)習(xí)率,旨在引導(dǎo)模型更快更好地收斂。

使用數(shù)據(jù)增強(qiáng)來(lái)增加圖像的變化,使模型在不同環(huán)境中具有魯棒性。訓(xùn)練方案中考慮了光度失真和幾何畸變,調(diào)整圖像的色調(diào)(hue)、飽和度(saturation)和像素值進(jìn)行光度失真,使用隨機(jī)旋轉(zhuǎn)、縮放、平移、剪切和左右翻轉(zhuǎn)進(jìn)行幾何畸變。

3. 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中選擇了一些優(yōu)秀的多任務(wù)網(wǎng)絡(luò)和專注于單個(gè)任務(wù)的網(wǎng)絡(luò)與本文所提網(wǎng)絡(luò)進(jìn)行比較。 

MultiNet 和 DLT-Net 都同時(shí)處理多個(gè)全景駕駛感知任務(wù),并且在 BDD100K 數(shù)據(jù)集上的目標(biāo)檢測(cè)和可行駛區(qū)域分割任務(wù)中取得了很好的性能,F(xiàn)aster-RCNN 是兩階段目標(biāo)檢測(cè)網(wǎng)絡(luò)的杰出代表,YOLOv5 是在 COCO 數(shù)據(jù)集上實(shí)現(xiàn)最先進(jìn)性能的單級(jí)網(wǎng)絡(luò),PSPNet憑借其超強(qiáng)的聚合全局信息能力在語(yǔ)義分割任務(wù)上取得了出色的表現(xiàn)。通過(guò)在 BDD100k 數(shù)據(jù)集上重新訓(xùn)練上述網(wǎng)絡(luò),與本文在目標(biāo)檢測(cè)和可行駛區(qū)域分割任務(wù)上的網(wǎng)絡(luò)進(jìn)行比較。

由于在 BDD100K 數(shù)據(jù)集上沒(méi)有合適的現(xiàn)有多任務(wù)網(wǎng)絡(luò)處理車道檢測(cè)任務(wù),本文將所提網(wǎng)絡(luò)與 Enet、SCNN 和 Enet-SAD 這三個(gè)先進(jìn)的車道檢測(cè)網(wǎng)絡(luò)進(jìn)行了比較。

另外,將聯(lián)合訓(xùn)練范式的性能與多種交替訓(xùn)練范式進(jìn)行了比較,將經(jīng)過(guò)訓(xùn)練以處理多項(xiàng)任務(wù)的多任務(wù)模型的準(zhǔn)確性和速度與經(jīng)過(guò)訓(xùn)練以執(zhí)行特定任務(wù)的模型進(jìn)行比較。實(shí)驗(yàn)中將BDD100K 數(shù)據(jù)集中的圖像從 1280×720×3 調(diào)整為 640×384×3,所有對(duì)照實(shí)驗(yàn)都遵循相同的實(shí)驗(yàn)設(shè)置和評(píng)估指標(biāo),均在 NVIDIA GTX TITAN XP 上運(yùn)行。


B. 結(jié)果

通過(guò)簡(jiǎn)單的端到端訓(xùn)練YOLOP,將其與所有三個(gè)任務(wù)的其他代表性模型進(jìn)行比較。

1. 交通目標(biāo)檢測(cè)結(jié)果

由于 Multinet 和 DLT-Net 只能檢測(cè)車輛,我們只考慮BDD100K數(shù)據(jù)集上5個(gè)模型的車輛檢測(cè)結(jié)果。如表 I 所示,使用 Recall 和 mAP50 作為檢測(cè)精度的評(píng)估指標(biāo)。YOLOP在檢測(cè)精度上超過(guò)了 Faster RCNN、MultiNet 和 DLT-Net,并且可以與實(shí)際上使用更多技巧的 YOLOv5s 相媲美。速度上模型可以實(shí)時(shí)推斷,YOLOv5s 更快是因?yàn)樗鼪](méi)有車道線頭和可行駛區(qū)域頭。交通目標(biāo)檢測(cè)的可視化如圖 3 所示。

圖片

圖片

2. 可行駛區(qū)域分割結(jié)果

本文將 BDD100K 數(shù)據(jù)集中的“區(qū)域/可行駛”和“區(qū)域/替代”類都?xì)w為“可行駛區(qū)域”,模型只需要區(qū)分圖像中的可行駛區(qū)域和背景。mIoU 用于評(píng)估不同模型的分割性能。從結(jié)果表II可以看出,YOLOP 分別優(yōu)于 MultiNet、DLT-Net 和 PSPNet 19.9%、20.2% 和 1.9%,而且推理速度快 4 到 5 倍??尚旭倕^(qū)域分割的可視化結(jié)果如圖 4 所示。

圖片

圖片

3. 車道檢測(cè)結(jié)果

BDD100K 數(shù)據(jù)集中的車道線用兩條線標(biāo)注,所以直接使用標(biāo)注非常棘手。實(shí)驗(yàn)遵循侯等人的設(shè)置以便進(jìn)行比較,首先根據(jù)兩條標(biāo)線計(jì)算中心線,然后將訓(xùn)練集中的車道線寬度設(shè)置為8個(gè)像素,同時(shí)保持測(cè)試集的車道線寬度為2個(gè)像素,使用像素精度和車道的 IoU 作為評(píng)估指標(biāo)。如表 III 所示,YOLOP的性能大幅超過(guò)了其他三個(gè)模型。車道檢測(cè)的可視化結(jié)果如圖5所示。

圖片

圖片

C. 消融研究

本文設(shè)計(jì)了以下兩個(gè)消融實(shí)驗(yàn)來(lái)進(jìn)一步說(shuō)明所提方案的有效性。

1. End-to-end vs Step-by-step

表 IV 比較了聯(lián)合訓(xùn)練范式與多種交替訓(xùn)練范式的性能??梢钥闯鯵OLOP通過(guò)端到端的訓(xùn)練已經(jīng)表現(xiàn)得非常好,已經(jīng)不再需要進(jìn)行交替優(yōu)化。有趣的是,端到端范式訓(xùn)練檢測(cè)任務(wù)首先似乎表現(xiàn)更好,這可能主要是因?yàn)檎麄€(gè)模型更接近一個(gè)完整的檢測(cè)模型,并且模型在執(zhí)行檢測(cè)任務(wù)時(shí)更難收斂(更難的任務(wù)用更適配的模型能達(dá)到更好的效果)。另外,由三步組成的范式略勝于兩步,類似的交替訓(xùn)練可以運(yùn)行更多的步驟,但改進(jìn)已可以忽略不計(jì)。

圖片

注:E, D, S 和 W 分別表示Encoder, Detect head, two Segment heads and whole network。比如 ED-S-W 表示先只訓(xùn)練 Encoder and Detect head,然后凍結(jié) Encoder and Detect head訓(xùn)練two Segmentation heads,最后聯(lián)合三個(gè)任務(wù)訓(xùn)練whole network。


2. Multi-task vs Single task

為了驗(yàn)證多任務(wù)學(xué)習(xí)方案的有效性,對(duì)多任務(wù)方案和單任務(wù)方案的性能進(jìn)行了比較。表 V 顯示了這兩種方案在每個(gè)特定任務(wù)上的性能比較,可以看出采用多任務(wù)方案訓(xùn)練的模型性能接近于專注單個(gè)任務(wù)的性能,更重要的是,與單獨(dú)執(zhí)行每個(gè)任務(wù)相比,多任務(wù)模型可以節(jié)省大量時(shí)間。

圖片


五、總結(jié)

本文提出了一個(gè)簡(jiǎn)單高效的多任務(wù)網(wǎng)絡(luò)YOLOP,它可以同時(shí)處理物體檢測(cè)、可行駛區(qū)域分割和車道線檢測(cè)三個(gè)典型的駕駛感知任務(wù),并且可以進(jìn)行端到端的訓(xùn)練。訓(xùn)練出的模型在具有挑戰(zhàn)性的 BDD100k 數(shù)據(jù)集上表現(xiàn)異常出色,在所有三個(gè)任務(wù)上都達(dá)到或大大超過(guò)了最先進(jìn)的水平,并且可以在嵌入式設(shè)備Jetson TX2上進(jìn)行實(shí)時(shí)推理,使得模型可以在真實(shí)場(chǎng)景中使用。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉