大模型如何助力自動(dòng)駕駛數(shù)據(jù)閉環(huán)？

作者：時(shí)間：2024-12-13 來(lái)源：電車曼曼談

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

生成式AI 大模型進(jìn)入自動(dòng)駕駛系統(tǒng)的速度越來(lái)越快了。7 月初的智駕系統(tǒng)發(fā)布會(huì)上，理想汽車推出了全鏈路一體式端到端+ 視覺(jué)語(yǔ)言模型的雙系統(tǒng)方案。7 月23 日的科技創(chuàng)新日上，蔚來(lái)汽車推出世界模型NWM，雖然尚未量產(chǎn)，但也宣誓了蔚來(lái)汽車要將生成式AI 大模型搬上車端自動(dòng)駕駛系統(tǒng)的決心。7 月30 日的智駕系統(tǒng)發(fā)布會(huì)上，小鵬汽車宣布全量推送搭載大語(yǔ)言模型技術(shù)的XBrain 與XPlanner、XNet 三網(wǎng)合一的端到端大模型。到了10 月下旬，理想汽車全量推送了接棒分段式端到端無(wú)圖NOA 方案的雙系統(tǒng)方案。至此，頭部智駕車企以生成式AI 大模型解決傳統(tǒng)端到端方案缺陷的技術(shù)路線已經(jīng)相當(dāng)明朗了，不過(guò)，這并非生成式AI大模型與自動(dòng)駕駛領(lǐng)域的初次相遇，更早之前，世界模型和大語(yǔ)言模型就已經(jīng)用在了自動(dòng)駕駛系統(tǒng)的數(shù)據(jù)閉環(huán)里。

本文引用地址：http://2s4d.com/article/202412/465475.htm

在這樣的語(yǔ)境和事實(shí)下，兩個(gè)值得探討的問(wèn)題是：大模型為什么能夠用于自動(dòng)駕駛數(shù)據(jù)閉環(huán)，大模型又是怎樣助力數(shù)據(jù)閉環(huán)的呢？

1 數(shù)據(jù)閉環(huán)與大模型的適配

時(shí)代的變遷從來(lái)都不是忽如一夜春風(fēng)來(lái)，千樹(shù)萬(wàn)樹(shù)梨花開(kāi)，是一天又一天潤(rùn)物細(xì)無(wú)聲的悄然改變，讓你在多日之后回頭一看方驚覺(jué)已經(jīng)變了天。自動(dòng)駕駛技術(shù)路線的變遷也像郭德綱成名那樣，并非發(fā)生在具體的哪一天，而是發(fā)生在每一個(gè)夜晚。隨著自動(dòng)駕駛系統(tǒng)中感知定位、決策規(guī)劃和控制模塊的實(shí)現(xiàn)方式由基于規(guī)則的代碼向AI 模型慢慢轉(zhuǎn)變，自動(dòng)駕駛系統(tǒng)開(kāi)發(fā)范式也從規(guī)則驅(qū)動(dòng)逐漸過(guò)渡到了數(shù)據(jù)驅(qū)動(dòng)，自動(dòng)駕駛系統(tǒng)越來(lái)越依賴數(shù)據(jù)驅(qū)動(dòng)，意味著數(shù)據(jù)閉環(huán)對(duì)自動(dòng)駕駛系統(tǒng)越來(lái)越關(guān)鍵了。

圖片來(lái)源：地平線

所謂數(shù)據(jù)閉環(huán)，指的是從數(shù)據(jù)采集到存儲(chǔ)，到挖掘、標(biāo)注、模型訓(xùn)練，再到仿真驗(yàn)證、集成部署的整個(gè)開(kāi)發(fā)工作流。數(shù)據(jù)閉環(huán)完成的是對(duì)數(shù)據(jù)價(jià)值的提取工作，其本質(zhì)是將隱藏在一個(gè)又一個(gè)駕駛數(shù)據(jù)片段中的人類駕駛知識(shí)慢慢地乾坤大挪移到自動(dòng)駕駛系統(tǒng)模型的參數(shù)文件里。

圖片來(lái)源：輝羲智能

在海量數(shù)據(jù)驅(qū)動(dòng)的端到端大模型時(shí)代。如何高效地采集、處理數(shù)據(jù)，如何高效地訓(xùn)練模型并驗(yàn)證模型能力成了決定系統(tǒng)迭代速度的關(guān)鍵。顯然，決定數(shù)據(jù)采集和價(jià)值提取效率的數(shù)據(jù)閉環(huán)，決定著自動(dòng)駕駛系統(tǒng)能力升級(jí)的效率。提到效率，AI大模型的價(jià)值之一就是變革工作流，提升各個(gè)環(huán)節(jié)的效率，所以，AI大模型順理成章地被各路玩家應(yīng)用到了自動(dòng)駕駛的數(shù)據(jù)閉環(huán)里。

圖片來(lái)源：華為

在《技術(shù)的本質(zhì)》一書里，作者鮮明地指出，技術(shù)方案的一端連著用戶需求，另一端連著技術(shù)的能力。將這種認(rèn)知方法論套用過(guò)來(lái)，對(duì)于自動(dòng)駕駛數(shù)據(jù)閉環(huán)而言，鏈條的一端是目的或需求，數(shù)據(jù)閉環(huán)的需求在于數(shù)據(jù)標(biāo)注和挖掘、模型訓(xùn)練和仿真，鏈接的另一端是能夠達(dá)到目的或滿足需求的技術(shù)能力，大模型的技術(shù)能力在于帶來(lái)了兩個(gè)關(guān)鍵能力的根本性提升：超強(qiáng)的理解能力和超強(qiáng)的生成能力。

所以，就大模型的技術(shù)能力和自動(dòng)駕駛數(shù)據(jù)閉環(huán)需求的匹配而言，大模型超強(qiáng)的理解能力可以滿足數(shù)據(jù)標(biāo)注、場(chǎng)景挖掘的需求，其超強(qiáng)的生成能力可以滿足用于模型訓(xùn)練與仿真的場(chǎng)景重建和生成。那么，展開(kāi)來(lái)講，大模型是如何加持自動(dòng)駕駛數(shù)據(jù)閉環(huán)的數(shù)據(jù)標(biāo)注、場(chǎng)景挖掘、場(chǎng)景重建和生成的呢？

2 大模型賦能數(shù)據(jù)標(biāo)注和場(chǎng)景挖掘

數(shù)據(jù)標(biāo)注的主要作用在于從原始圖像、雷達(dá)數(shù)據(jù)中生成精標(biāo)數(shù)據(jù)，通過(guò)精確標(biāo)注的數(shù)據(jù)構(gòu)建模型的訓(xùn)練集、驗(yàn)證集和測(cè)試集，用于自動(dòng)駕駛模型的訓(xùn)練和評(píng)估。具體而言，在自動(dòng)駕駛模型的訓(xùn)練中，通過(guò)精標(biāo)訓(xùn)練數(shù)據(jù)集提供的真值和模型輸出做對(duì)比，計(jì)算損失函數(shù)，再以反向傳播的方式更新模型的參數(shù)，使得模型輸出可以愈來(lái)愈逼近訓(xùn)練數(shù)據(jù)的真值。在自動(dòng)駕駛模型的性能評(píng)估和驗(yàn)證中，通過(guò)標(biāo)注數(shù)據(jù)構(gòu)建驗(yàn)證集和測(cè)試集，將模型預(yù)測(cè)結(jié)果與標(biāo)注的真實(shí)結(jié)果作比較，評(píng)估模型的性能。

圖片來(lái)源：高通

場(chǎng)景挖掘的主要作用是搜索或檢索帶有相似語(yǔ)義標(biāo)簽的場(chǎng)景數(shù)據(jù)，在模型訓(xùn)練階段，通過(guò)特定場(chǎng)景庫(kù)的訓(xùn)練讓自動(dòng)駕駛模型學(xué)習(xí)該類場(chǎng)景的特征，提升在該類場(chǎng)景下的感知、決策準(zhǔn)確性和泛化能力。在模型驗(yàn)證和評(píng)估階段，通過(guò)場(chǎng)景挖掘構(gòu)建測(cè)試場(chǎng)景庫(kù)，驗(yàn)證模型是否可以有效應(yīng)對(duì)此類場(chǎng)景。如果拿日常生活片段做類比，數(shù)據(jù)標(biāo)注是將所有衣物都進(jìn)行清洗，場(chǎng)景挖掘則是建立一個(gè)又一個(gè)帶標(biāo)簽的小抽屜，把這些衣物分門別類地放在了小抽屜里。

圖片來(lái)源：特斯拉

早在幾年前，頭部玩家們就已經(jīng)借助AI 能力實(shí)現(xiàn)了自動(dòng)標(biāo)注，相較于傳統(tǒng)的人工標(biāo)注，自動(dòng)標(biāo)注的效率提高了幾個(gè)數(shù)量級(jí)。

大模型問(wèn)世之后，通過(guò)海量數(shù)據(jù)的預(yù)訓(xùn)練和精標(biāo)數(shù)據(jù)的精調(diào)訓(xùn)練，具有圖文理解能力的大模型可以進(jìn)一步提高標(biāo)注的速度和準(zhǔn)確性。更為難得的是，為了挑戰(zhàn)OpenAI，部分大模型頭部玩家采用了開(kāi)源的戰(zhàn)略，使得自動(dòng)駕駛行業(yè)的從業(yè)者們可以奉行拿來(lái)主義，近乎于直接采用具備精確標(biāo)注能力的開(kāi)源大模型進(jìn)行數(shù)據(jù)標(biāo)注。

圖片來(lái)源：一汽紅旗

大模型對(duì)場(chǎng)景挖掘的加持主要得益于圖文大模型的場(chǎng)景理解能力。借助之前那個(gè)小抽屜的比喻，場(chǎng)景挖掘的核心工作是給視頻片段打標(biāo)簽、做分類，大模型具備超強(qiáng)的語(yǔ)義理解能力，可以代替人工打標(biāo)簽，以極高的效率完成對(duì)海量視頻片段的處理。

圖片來(lái)源：百度

3 大模型賦能場(chǎng)景重建和生成

自動(dòng)駕駛系統(tǒng)能力提升的過(guò)程是覆蓋一個(gè)又一個(gè)長(zhǎng)尾場(chǎng)景的過(guò)程。長(zhǎng)尾場(chǎng)景遵循動(dòng)態(tài)的定義，因人而異，因時(shí)而異，對(duì)比亞迪智駕系統(tǒng)成立的長(zhǎng)尾場(chǎng)景對(duì)華為ADS和小鵬XNGP不一定成立，對(duì)半年前的智駕系統(tǒng)成立的長(zhǎng)尾場(chǎng)景對(duì)今天的智駕系統(tǒng)也未必成立。簡(jiǎn)而言之，系統(tǒng)處理不了的都是長(zhǎng)尾場(chǎng)景，處理得了，無(wú)論場(chǎng)景有多么復(fù)雜，也不再稱其為長(zhǎng)尾場(chǎng)景。

雖然現(xiàn)實(shí)世界千奇百怪，但是，大部分人過(guò)的都是一個(gè)又一個(gè)平平淡淡的日子，換言之，通過(guò)真實(shí)車輛收集駕駛長(zhǎng)尾場(chǎng)景的速度實(shí)在太慢了。根據(jù)頭部智駕方案供應(yīng)商Momenta的估計(jì)，自動(dòng)駕駛系統(tǒng)要達(dá)到L4 等級(jí)，需要1,000 億公里的累計(jì)駕駛里程才能收集完罕見(jiàn)長(zhǎng)尾問(wèn)題。目前，國(guó)內(nèi)累計(jì)智駕里程最多的理想汽車?yán)塾?jì)里程也不過(guò)才25億公里，和1000億公里還有著遠(yuǎn)超十萬(wàn)八千里的差距。

既然通過(guò)真實(shí)車輛收集長(zhǎng)尾場(chǎng)景的時(shí)間太漫長(zhǎng)，那么，秉持“有困難要上，沒(méi)有困難創(chuàng)造困難也要上”的態(tài)度，可以以虛擬仿真和數(shù)字孿生的方式制造長(zhǎng)尾場(chǎng)景，利用大模型的生成能力將Corner case 變成小case。具體的，首先通過(guò)3D 高斯濺射或Nerf 神經(jīng)輻射場(chǎng)重建駕駛場(chǎng)景，然后利用大模型的生成能力對(duì)重建的駕駛場(chǎng)景做泛化，做數(shù)據(jù)增強(qiáng)，生成各種天氣、光照、交通參與者下的長(zhǎng)尾場(chǎng)景。

圖片來(lái)源：地平線

寫在最后

過(guò)去領(lǐng)跑自動(dòng)駕駛賽道的玩家更早地布局自動(dòng)駕駛數(shù)據(jù)閉環(huán)的建設(shè)，再加上代表自動(dòng)駕駛最新技術(shù)路線的端到端更加依賴數(shù)據(jù)驅(qū)動(dòng)，所以，雖然大模型對(duì)各家自動(dòng)駕駛數(shù)據(jù)閉環(huán)的各個(gè)階段都能有所助益，但是，從大模型這個(gè)大家伙那里獲得最大收益的，依然是頭部玩家華為、特斯拉、蔚小理！

圖片來(lái)源：Momenta

（注：本文來(lái)源于《EEPW》202412）

新聞中心

大模型如何助力自動(dòng)駕駛數(shù)據(jù)閉環(huán)？

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)