獨(dú)家 | 達(dá)摩院后的下一站：陳俊波推出具身智能大模型，要給所有機(jī)器人做一顆腦袋

發(fā)布人：機(jī)器之心時(shí)間：2023-08-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

「麻煩借過一下，謝啦?！箤?duì)于很多大學(xué)生來說，這是一個(gè)熟悉的聲音。它來自阿里的「小蠻驢」無人駕駛物流機(jī)器人。該機(jī)器人 2016 年開始路測，如今已累計(jì)送達(dá)快遞上千萬件，為阿?奠定了快遞配送機(jī)器?第?的地位。

但今年 3 月份，它背后的靈魂技術(shù)人物、原阿里達(dá)摩院自動(dòng)駕駛負(fù)責(zé)人陳俊波卻被爆出離職創(chuàng)業(yè)的消息。消息稱，他與前阿里機(jī)器人 CEO 谷祖林等人共同創(chuàng)辦了一家名為「有鹿機(jī)器人」的新公司，至于這家公司具體做什么，外界沒有得到確切答復(fù)。近期，抱著這個(gè)疑問，機(jī)器之心與陳俊波展開了深入對(duì)談。在對(duì)談中，陳俊波透露，他要做的并不是某一款機(jī)器人，而是一個(gè)放到任何傳統(tǒng)自動(dòng)化設(shè)備（比如清掃車、挖掘機(jī)、鏟車等）上都能正常運(yùn)轉(zhuǎn)的通用機(jī)器人「腦袋」。這個(gè)「腦袋」可以跨模態(tài)、跨場景、跨行業(yè)，具有極強(qiáng)的環(huán)境適應(yīng)性，就像《變形金剛》里的「火種」一樣。從上述傳統(tǒng)設(shè)備當(dāng)前的智能化率來看，這個(gè)「腦袋」一旦做出來，有望服務(wù)于上億臺(tái)設(shè)備。

「火種」是《變形金剛》里的能量塊，是變形金剛最基本也是最神秘的組成部分，火種賜予變形金剛具體的身形、意識(shí)及生命。
當(dāng)然，這也意味著更大的技術(shù)考驗(yàn)。因此，在過去的大半年的時(shí)間里，陳俊波帶領(lǐng)「有鹿」一頭扎進(jìn)了比自動(dòng)駕駛更復(fù)雜的「具身智能」領(lǐng)域，希望借助大模型的力量賦予機(jī)器人在物理世界完成更多任務(wù)的能力，把類似 ChatGPT 的能力擴(kuò)展到物理世界。具身智能：AI 領(lǐng)域的下一個(gè)「北極星問題」
生物的進(jìn)化總能給智能的研究帶來很多啟發(fā)。過去 5.4 億年來，地球上所有的生物都是通過身體逐步產(chǎn)生智能的。有了身體，智能體就可以在快速變化的環(huán)境中移動(dòng)、導(dǎo)航、生存、操縱和做出改變。相比之下，沒有身體的智能體只能「旁觀」，很難適應(yīng)現(xiàn)實(shí)世界。因此，人工智能研究也自然而然地走向了「具身」的道路。人們希望機(jī)器人也能像生物體一樣，通過與環(huán)境交互以及自身的學(xué)習(xí)，產(chǎn)生對(duì)于客觀世界的理解和改造能力。具身智能也被斯坦福大學(xué)教授李飛飛定義為 AI 領(lǐng)域的下一個(gè)「北極星問題」之一。

圖源：《為什么說具身智能是通往 AGI 值得探索的方向？上海交大教授盧策吾深度解讀》不過，由于涉及學(xué)科眾多，具身智能在過去的幾十年里并沒有取得很大進(jìn)展。直到最近幾年，情況才有所改變，尤其是在「大模型 + 機(jī)器人」的組合流行起來之后。谷歌的 PaLM-E、斯坦福的 VoxPoser 都是基于大模型構(gòu)造的具身智能體。它們能夠直接「聽懂」自然語言指令，并將其拆解成若干個(gè)動(dòng)作來完成，準(zhǔn)確率已經(jīng)達(dá)到了相當(dāng)高的水平。

斯坦福大學(xué)李飛飛團(tuán)隊(duì)的 VoxPoser 機(jī)器人。
作為阿里內(nèi)部「最早領(lǐng)潮自動(dòng)駕駛的人」，陳俊波也一直在關(guān)注具身智能領(lǐng)域，畢竟自動(dòng)駕駛車也是具身智能的重要載體。其多年來不斷積累的多模態(tài)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等能力在具身智能領(lǐng)域至關(guān)重要。在陳俊波看來，「大模型 + 機(jī)器人」組合的成功其實(shí)意味著具身智能領(lǐng)域正在經(jīng)歷一場范式轉(zhuǎn)變，基于 Transformer 架構(gòu)的極具表達(dá)能力的模型、互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)都是推動(dòng)這一轉(zhuǎn)變的關(guān)鍵力量。但是，要想在物理世界充分利用這些力量，現(xiàn)有的工作做得還遠(yuǎn)遠(yuǎn)不夠。從實(shí)驗(yàn)室到現(xiàn)實(shí)世界，具身智能還有哪些工作要做？
陳俊波以谷歌的 PaLM-E 為例，向我們展示了現(xiàn)有的具身智能大模型存在哪些改進(jìn)空間。這個(gè)模型集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer（ViT），使用文本和來自機(jī)器人傳感器的多模態(tài)數(shù)據(jù)（比如圖像、機(jī)器人狀態(tài)、場景環(huán)境信息等）作為輸入，輸出以文本形式表示的機(jī)器人運(yùn)動(dòng)指令，進(jìn)行端到端的訓(xùn)練。

它的結(jié)構(gòu)如下圖中間部分所示：綠色的部分用來編碼機(jī)器人本身的狀態(tài)，包括底盤、機(jī)械臂的位置等狀態(tài)量；傳感器捕捉到的圖像由一個(gè) ViT 模型來編碼（圖中藍(lán)色部分）。給定這些條件，人類就可以發(fā)出一個(gè)自然語言指令，比如「如何抓起藍(lán)色的木塊」，然后這個(gè)指令就會(huì)被編碼為嵌入，并經(jīng)過一個(gè) CoT（chain of thought）的過程被轉(zhuǎn)換為一系列動(dòng)作。這些動(dòng)作會(huì)由一個(gè)動(dòng)作****（圖中的紫色部分）來執(zhí)行，它會(huì)把每個(gè)步驟的指令轉(zhuǎn)化為機(jī)器人的扭矩等參數(shù)。

經(jīng)過測試，整個(gè)模型完成任務(wù)的成功率接近 80%。作為一個(gè)端到端的框架，「這是一個(gè)讓人覺得非常不可思議的工作，」陳俊波評(píng)價(jià)說。但在實(shí)際的工作場景中，80% 的成功率離落地還有很大距離，「想象一下，如果說我下發(fā) 100 個(gè)任務(wù)，它有 20 個(gè)都失敗了…… 而且，這還是在實(shí)驗(yàn)室的場景下，」陳俊波說到。究竟是哪里出了問題？陳俊波指出了兩個(gè)關(guān)鍵點(diǎn)。第一個(gè)問題是，在傳感器圖像和文本 prompt 輸入的處理上，PaLM-E 只是將 VLM 與 LLM 簡單拼合，做隱式建模。前者輸出的是抽象等級(jí)很低的像素級(jí)的特征，后者輸出的是抽象等級(jí)很高的自然語言級(jí)別的特征，二者直接拼合會(huì)帶來不匹配的問題，導(dǎo)致模型的泛化能力非常有限。「有句話叫一圖勝千言，就是說圖像里面包含太多的細(xì)節(jié)，不可能用一個(gè)一個(gè)的文本就很簡單地把它們對(duì)應(yīng)起來，」陳俊波解釋說。具體來說，PaLM-E 使用 ViT 來處理圖像，ViT 會(huì)把整個(gè)圖像切分成小的圖塊（patch），然后從每個(gè)圖塊中提取出關(guān)于圖像的基礎(chǔ)細(xì)節(jié)特征，比如顏色、邊緣、紋理，這些特征是「low level」的。與之對(duì)應(yīng)，圖像中還有很多「high level」特征，比如不同物體之間的幾何關(guān)系、現(xiàn)實(shí)世界里的物理學(xué)規(guī)律、交通參與者的意圖…… 這是無法做顯式建模的 ViT 所提取不到的，這是它編碼物理世界的一個(gè)缺陷。在 Prompt 的處理上，雖然 PaLM-E 會(huì)把人的高級(jí)指令拆解為更詳細(xì)的指令，但這一步的輸出仍然是自然語言。自然語言的問題在于，它是一種高度抽象、模糊的系統(tǒng)，「比如說『人類』雖然只有四個(gè)字節(jié)，卻囊括了地球上幾十億的人類，」陳俊波解釋說。這不僅和 ViT 輸出的「low level」的特征不匹配，對(duì)于底層控制器來說也不夠友好，后者需要更具體、更精確的指令來執(zhí)行任務(wù)。第二個(gè)問題是，PaLM-E 的動(dòng)作****存在天然缺陷，無法從海量無標(biāo)簽的機(jī)器人數(shù)據(jù)中學(xué)習(xí)，也無法擴(kuò)展到交互場景。這是因?yàn)?，PaLM-E 的動(dòng)作****采用了一個(gè)名為「RT-1」（Robotics Transformer-1）的模型，這個(gè)模型接收自然語言和圖像作為輸入，輸出機(jī)器人運(yùn)動(dòng)指令（底盤位置和機(jī)械臂末端位置）。局限在于，這個(gè)模型是采用模仿學(xué)習(xí)的方式訓(xùn)練出來的，而模仿學(xué)習(xí)本質(zhì)上屬于監(jiān)督學(xué)習(xí)，因此無法在海量無標(biāo)注數(shù)據(jù)上學(xué)習(xí)。最近公布的 RT-2 模型使用了更多的訓(xùn)練數(shù)據(jù)（在原來示教數(shù)據(jù)的基礎(chǔ)上增加了互聯(lián)網(wǎng)級(jí)別的 VQA 數(shù)據(jù)），將模型在沒見過（Unseen）的任務(wù)上的成功率從 32%（RT-1）提高到了 62%。如果將 PaLM-E 中的動(dòng)作****組件換成 RT-2，PaLM-E 的泛化能力想必也會(huì)大幅提升。但陳俊波指出，這并不會(huì)從根本上解決問題，因?yàn)樵趯W(xué)習(xí)機(jī)器人數(shù)據(jù)時(shí)，它本質(zhì)上用到的還是模仿學(xué)習(xí)。

此外，模仿學(xué)習(xí)學(xué)到的函數(shù)針對(duì)一個(gè)固定的輸入只能輸出一個(gè)或一組固定的動(dòng)作，而交互場景要求針對(duì)相同的輸入，根據(jù)交互對(duì)象的選擇動(dòng)態(tài)調(diào)整輸出，所以模仿學(xué)習(xí)學(xué)到的模型本質(zhì)上無法在交互博弈場景中工作，而這項(xiàng)能力又是具身智能機(jī)器人走出實(shí)驗(yàn)室所必需的。已經(jīng)在園區(qū)跑起來的 LPLM
陳俊波在具身智能方向的工作主要圍繞以上待解決的問題展開。具體來說，他提出了一個(gè)名為「LPLM」（large physical language model）的大模型。整個(gè)模型的架構(gòu)如下所示：

首先，這個(gè)模型會(huì)把物理世界抽象到一個(gè)很高的程度，確保這些信息能跟 LLM 里特征的抽象等級(jí)對(duì)齊，做顯式建模，從而實(shí)現(xiàn)很好的融合?；貞浺幌抡Z言學(xué)中的能指（用以表示抽象概念的語言符號(hào)，比如「人」這樣一個(gè)單詞）和所指（語言符號(hào)所表示的具體事物，比如圖像空間中的每一個(gè)人）的概念，LPLM 將物理世界中每一個(gè)所指的實(shí)體顯式建模為 token，編碼幾何、語義、運(yùn)動(dòng)學(xué)與意圖信息，相當(dāng)于在物理世界建模了一套全新的語言體系。具體來說，這種對(duì)齊是通過多種方式來實(shí)現(xiàn)的，包括利用點(diǎn)云等多模態(tài)數(shù)據(jù)捕捉幾何信息；在多幀甚至無限幀數(shù)據(jù)之間做時(shí)序融合以跟蹤實(shí)體在不同時(shí)間點(diǎn)的變化，捕捉其運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)約束關(guān)系；在空間中建模各個(gè)實(shí)體之間的關(guān)系，從而捕捉它們?cè)诮换ゲ┺沫h(huán)境中的意圖信息等。

令人興奮的是，LPLM也很好地降維完成了自動(dòng)駕駛行業(yè)對(duì)端到端的技術(shù)追求。比如在一個(gè)交通場景中，LPLM 展現(xiàn)了建模物理世界實(shí)體意圖方面的能力。在這個(gè)場景中，智能車要在有加塞車輛的情況下安全左轉(zhuǎn)，此時(shí)模型就需要判斷加塞車輛是否會(huì)做出讓行等動(dòng)作（意圖），才能決定自己下一步的動(dòng)作。這種交互博弈場景沒有固定答案，需要模型隨機(jī)應(yīng)變。
其次，在自然語言指令的編碼上，LPLM 也做出了一些改進(jìn)，加入了 3D grouding（grouding 可以理解為機(jī)器人怎么把用戶的語言對(duì)應(yīng)到真實(shí)環(huán)境）。以有人問「桌子在哪兒」為例，之前的 visual grounding 方法會(huì)把桌子所在區(qū)域的像素高亮出來，但加入了 3D grouding 的 LPLM 會(huì)先把三維空間里的幾何關(guān)系恢復(fù)出來，然后再把桌子所在的三維空間作 grounding。這相當(dāng)于在物理世界中，明確告訴機(jī)器人作業(yè)目標(biāo)在哪兒，在一定程度上彌補(bǔ)了自然語言不夠精確的缺陷。最后，在****的設(shè)計(jì)上，為了讓模型具備從海量無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)的能力，LPLM 的****是通過不斷預(yù)測未來的方式去學(xué)習(xí)的。如此一來，對(duì)于任何一段給定的數(shù)據(jù)，任何當(dāng)前狀態(tài)都是對(duì)過去狀態(tài)的自動(dòng)標(biāo)注，無需人工示教數(shù)據(jù)。在這一點(diǎn)上，陳俊波談到了 Yann LeCun 的思想 —— 智能的本質(zhì)是預(yù)測 —— 對(duì)于自己的啟發(fā)。「一個(gè)一兩歲的孩子肯定不知道什么是萬有引力，但通過長期的實(shí)踐和觀察（比如扔?xùn)|西），他的身體已經(jīng)知道了。我們也是用同樣的方法教機(jī)器人學(xué)習(xí)，」陳俊波談到。那么，這一套方法到底有沒有效？陳俊波已經(jīng)用他們的第一款產(chǎn)品 —— 有鹿智能清潔機(jī)器人給出了答案。和傳統(tǒng)的只能進(jìn)行全覆蓋清掃和巡檢清掃的室外清潔機(jī)器人不同，內(nèi)置了 LPLM 大模型的有鹿機(jī)器人支持隨叫隨到的清掃模式，比如你可以讓它「去 1 號(hào)樓清掃一下落葉」，或者說「路邊有點(diǎn)臟，貼邊清掃一下吧」，機(jī)器人都能聽懂，并且能在充滿行人、車輛的園區(qū)交互博弈環(huán)境中安全穿行，功耗僅 50 瓦。這體現(xiàn)了該機(jī)器人對(duì)語言語義、物理環(huán)境及行為意圖的融合理解。據(jù)悉，這款機(jī)器人將在即將到來的杭州亞運(yùn)會(huì)上亮相。

給所有機(jī)器人做一顆腦袋
當(dāng)然，對(duì)于陳俊波來說，將內(nèi)置 LPLM 大模型的「腦袋」安在清潔機(jī)器人身上只是一個(gè)開始。未來，這套方案還將擴(kuò)展到挖掘機(jī)、鏟車等傳統(tǒng)設(shè)備上。在他看來，比起開發(fā)一款服務(wù)于單個(gè)場景的完整產(chǎn)品，開發(fā)一個(gè)通用的腦袋具有更大的社會(huì)價(jià)值。

有鹿的機(jī)器人大腦多種應(yīng)用場景

在談到這件事情的可行性時(shí)，陳俊波提到，雖然表面看起來這是一些跨模態(tài)、跨場景、跨行業(yè)的設(shè)備，但當(dāng)模型對(duì)于物理世界的理解提升到三維甚至四維，很多共性的東西就可以被提取出來。這種情況下，以 LPLM 為代表的具身大模型相當(dāng)于充當(dāng)了物理世界的 Foundation model。此外，有鹿還定義了一個(gè)通用的硬件標(biāo)準(zhǔn)，這個(gè)標(biāo)準(zhǔn)會(huì)兼容現(xiàn)在所有的設(shè)備廠商。

不過，眼前還有很多待解決的問題，比如海量機(jī)器人數(shù)據(jù)如何獲取？這也是有鹿在很短的時(shí)間內(nèi)就推出第一款產(chǎn)品的一大原因。他們希望借助這些產(chǎn)品盡快讓數(shù)據(jù)飛輪轉(zhuǎn)起來，就像很早就開放 API 接口的 GPT 類產(chǎn)品一樣。

在早年和蔣昌建談夢想的時(shí)候，陳俊波說，他希望未來?類會(huì)像擁有個(gè)?電腦?樣擁有機(jī)器?。一路走來，他已經(jīng)越來越接近自己的夢想。當(dāng)初做小蠻驢的時(shí)候，他也經(jīng)歷了「機(jī)器一直掉螺絲，送不出幾個(gè)包裹」的階段，但到了 2022 年，平均每秒鐘都會(huì)有兩位消費(fèi)者收到小蠻驢送出的包裹，這款產(chǎn)品也讓陳俊波看到了具身智能背后巨大的市場空間。

其實(shí)，和小蠻驢所處的物流領(lǐng)域一樣，很多傳統(tǒng)行業(yè)對(duì)具身智能機(jī)器人都有著強(qiáng)烈的需求。這些行業(yè)擁有海量的存量專業(yè)設(shè)備和專業(yè)機(jī)器人，也積累了豐富的行業(yè)經(jīng)驗(yàn)和渠道品牌，只是設(shè)備的智能化率仍有很大的提升空間，而具身智能的快速發(fā)展有望為這些行業(yè)帶來一場大范圍的智能化升級(jí)。憑借多年來在具身智能領(lǐng)域的探索經(jīng)驗(yàn)，陳俊波希望能與這些行業(yè)的企業(yè)家一起，迎接這場升級(jí)過程中的挑戰(zhàn)與機(jī)遇。

參考鏈接：https://mp.weixin.qq.com/s/MM_VLWmrrxev1zWuLKZZUQhttps://hub.baai.ac.cn/view/15855https://mp.weixin.qq.com/s/2ASdgAER2EYsmjipIiVyDg

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

獨(dú)家 | 達(dá)摩院后的下一站：陳俊波推出具身智能大模型，要給所有機(jī)器人做一顆腦袋

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

獨(dú)家 | 達(dá)摩院后的下一站：陳俊波推出具身智能大模型，要給所有機(jī)器人做一顆腦袋

相關(guān)推薦

技術(shù)專區(qū)

獨(dú)家 | 達(dá)摩院后的下一站：陳俊波推出具身智能大模型，要給所有機(jī)器人做一顆腦袋