TRI：預(yù)訓(xùn)練的大型行為模型加速機器人學(xué)習(xí)

作者：時間：2025-07-15 來源：the robot report

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

兩臺協(xié)作機器人使用從微調(diào)的大型行為模型（LBMs）中獲得的自主評估部署來執(zhí)行長時程行為，例如安裝自行車轉(zhuǎn)盤。| 來源：豐田研究院

豐田研究院（TRI）本周發(fā)布了其關(guān)于大型行為模型（LBMs）的研究結(jié)果，這些模型可用于訓(xùn)練通用機器人。該研究顯示，單個 LBM 可以學(xué)習(xí)數(shù)百個任務(wù)，并利用先驗知識以 80%更少的訓(xùn)練數(shù)據(jù)獲取新技能。

LBMs 在大型、多樣化的操作數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。盡管它們越來越受歡迎，但機器人社區(qū)對 LBMs 實際上能提供什么仍然知之甚少。TRI 的工作旨在通過這項研究揭示算法和數(shù)據(jù)集設(shè)計方面的最新進(jìn)展。

總體而言，TRI 表示其發(fā)現(xiàn)大體上支持了近期 LBM 風(fēng)格機器人基礎(chǔ)模型的熱度激增，并補充了大規(guī)模在多樣化機器人數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練是通往更強大機器人的可行路徑的證據(jù)，盡管存在一些需要注意的方面。

通用型機器人承諾一個未來，即家用機器人可以提供日常協(xié)助。然而，我們尚未達(dá)到任何機器人都能處理普通家庭任務(wù)的階段。TRI 表示，LBMs，即輸入機器人傳感器數(shù)據(jù)并輸出動作的具身 AI 系統(tǒng)，可能會改變這一點。

2024 年，TRI 因其快速機器人教學(xué) LBMs 的工作贏得了機器人創(chuàng)新獎。

TRI 研究發(fā)現(xiàn)的概述

TRI 在近 1700 小時的機器人數(shù)據(jù)上訓(xùn)練了一系列基于擴散的 LBMs，并進(jìn)行了 1800 次真實世界的評估部署和超過 47000 次模擬部署，以嚴(yán)格研究它們的性能。它發(fā)現(xiàn) LBMs：

相對于從頭開始制定的策略，能夠持續(xù)提升性能
在需要抵抗各種環(huán)境因素的挑戰(zhàn)性環(huán)境中，能夠以3-5倍更少的數(shù)據(jù)量學(xué)習(xí)新任務(wù)
隨著預(yù)訓(xùn)練數(shù)據(jù)的增加，性能穩(wěn)步提升

即使只有幾百小時多樣化的數(shù)據(jù)，并且每個行為只有幾百個演示，性能也顯著提升，TRI 表示。預(yù)訓(xùn)練在比預(yù)期更早的規(guī)模上提供了持續(xù)的性能提升。目前還沒有一個值得注意的機器人數(shù)據(jù)量，但收益在達(dá)到那個規(guī)模之前就已經(jīng)顯現(xiàn)——這對于實現(xiàn)數(shù)據(jù)獲取和自舉性能的良性循環(huán)是一個有希望的跡象，TRI 聲稱。

TRI 的評估套件包括幾個新穎且極具挑戰(zhàn)性的長時程真實世界任務(wù)；在這種設(shè)置下微調(diào)和評估，LBM 預(yù)訓(xùn)練提高了性能，盡管這些行為與預(yù)訓(xùn)練任務(wù)高度不同。

在 TRI 的 LBMs 的架構(gòu)和數(shù)據(jù)中

LBM 架構(gòu)被實例化為一個擴散 Transformer，用于預(yù)測機器人動作。| 來源：豐田研究院

TRI 的 LBMs 是具有多模態(tài) ViT 視覺語言編碼器和基于 AdaLN 條件編碼觀測值的 Transformer 去噪頭的多任務(wù)擴散策略。這些模型消耗手腕和場景相機、機器人本體感覺和語言提示，并預(yù)測 16 個時間步長（1.6 秒）的動作片段。

研究人員在 468 小時內(nèi)部部收集的雙臂機器人遙操作數(shù)據(jù)、45 小時模擬收集的遙操作數(shù)據(jù)、32 小時通用操作界面（UMI）數(shù)據(jù)以及從 Open X-Embodiment 數(shù)據(jù)集精心策劃的約 1150 小時互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練了 LBMs。

雖然模擬數(shù)據(jù)的比例很小，但將其包含在 TRI 的預(yù)訓(xùn)練混合中，確保它可以評估相同的 LBM 檢查點，無論是在模擬還是真實環(huán)境中。

TRI 的評估方法

TRI 在模擬和現(xiàn)實世界中，使用雙臂平臺在各種任務(wù)和環(huán)境條件下評估其 LBM 模型。 | 來源：豐田研究院

TRI 在使用 Franka Panda FR3 機械臂和最多六個攝像頭的物理和 Drake 模擬雙臂工作站上評估其大型行為模型（LBMs）——每只手腕最多兩個攝像頭，以及兩個靜態(tài)場景攝像頭。

TRI 在已見任務(wù)（存在于預(yù)訓(xùn)練數(shù)據(jù)中）和未見任務(wù)（TRI 用于微調(diào)其預(yù)訓(xùn)練模型的任務(wù)）上評估模型。TRI 的評估套件包括 16 個在預(yù)訓(xùn)練期間模擬的已見任務(wù)、3 個真實世界的已見任務(wù)、5 個之前未見的長時程模擬任務(wù)和 5 個復(fù)雜的之前未見的長時程真實世界任務(wù)。

每個模型都通過每個真實世界任務(wù)50次運行和每個模擬任務(wù)200次運行進(jìn)行測試。這使我們的分析具有高度統(tǒng)計學(xué)意義，預(yù)訓(xùn)練模型在29個任務(wù)上進(jìn)行了4200次運行評估。

TRI 表示它仔細(xì)控制初始條件，以確保在現(xiàn)實世界和模擬中保持一致。它還在現(xiàn)實世界中進(jìn)行盲法 A/B 風(fēng)格的測試，并通過順序假設(shè)檢驗框架計算統(tǒng)計顯著性。

許多研究人員觀察到的效應(yīng)只有在比標(biāo)準(zhǔn)更大的樣本量和仔細(xì)的統(tǒng)計測試中才能測量，而這種統(tǒng)計測試在實證機器人學(xué)中并不標(biāo)準(zhǔn)。由于實驗變化的噪聲很容易掩蓋所測量的效應(yīng)，許多機器人學(xué)論文可能是在測量由于統(tǒng)計能力不足而產(chǎn)生的統(tǒng)計噪聲。

TRI 從研究中得出的主要結(jié)論

團隊的主要結(jié)論之一是，微調(diào)性能隨著預(yù)訓(xùn)練數(shù)據(jù)的增加而平穩(wěn)提高。在我們考察的數(shù)據(jù)規(guī)模下，TRI 沒有發(fā)現(xiàn)性能斷點或明顯的拐點；人工智能的擴展在機器人領(lǐng)域依然有效。

TRI 在非微調(diào)的預(yù)訓(xùn)練大型行為模型上經(jīng)歷了混合結(jié)果。令人鼓舞的是，它發(fā)現(xiàn)單個網(wǎng)絡(luò)能夠同時學(xué)習(xí)許多任務(wù)，但它沒有觀察到從頭開始的單任務(wù)訓(xùn)練在沒有微調(diào)的情況下始終具有優(yōu)勢。TRI 預(yù)計這部分是由于其模型的語言引導(dǎo)能力。

在內(nèi)部測試中，TRI 表示已經(jīng)看到一些有希望的早期跡象，表明更大的 VLA 原型克服了部分這種困難，但需要更多的工作來嚴(yán)格檢驗這種效果在高語言能力模型中的表現(xiàn)。

在注意事項方面，TRI 表示微小的設(shè)計選擇，如數(shù)據(jù)歸一化，可以對性能產(chǎn)生重大影響，往往超過架構(gòu)或算法的變更。重要的是要仔細(xì)隔離這些設(shè)計選擇，以避免混淆性能變化的來源。

新聞中心

TRI：預(yù)訓(xùn)練的大型行為模型加速機器人學(xué)習(xí)

TRI 的評估方法

TRI 從研究中得出的主要結(jié)論

評論

相關(guān)推薦

技術(shù)專區(qū)