TRI:預(yù)訓(xùn)練的大型行為模型加速機器人學(xué)習(xí)
兩臺協(xié)作機器人使用從微調(diào)的大型行為模型(LBMs)中獲得的自主評估部署來執(zhí)行長時程行為,例如安裝自行車轉(zhuǎn)盤。| 來源:豐田研究院
豐田研究院(TRI)本周發(fā)布了其關(guān)于大型行為模型(LBMs)的研究結(jié)果,這些模型可用于訓(xùn)練通用機器人。該研究顯示,單個 LBM 可以學(xué)習(xí)數(shù)百個任務(wù),并利用先驗知識以 80%更少的訓(xùn)練數(shù)據(jù)獲取新技能。
LBMs 在大型、多樣化的操作數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。盡管它們越來越受歡迎,但機器人社區(qū)對 LBMs 實際上能提供什么仍然知之甚少。TRI 的工作旨在通過這項研究揭示算法和數(shù)據(jù)集設(shè)計方面的最新進(jìn)展。
總體而言,TRI 表示其發(fā)現(xiàn)大體上支持了近期 LBM 風(fēng)格機器人基礎(chǔ)模型的熱度激增,并補充了大規(guī)模在多樣化機器人數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練是通往更強大機器人的可行路徑的證據(jù),盡管存在一些需要注意的方面。
通用型機器人承諾一個未來,即家用機器人可以提供日常協(xié)助。然而,我們尚未達(dá)到任何機器人都能處理普通家庭任務(wù)的階段。TRI 表示,LBMs,即輸入機器人傳感器數(shù)據(jù)并輸出動作的具身 AI 系統(tǒng),可能會改變這一點。
2024 年,TRI 因其快速機器人教學(xué) LBMs 的工作贏得了機器人創(chuàng)新獎 。
TRI 研究發(fā)現(xiàn)的概述
TRI 在近 1700 小時的機器人數(shù)據(jù)上訓(xùn)練了一系列基于擴散的 LBMs,并進(jìn)行了 1800 次真實世界的評估部署和超過 47000 次模擬部署,以嚴(yán)格研究它們的性能。它發(fā)現(xiàn) LBMs:
相對于從頭開始制定的策略,能夠持續(xù)提升性能
在需要抵抗各種環(huán)境因素的挑戰(zhàn)性環(huán)境中,能夠以3-5倍更少的數(shù)據(jù)量學(xué)習(xí)新任務(wù)
隨著預(yù)訓(xùn)練數(shù)據(jù)的增加,性能穩(wěn)步提升
即使只有幾百小時多樣化的數(shù)據(jù),并且每個行為只有幾百個演示,性能也顯著提升,TRI 表示。預(yù)訓(xùn)練在比預(yù)期更早的規(guī)模上提供了持續(xù)的性能提升。目前還沒有一個值得注意的機器人數(shù)據(jù)量,但收益在達(dá)到那個規(guī)模之前就已經(jīng)顯現(xiàn)——這對于實現(xiàn)數(shù)據(jù)獲取和自舉性能的良性循環(huán)是一個有希望的跡象,TRI 聲稱。
TRI 的評估套件包括幾個新穎且極具挑戰(zhàn)性的長時程真實世界任務(wù);在這種設(shè)置下微調(diào)和評估,LBM 預(yù)訓(xùn)練提高了性能,盡管這些行為與預(yù)訓(xùn)練任務(wù)高度不同。
在 TRI 的 LBMs 的架構(gòu)和數(shù)據(jù)中
LBM 架構(gòu)被實例化為一個擴散 Transformer,用于預(yù)測機器人動作。| 來源:豐田研究院
TRI 的 LBMs 是具有多模態(tài) ViT 視覺語言編碼器和基于 AdaLN 條件編碼觀測值的 Transformer 去噪頭的多任務(wù)擴散策略。這些模型消耗手腕和場景相機、機器人本體感覺和語言提示,并預(yù)測 16 個時間步長(1.6 秒)的動作片段。
研究人員在 468 小時內(nèi)部部收集的雙臂機器人遙操作數(shù)據(jù)、45 小時模擬收集的遙操作數(shù)據(jù)、32 小時通用操作界面(UMI)數(shù)據(jù)以及從 Open X-Embodiment 數(shù)據(jù)集精心策劃的約 1150 小時互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練了 LBMs。
雖然模擬數(shù)據(jù)的比例很小,但將其包含在 TRI 的預(yù)訓(xùn)練混合中,確保它可以評估相同的 LBM 檢查點,無論是在模擬還是真實環(huán)境中。
TRI 的評估方法
TRI 在模擬和現(xiàn)實世界中,使用雙臂平臺在各種任務(wù)和環(huán)境條件下評估其 LBM 模型。 | 來源:豐田研究院
TRI 在使用 Franka Panda FR3 機械臂和最多六個攝像頭的物理和 Drake 模擬雙臂工作站上評估其大型行為模型(LBMs)——每只手腕最多兩個攝像頭,以及兩個靜態(tài)場景攝像頭。
TRI 在已見任務(wù)(存在于預(yù)訓(xùn)練數(shù)據(jù)中)和未見任務(wù)(TRI 用于微調(diào)其預(yù)訓(xùn)練模型的任務(wù))上評估模型。TRI 的評估套件包括 16 個在預(yù)訓(xùn)練期間模擬的已見任務(wù)、3 個真實世界的已見任務(wù)、5 個之前未見的長時程模擬任務(wù)和 5 個復(fù)雜的之前未見的長時程真實世界任務(wù)。
每個模型都通過每個真實世界任務(wù)50次運行和每個模擬任務(wù)200次運行進(jìn)行測試。這使我們的分析具有高度統(tǒng)計學(xué)意義,預(yù)訓(xùn)練模型在29個任務(wù)上進(jìn)行了4200次運行評估。
TRI 表示它仔細(xì)控制初始條件,以確保在現(xiàn)實世界和模擬中保持一致。它還在現(xiàn)實世界中進(jìn)行盲法 A/B 風(fēng)格的測試,并通過順序假設(shè)檢驗框架計算統(tǒng)計顯著性。
許多研究人員觀察到的效應(yīng)只有在比標(biāo)準(zhǔn)更大的樣本量和仔細(xì)的統(tǒng)計測試中才能測量,而這種統(tǒng)計測試在實證機器人學(xué)中并不標(biāo)準(zhǔn)。由于實驗變化的噪聲很容易掩蓋所測量的效應(yīng),許多機器人學(xué)論文可能是在測量由于統(tǒng)計能力不足而產(chǎn)生的統(tǒng)計噪聲。
TRI 從研究中得出的主要結(jié)論
團隊的主要結(jié)論之一是,微調(diào)性能隨著預(yù)訓(xùn)練數(shù)據(jù)的增加而平穩(wěn)提高。在我們考察的數(shù)據(jù)規(guī)模下,TRI 沒有發(fā)現(xiàn)性能斷點或明顯的拐點;人工智能的擴展在機器人領(lǐng)域依然有效。
TRI 在非微調(diào)的預(yù)訓(xùn)練大型行為模型上經(jīng)歷了混合結(jié)果。令人鼓舞的是,它發(fā)現(xiàn)單個網(wǎng)絡(luò)能夠同時學(xué)習(xí)許多任務(wù),但它沒有觀察到從頭開始的單任務(wù)訓(xùn)練在沒有微調(diào)的情況下始終具有優(yōu)勢。TRI 預(yù)計這部分是由于其模型的語言引導(dǎo)能力。
在內(nèi)部測試中,TRI 表示已經(jīng)看到一些有希望的早期跡象,表明更大的 VLA 原型克服了部分這種困難,但需要更多的工作來嚴(yán)格檢驗這種效果在高語言能力模型中的表現(xiàn)。
在注意事項方面,TRI 表示微小的設(shè)計選擇,如數(shù)據(jù)歸一化,可以對性能產(chǎn)生重大影響,往往超過架構(gòu)或算法的變更。重要的是要仔細(xì)隔離這些設(shè)計選擇,以避免混淆性能變化的來源。
評論