宇樹(shù)CEO 對(duì)“具身智能”和“人形機(jī)器人”未來(lái)的設(shè)想

—— “具身智能”是更好實(shí)現(xiàn)AGI的方向，“人形機(jī)器人”可以做得更大或微小

作者：王瑩時(shí)間：2024-12-21 來(lái)源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

2024 年8 月，“2024 世界機(jī)器人大會(huì)”在京舉行，期間舉辦了系列論壇，在8 月24 日下午的技術(shù)論壇上，主要話題是“人形機(jī)器人”，宇樹(shù)科技CEO 兼CTO 王興興做了報(bào)告，題目是：“具身智能”指明了實(shí)現(xiàn)AGI的方向。

本文引用地址：http://2s4d.com/article/202412/465715.htm

王興興 宇樹(shù)科技CEO兼CTO

王興興首先向來(lái)參會(huì)的美國(guó)AI 研究所執(zhí)行主任、波士頓動(dòng)力公司創(chuàng)始人Marc Raibert（馬克·雷伯特）致敬，說(shuō)在他10 歲讀小學(xué)時(shí)，看到了Marc 在MIT 實(shí)驗(yàn)室做的雙足機(jī)器人和后空翻機(jī)器人，是從在中國(guó)引進(jìn)的科技紀(jì)錄片里，至今已二十幾年。宇樹(shù)公司2016年成立，至今也有8 年時(shí)間了。

王興興這次的報(bào)告是探討具身智能和AGI 的方向。

1 OpenAI的早期研發(fā)也是機(jī)器人

OpenAI 早期的目標(biāo)是實(shí)現(xiàn)AGI（通用人工智能）。實(shí)際上，該公司早年在機(jī)器人方面投入很大，但是由于GPT 發(fā)展很快，因此該公司后來(lái)在機(jī)器人的發(fā)展方向上投入資源較少。但是王興興堅(jiān)信“具身智能”是更好實(shí)現(xiàn)AGI 的方向。

為什么這么說(shuō)？王興興沒(méi)有直接回答，而是先介紹了宇樹(shù)機(jī)器人的發(fā)展歷程。

2 宇樹(shù)機(jī)器人的進(jìn)展

● Xdog —— 公司成立前的機(jī)器狗原型

早在2013—2015/2016 年，王興興在讀碩士期間做了XDog 機(jī)器人。當(dāng)時(shí)初衷很簡(jiǎn)單，因?yàn)樗幻麑W(xué)生沒(méi)有那么多的資源去做一個(gè)很大的液壓機(jī)器人，所以當(dāng)時(shí)希望用一種簡(jiǎn)單的方法實(shí)現(xiàn)一個(gè)低成本、運(yùn)動(dòng)性能很好的方案，所以他當(dāng)時(shí)就用盤(pán)式無(wú)刷電機(jī)，再加上自己開(kāi)發(fā)的電機(jī)驅(qū)動(dòng)板，實(shí)現(xiàn)了XDog 方案。該方案的研發(fā)投入只有一兩萬(wàn)元。王興興在2015 年用這個(gè)機(jī)器人參加了上海的一個(gè)比賽，獲得了二等獎(jiǎng)，贏得了8 萬(wàn)元獎(jiǎng)金。這筆獎(jiǎng)金后來(lái)成為2016 年宇樹(shù)公司注冊(cè)時(shí)的啟動(dòng)資金。

圖1 宇樹(shù)公司的機(jī)器人

宇樹(shù)后續(xù)的產(chǎn)品主要是做高性能四足機(jī)器人，2023年年初又開(kāi)始做高性能人形機(jī)器人等技術(shù)產(chǎn)品（如圖1）。代表性的產(chǎn)品如下。

● 四足機(jī)器人Go1

宇樹(shù)目前的四足主機(jī)器人主要是兩款。第一款是小一點(diǎn)的Go1，最大特點(diǎn)是搭載了自研的3D激光雷達(dá)，并且在2023 年就搭載了OpenAI 的ChatGPT 接口，用戶(hù)可以直接用語(yǔ)音跟它對(duì)話，讓它執(zhí)行一些底層的動(dòng)作，并且也試著集成了OpenAI 的多模態(tài)接口，用戶(hù)可以問(wèn)它前面有什么東西，它可以回答。

但是在開(kāi)發(fā)過(guò)程中，發(fā)現(xiàn)目前的大語(yǔ)言模型和多模態(tài)模型對(duì)滿足機(jī)器人的應(yīng)用是非常不足的——它們對(duì)空間/ 整個(gè)物理世界的理解，包括對(duì)機(jī)器人本體的理解是遠(yuǎn)遠(yuǎn)不夠的。所以希望未來(lái)有更好的機(jī)器人模型誕生。當(dāng)然這不可能僅指望一家公司，需要全球所有的實(shí)驗(yàn)室和科技公司一起推動(dòng)。

● 工業(yè)級(jí)四足機(jī)器人B2

B2 也是2023 年發(fā)布的，是大一點(diǎn)的工業(yè)級(jí)四足機(jī)器人，最大的特點(diǎn)是負(fù)載和續(xù)航能力很強(qiáng)。對(duì)于大部分的工業(yè)場(chǎng)景，包括室內(nèi)外、地下管廊或其他環(huán)境都是足夠適用的，這也是宇樹(shù)目前的一個(gè)主力型號(hào)。

● 人形機(jī)器人H1 和G1

在人形機(jī)器人方面，宇樹(shù)目前發(fā)展也非?？臁Ｆ鋵?shí)早在2009 年王興興讀大一的時(shí)候，寒假就做過(guò)一個(gè)小的人形機(jī)器人，當(dāng)時(shí)非常便宜，只用了200 元。但是做好以后他非常失望——不僅對(duì)自己感到失望，也對(duì)當(dāng)時(shí)全球范圍內(nèi)人形機(jī)器人的科技發(fā)展速度感到有些失望。所以之后很多年，很多人問(wèn)宇樹(shù)做不做人形機(jī)器人？王興興非常堅(jiān)決地回答“不做”。因?yàn)楫?dāng)時(shí)全球的技術(shù)及商業(yè)化程度，沒(méi)有辦法很好地推動(dòng)人形機(jī)器人發(fā)展。

但是在過(guò)去的幾年，很多實(shí)驗(yàn)室用宇樹(shù)的機(jī)器狗做AI開(kāi)發(fā)，宇樹(shù)也肉眼可見(jiàn)了強(qiáng)化學(xué)習(xí)在四足機(jī)器人里的飛速進(jìn)展。并且在2022 年底時(shí)ChatGPT 橫空出世，點(diǎn)燃了人們對(duì)生成式AI 影響機(jī)器人發(fā)展的信心。所以宇樹(shù)在2023 年初開(kāi)始做高性能人形機(jī)器。H1 人形機(jī)器是2023 年第一款人形機(jī)器人，最大特點(diǎn)是動(dòng)力性能強(qiáng)大，可謂當(dāng)時(shí)全球同類(lèi)型電驅(qū)人形機(jī)器人中動(dòng)力性最強(qiáng)的之一。

2024 年5 月，宇樹(shù)又發(fā)布了第二款人形機(jī)器人——G1 工程機(jī)，8 月發(fā)布了量產(chǎn)版本。工程機(jī)器人也是整合了宇樹(shù)過(guò)去幾年對(duì)四足機(jī)器人、人形機(jī)器人的軟件、工業(yè)設(shè)計(jì)的經(jīng)驗(yàn)，所以雖然這款機(jī)器人稍小一點(diǎn)，只有1.3米高，但無(wú)論它的外觀、性能/ 關(guān)節(jié)靈活性、產(chǎn)品完成度都很高。宇樹(shù)已經(jīng)快要完成量產(chǎn)化的設(shè)計(jì)改造，預(yù)計(jì)年底前就可以量產(chǎn)。

圖2 是G1 的關(guān)節(jié)布置，可見(jiàn)非常流暢和漂亮。這里有個(gè)“梗”，其實(shí)這種關(guān)節(jié)布置對(duì)于動(dòng)力控制來(lái)說(shuō)并不是最優(yōu)的，腿有點(diǎn)重且不方便控制。但是為什么敢這么做？原因就是AI 技術(shù)的進(jìn)步，使很多原本不容易控制的變得容易解決了。

圖2 G1工程機(jī)的部分關(guān)節(jié)布置

2024 年5 月G1 剛發(fā)布時(shí)展示的一些運(yùn)動(dòng)性能。里面用了一些傳統(tǒng)控制算法，但是大部分還是用了深度強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)。

目前產(chǎn)品的完成度還是非常高的，不怕踹、打，關(guān)節(jié)的靈活性也非常高，可以實(shí)現(xiàn)很多人實(shí)現(xiàn)不了的高難動(dòng)作，還輕便可折疊（如圖3）。

圖3 G1不怕踹、踢，關(guān)節(jié)靈活性高

H1 是在2024 年初時(shí)推出，可能是全球第一款可實(shí)現(xiàn)空翻的純電機(jī)驅(qū)動(dòng)的人形機(jī)器人，動(dòng)力性能非常強(qiáng)勁，也是用了“模仿學(xué)習(xí)+ 強(qiáng)化學(xué)習(xí)”的算法，因?yàn)檫@種機(jī)器人不太好控制，用傳統(tǒng)算法很難實(shí)現(xiàn)空翻（圖4）。通過(guò)“模仿學(xué)習(xí)+ 強(qiáng)化學(xué)習(xí)”，還實(shí)現(xiàn)了奔跑及跳舞等動(dòng)作。

圖4 H1在做空翻

在這次展會(huì)現(xiàn)場(chǎng)，宇樹(shù)長(zhǎng)時(shí)間地在演示這個(gè)技術(shù)，可見(jiàn)穩(wěn)定性非常高。因?yàn)锳I 技術(shù)相對(duì)于別的技術(shù)，最大的一個(gè)點(diǎn)就是它對(duì)硬件和對(duì)機(jī)器人的泛用性還是非常好的，哪怕硬件有一點(diǎn)點(diǎn)偏差，它還是可以有很穩(wěn)定的控制。

上述主要是基于深度相機(jī)的端到端深度強(qiáng)化學(xué)習(xí)。實(shí)際上，如果對(duì)于復(fù)雜地形也可以訓(xùn)練。包括對(duì)于四足機(jī)器人——它本身也可以2條腿走路，包括連續(xù)的空翻，也是基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的。這些功能早幾個(gè)月前，宇樹(shù)就已經(jīng)OTA 升級(jí)給全球客戶(hù)使用了。

宇樹(shù)還推出了基于開(kāi)源的遙操作數(shù)據(jù)采集系統(tǒng)（圖5）。因?yàn)槟壳癆I 技術(shù)基本上是數(shù)據(jù)驅(qū)動(dòng)的，因此對(duì)人形機(jī)器人的數(shù)據(jù)采集是剛需的，所以宇樹(shù)做了一套比較簡(jiǎn)單的輕量化的數(shù)據(jù)采集系統(tǒng)。但這還需要更多完善。

圖5 H1的遙操作

2024 年年中，宇樹(shù)在基于模仿學(xué)習(xí)和深度強(qiáng)化之上做了G1 的一些升級(jí)性動(dòng)作（圖6）。

圖6 G1升級(jí)了一些高難動(dòng)作

3 宇樹(shù)的下一步規(guī)劃

人們可能覺(jué)得宇樹(shù)的機(jī)器人現(xiàn)在已經(jīng)做得不錯(cuò)了，但實(shí)際上要做的事情還非常多。

例如，目前這些動(dòng)作基本上是每個(gè)動(dòng)作單獨(dú)做AI訓(xùn)練的，但在很多場(chǎng)景下，人們還是希望一臺(tái)機(jī)器人可以自動(dòng)切換所有的動(dòng)作，而不需要人為地去切換動(dòng)作，即一個(gè)通用AI機(jī)器人能做所有的事情。這也是通用AI希望達(dá)到的目標(biāo)。這也是用深度相機(jī)來(lái)做端到端訓(xùn)練的。

4 “深度強(qiáng)化學(xué)習(xí)”的近期發(fā)展方向

● 全身任意姿態(tài)或舞蹈等動(dòng)作的模仿深度強(qiáng)化學(xué)習(xí)。

● 復(fù)雜地形下的全身任意穩(wěn)定運(yùn)動(dòng)。

● 手部：對(duì)于復(fù)雜物品或零部件，有較復(fù)雜的靈巧操作?，F(xiàn)在全球范圍內(nèi)用模仿學(xué)習(xí)可以實(shí)現(xiàn)較大物體的操作，例如把水杯從一處拿到另一處。但是對(duì)于更精細(xì)一點(diǎn)的活兒還做不好，例如焊電路、穿針引線、打一個(gè)結(jié)等。但這些都是非常值得做的。

● 基于圖像或深度數(shù)據(jù)等感知數(shù)據(jù)的強(qiáng)化學(xué)習(xí)導(dǎo)航避障。

5 未來(lái)能做的激動(dòng)人心的事：世界模型=AGI

● “世界模型”包括對(duì)時(shí)空和物理規(guī)律的理解

再好高騖遠(yuǎn)一下，展望人形機(jī)器人能做的更加激動(dòng)人心的一些事情。王興興看好“世界模型”，并認(rèn)為具身智能是實(shí)現(xiàn)“世界模型”的一個(gè)方向。不過(guò)需要指出的是，這可能不是宇樹(shù)目前能實(shí)現(xiàn)的，希望全球的從業(yè)者都能推動(dòng)這件事情，而且這將是未來(lái)最激動(dòng)人心的時(shí)刻。

“世界模型”包括機(jī)器人對(duì)自身時(shí)空的理解，以及對(duì)物理規(guī)律的理解。實(shí)際上，人們也知道現(xiàn)在的AI 技術(shù)對(duì)機(jī)器人的身體和對(duì)世界的理解是完全不夠的，例如對(duì)重力、摩擦力和接觸的理解是非常差的。如果有更好的AI能把機(jī)器人對(duì)自身的認(rèn)知和對(duì)環(huán)境的理解做出來(lái)，就可以大大推動(dòng)整個(gè)機(jī)器人行業(yè)的進(jìn)步。

而且“世界模型”本身就是AGI 的一個(gè)方向，可能就是用來(lái)真正實(shí)現(xiàn)AGI 的。因?yàn)锳GI 最大的發(fā)展點(diǎn)是大部分人能做的事情它應(yīng)該都能做，包括開(kāi)車(chē)、洗衣做飯、工廠工作。如果“世界模型”對(duì)世界本身有很好的建模，那么這種目標(biāo)就差不多要實(shí)現(xiàn)了。例如特斯拉的FSD（完全自動(dòng)駕駛），“世界模型”對(duì)整個(gè)車(chē)輛和周邊環(huán)境都會(huì)有建模，包括對(duì)前車(chē)的速度判斷、撞擊等一些未來(lái)動(dòng)作的預(yù)判，也會(huì)有好的建模和理解。

● 大模型的發(fā)展離不開(kāi)“身體”

另一方面，很多做AI 的企業(yè)，包括OpenAI，對(duì)大腦的重視程度非常高。但身體才是最重要的，因?yàn)榇竽X和身體是分不開(kāi)的。

舉個(gè)簡(jiǎn)單的例子，這也是王興興從小就非常困擾的一個(gè)問(wèn)題：做夢(mèng)的時(shí)候，為什么會(huì)突然感覺(jué)從懸崖上往下掉，或者在夢(mèng)里為什么跑不快？這個(gè)問(wèn)題在他本科的時(shí)候才想通，其實(shí)原因很簡(jiǎn)單：人在睡覺(jué)的時(shí)候，大腦跟身體的感知是完全斷開(kāi)的，你不能感知到身體的皮膚，也不能控制肌肉，所以你的大腦本身是沒(méi)有物理世界連接的。

所以在我們?cè)镜恼J(rèn)知里，跑步時(shí)，我每跑一步腳都是要跟地面有接觸的，接觸以后你的大腦知道我接觸到地面了，我要邁另外一只腳。但是在我們做夢(mèng)的時(shí)候，由于跟物理世界脫離了關(guān)系，你的大腦其實(shí)不知道你已經(jīng)踩到地面了，所以你永遠(yuǎn)感覺(jué)你的腳輕飄飄的，跑不快，沒(méi)辦法使力，所以這也是體現(xiàn)了目前的大的身體的重要性。包括為什么會(huì)覺(jué)得從懸崖上往下面掉，因?yàn)槟阍诟眢w斷開(kāi)連接的時(shí)候，你其實(shí)并不知道你的身體跟床是接觸的，你覺(jué)得你是懸空的，所以你往下掉。

這也回答了一個(gè)非常簡(jiǎn)單的問(wèn)題，就是為什么現(xiàn)在大語(yǔ)言模型會(huì)有幻覺(jué)？簡(jiǎn)單地解釋就是目前的大語(yǔ)言模型活在夢(mèng)里，對(duì)物理世界是脫離連接的——不能感受到自己的身體，也不能看到，也不能撞到頭部，也不能眨眼睛……。所以它整個(gè)的閉環(huán)跟物理世界的連接斷開(kāi)以后，讓所有的大語(yǔ)言模式都是活在夢(mèng)里。由于它是非常虛擬的，所以會(huì)有很多幻覺(jué)、不真實(shí)——它自己都不知道做的事情真不真。原因也非常簡(jiǎn)單，例如有人在說(shuō)夢(mèng)話，如果你跟他說(shuō)一句話，他也回答你的問(wèn)題。但是說(shuō)夢(mèng)話的人所說(shuō)的是稀里糊涂的，沒(méi)有邏輯可言。所以這也體現(xiàn)了身體的重要性。

● 人和動(dòng)物“換腦”會(huì)如何？

王興興又分享一個(gè)有趣的想法，是他小時(shí)候非常喜歡的思考：人為什么比動(dòng)物聰明？如果把人的大腦放到狗里，或者豬里，或者把豬的大腦放到人里，到底哪種結(jié)構(gòu)可以誕生更多的智能？

他一直在反思，這是受多方面的原因限制的，而且可能物理限制還會(huì)更多。例如他很懷疑：如果把一只猴子的大腦放到人的身上，Ta 照樣是可以說(shuō)話的。

但是為什么猴子不能說(shuō)話？原因非常簡(jiǎn)單，其喉嚨和聲帶不支持它說(shuō)話。舉個(gè)最簡(jiǎn)單的例子，像鸚鵡的神經(jīng)元其實(shí)是比較少的，比較聰明、能說(shuō)話的鸚鵡大概只有2~30 億的神經(jīng)元，但是猴子的神經(jīng)元跟它差不多，甚至猩猩的神經(jīng)元比它更多，但是為什么猩猩說(shuō)不了話，而且只能發(fā)一些低級(jí)的聲音？可能人們猜測(cè)是聲帶的原因。這也可以解釋鸚鵡為什么能說(shuō)話？因?yàn)樗芟矚g吃堅(jiān)果，在吃堅(jiān)果的過(guò)程中，它的喉嚨和舌頭鍛煉得非常靈活，所以它沒(méi)有物理限制。所以這也是很大層面上一些高等動(dòng)物，諸如一些海豚、鯨等，是因?yàn)樗鼈兊穆晭拗屏怂鼈兊陌l(fā)聲。

表1 部分動(dòng)物與人類(lèi)的神經(jīng)元數(shù)量

所以除了純粹的AI，還需要：①對(duì)內(nèi)，有身體，包括對(duì)視覺(jué)和身體的感知都非常重要，包括對(duì)實(shí)時(shí)的數(shù)據(jù)采集；②對(duì)外：對(duì)物理世界的了解，包括對(duì)一些碰撞、重力、摩擦力、光學(xué)等的理解。

● 人的輸出能力有潛力可挖

王興興還介紹了一個(gè)有趣的觀點(diǎn)：目前人的數(shù)據(jù)輸出能力是非常弱的，而人的數(shù)據(jù)輸入能力非常強(qiáng)，因?yàn)槿擞醒劬?，看一張圖片或視頻的時(shí)候，數(shù)據(jù)的輸入量非常大，至少每秒鐘幾百或幾千kB 的數(shù)據(jù)量。但是人輸出數(shù)據(jù)的能力其實(shí)非常弱，只能通過(guò)說(shuō)話或者敲鍵盤(pán)。最頂尖的人敲鍵盤(pán)的速度大概可能也就1 秒幾個(gè)字而已——比特流是非常低的。所以如果有一種輸出設(shè)備諸如人機(jī)接口可以把人的數(shù)據(jù)輸出能力大大提升，這對(duì)人本身的智能提升，包括工作效率會(huì)有非常大的提升。而且這項(xiàng)技術(shù)可以通過(guò)不需要用大腦植入式的設(shè)備，只要在表皮能連接上一些神經(jīng)元就可實(shí)現(xiàn)。

所以如果有一些神經(jīng)學(xué)或生物醫(yī)療相關(guān)的朋友，沒(méi)準(zhǔn)可以試試這個(gè)方向？

王興興為什么愿意分享這個(gè)方向？因?yàn)樗X(jué)得自己沒(méi)有能力去做。歡迎有興趣、有能力的朋友去嘗試一下，或者與他一起去做這件事情。

另外他又分享了一個(gè)體驗(yàn)：他小時(shí)候看一些電視劇，看到有些武林高手的耳朵是可以動(dòng)的，就是他們的肌肉可以控制耳朵動(dòng)，但是普通人實(shí)現(xiàn)不了。其實(shí)這個(gè)本領(lǐng)是可以鍛煉出來(lái)的。例如王興興在高中上英語(yǔ)課時(shí)總分心，有一段時(shí)間練習(xí)用想法控制腦袋殼上一塊肌肉的運(yùn)動(dòng)，練習(xí)了好幾天，突然有一天就能控制那塊肌肉了！未來(lái)，也許用外部的腦機(jī)接口直接連接/ 替掉一些神經(jīng)元，然后去鍛煉一下，就能作為很好的人機(jī)接口輸出。

● 比人類(lèi)更高級(jí)的智能形態(tài)會(huì)什么樣？

現(xiàn)在和曾經(jīng)的AI 網(wǎng)絡(luò)是模仿人類(lèi)的，但又不完全跟人類(lèi)一樣。這就像飛機(jī)一樣，飛行原理是參考了鳥(niǎo)的飛行原理，但是跟鳥(niǎo)又不完全一樣。所以用計(jì)算機(jī)實(shí)現(xiàn)的智能形態(tài)，跟人的智能形態(tài)多少還是會(huì)有差異的。

● AGI的黎明快要到來(lái)

在2024 年年初的時(shí)候，王興興預(yù)估在2025 年年底之前，在全球至少有一家實(shí)驗(yàn)室或公司可以把通用型的機(jī)器人AI模型給做出來(lái)。當(dāng)然不知道是哪一家，有可能是中國(guó)，也有可能是美國(guó)的公司或者實(shí)驗(yàn)室。

● 盡可能相信AI

有了生成式AI，當(dāng)下是迄今人類(lèi)歷史上最激動(dòng)人心的時(shí)刻。

● 跨尺度智能

除了跟人一樣大小的人形機(jī)器人，還可以做更小更小的人形機(jī)器人，也可以做更大的人形機(jī)器人。例如可以做細(xì)胞大小的人形機(jī)器人，可以做比如100 萬(wàn)個(gè)，然后當(dāng)人生病的時(shí)候，只要把100 萬(wàn)個(gè)人形機(jī)器人打到身體里面，就可以修復(fù)組織^[1]。當(dāng)然這個(gè)概念還比較遙遠(yuǎn)。

參考文獻(xiàn)：

[1] 最小行走機(jī)器人能做微觀測(cè)量[N].熊文苑,譯.參考消息.2024-12-8.

（本文來(lái)源于《EEPW》202412）

新聞中心

宇樹(shù)CEO 對(duì)“具身智能”和“人形機(jī)器人”未來(lái)的設(shè)想

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)