“人形機(jī)器人”的智能感知與控制技術(shù)
微納感知是機(jī)器人智能的基礎(chǔ)之一。2024年4月,“2024中國(guó)人形機(jī)器人生態(tài)大會(huì)”在上海舉行,主辦單位是中國(guó)機(jī)器人網(wǎng)和上海智能谷。會(huì)議期間,俄羅斯工程院外籍院士、蘇州大學(xué)機(jī)電工程學(xué)院機(jī)器人技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室副主任孫立寧做了“ 人形機(jī)器人智能感知與控制技術(shù)”的報(bào)告,從多個(gè)角度介紹了下當(dāng)前在這個(gè)方面領(lǐng)域中的進(jìn)展。
本文引用地址:http://2s4d.com/article/202407/460968.htm背景
從我國(guó)近幾年制定的發(fā)展政策到“十四五”規(guī)劃,尤其是2023年11月工信部發(fā)布了《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見(jiàn)》,按照“謀劃三年、展望五年”的時(shí)間安排做了戰(zhàn)略部署,指出:到2025年人形機(jī)器人創(chuàng)新體系初步建立,到2027 年達(dá)到深入結(jié)合2。2024年3月北京又“揭榜掛帥”了19個(gè)項(xiàng)目3.....我們看到很多人形機(jī)器人項(xiàng)目發(fā)展良好。
2024年1月,工信部、教育部、科技部等7部門(mén)正式發(fā)布《關(guān)于推動(dòng)未來(lái)產(chǎn)業(yè)創(chuàng)新發(fā)展的實(shí)施意見(jiàn)》中,在專欄“創(chuàng)新標(biāo)志性產(chǎn)品”中,第一條就是“人形機(jī)器人”,之后的二~四條分別是量子計(jì)算機(jī)、新型顯示、腦機(jī)接口。從這一-點(diǎn)來(lái)看,我國(guó)非常重視人形機(jī)器人領(lǐng)域的發(fā)展。
近期業(yè)內(nèi)人士也能感受到,無(wú)論是科技部還是工信部紛紛對(duì)白皮書(shū)、路線圖進(jìn)行了制定,而且在各個(gè)省市的發(fā)展規(guī)劃中,紛紛成立人形機(jī)器人創(chuàng)新中心、研究院等。
人形機(jī)器人的優(yōu)點(diǎn)人們已清楚,主要是從帶足形到像人一樣,解決復(fù)雜場(chǎng)景的應(yīng)用。
1 進(jìn)展:自2023年以來(lái)再次爆發(fā)
人形機(jī)器人這幾年出現(xiàn)了很多。尤其從2023年至2024年3月這一年多時(shí)間里,沉寂了20多年的人形機(jī)器人再次爆發(fā)。國(guó)外的案例,從美國(guó)波士頓動(dòng)力的Atlas,到近期特斯拉的Optimus (擎天柱),以及英國(guó)Ameca、 美國(guó)Digit V3、迪士尼雙足機(jī)器人、Figure 01等,國(guó)內(nèi)有之江實(shí)驗(yàn)室的“小之”,優(yōu)必選的“Walker x”.“星動(dòng)紀(jì)元”、云深處“悟空”、追覓人形機(jī)器人、樂(lè)“星動(dòng)紀(jì)元”、云深處“悟空”、追覓人形機(jī)器人、樂(lè)聚“夸父”等。
2 人形機(jī)器人的發(fā)展目標(biāo)
這要從兩個(gè)方面來(lái)看。
①技術(shù)層面,想使機(jī)器人像人一樣一能動(dòng)、能跑、能越障;更重要的是提升智能化水平,例如能針對(duì)任務(wù)②市場(chǎng)層面,盡管各種應(yīng)用場(chǎng)景還在探索之中,但靈活、 穩(wěn)定、智能。
②市場(chǎng)層面,盡管各種應(yīng)用場(chǎng)景還在探索之中,但至少市場(chǎng)目標(biāo)沒(méi)有改變,希望達(dá)到:低成本、高可靠性、用于軍事場(chǎng)景、家用場(chǎng)景、搶險(xiǎn)救援等。
網(wǎng)上有很多視頻。例如,波士頓動(dòng)力的AI建筑機(jī)器人,還有海爾和樂(lè)聚推出的“家庭服務(wù)機(jī)器人概念演示”。2024 年3月,在“2024年中國(guó)家電及消費(fèi)電子博覽會(huì)”上,海爾機(jī)器人與樂(lè)聚機(jī)器人聯(lián)合展出了國(guó)內(nèi)首款面向家庭場(chǎng)景的人形機(jī)器人Kuavo (夸父)。這款作功能,還展示了洗衣、澆花、插花、晾衣服等近期學(xué)作功能,還展示了洗衣、澆花、插花、晾衣服等近期學(xué)習(xí)的手部操作成果。該機(jī)器人可以炒菜,這是否采用了數(shù)學(xué)模型?可能不是,是人的經(jīng)驗(yàn)、行為能夠數(shù)據(jù)化,這一點(diǎn)非常關(guān)鍵。
未來(lái)人形機(jī)器人怎么實(shí)現(xiàn)?人們上班后,家里收拾桌子和打掃衛(wèi)生,包括把家電之間(洗衣機(jī)、冰箱、洗碗機(jī)等)連起來(lái),變成了一個(gè)電子保姆,慢慢幫人們做家務(wù),這應(yīng)該是對(duì)我們生活有幫助的一種理想場(chǎng)景 。
3 感知/環(huán)境感知技術(shù)
回到技術(shù)層面,人形機(jī)器人有五六項(xiàng)關(guān)鍵技術(shù),如下所示。
● 高爆發(fā)力的驅(qū)動(dòng)一這與工業(yè)機(jī)器人不一樣, 而是有爆發(fā)力、高功率密度;
● 環(huán)境感知;
● 任務(wù)和運(yùn)動(dòng)控制;
● 本體;
● 大模型,像計(jì)算機(jī)、手機(jī)一樣。
本次重點(diǎn)在感知和控制方面做介紹。
過(guò)去的半閉環(huán)系統(tǒng)更關(guān)注內(nèi)在的閉環(huán),像工業(yè)機(jī)器人的碼盤(pán)。現(xiàn)在人形機(jī)器人出現(xiàn)以后,更關(guān)注外部的傳感,像聽(tīng)、看、聞,以及內(nèi)部的陀螺和慣性等,用于外部的手、足和皮膚等(如圖1)。
圖1 感知技術(shù)向微型化、多功能化、數(shù)字化和智能化方向發(fā)展
近期孫立寧院士團(tuán)隊(duì)在探索MEMS技術(shù)與機(jī)器人的結(jié)合。
首先,做了柔性電子皮膚,用基于納米摩擦發(fā)電的柔性傳感器進(jìn)行設(shè)計(jì),研制出了便攜式、低功耗、低成機(jī)交互系統(tǒng),實(shí)現(xiàn)機(jī)器人末端的實(shí)時(shí)三維軌跡交互控制。這里的自發(fā)電指運(yùn)動(dòng)過(guò)程中的摩擦發(fā)電,是用先進(jìn)材料研制出來(lái)的可穿戴的皮膚。這個(gè)研究較為實(shí)用。
第二,在傳統(tǒng)的、未來(lái)不可少的靈巧手傳感方面,有力的感知/觸覺(jué)。為了實(shí)現(xiàn)小型化和集成化,采用了更多的先進(jìn)材料,利用了柔性和壓鑄等原理。在這方面,國(guó)內(nèi)團(tuán)隊(duì)做了很多工作。
從感知外部來(lái)看,機(jī)器人無(wú)論是在AGV (自動(dòng)引導(dǎo)車) 1移動(dòng)方面普遍存在挑戰(zhàn)。環(huán)境感知方面的挑戰(zhàn)涉及如下。
● 環(huán)境幾何特征感知。基于IMU+激光雷達(dá)+視覺(jué)的幾何特征感知:足底沖擊振動(dòng)下的多幀圖像去噪與配準(zhǔn),像人一樣,建立室外大場(chǎng)最地圖,通過(guò)回環(huán)檢測(cè)與回環(huán)驗(yàn)證對(duì)自身進(jìn)行重定位,提供圖像的精度。
● 地形感知與分割。基于視覺(jué)的野外地形感知:建立具有典型地形的野外地形圖像數(shù)據(jù)集;根據(jù)野外地形特征設(shè)計(jì)地形分割網(wǎng)絡(luò),并進(jìn)行訓(xùn)練和測(cè)試;最終可通過(guò)視覺(jué)圖像推斷地形類型。與過(guò)去的機(jī)器人的吻合。
● 多信息地圖建立?;谝曈X(jué)進(jìn)行三維建圖:進(jìn)行稠密深度估計(jì),對(duì)薄結(jié)構(gòu)及低紋理區(qū)域(如樹(shù)干、水面)建模:通過(guò)視覺(jué)SLAM架構(gòu)建立具有三維信息、地形以及物理特征信息的多信息稠密地圖。
● 面向操作物體感知。這是協(xié)作機(jī)器人與人形機(jī)器人特有的問(wèn)題。例如炒菜,主要是面向操作任務(wù)的目標(biāo)物感知:實(shí)時(shí)建圖與動(dòng)態(tài)物體檢測(cè),防止操作碰撞,基于卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)物分類,進(jìn)行特征點(diǎn)匹配,依據(jù)非完整點(diǎn)云數(shù)據(jù)估計(jì)目標(biāo)物6維位姿。
● 類人時(shí)空域信息感知?;诿}沖神經(jīng)網(wǎng)絡(luò)的時(shí)空域信息感知:突破以空間信息為主的靜態(tài)感知范式,將視覺(jué)感知的維度擴(kuò)充至?xí)r空維度,提高機(jī)器人在動(dòng)態(tài)、開(kāi)放環(huán)境下的感知能力。
體感知方面,早期做視覺(jué)已比較多了,現(xiàn)在對(duì)軟體或復(fù)雜的形狀,觸覺(jué)就發(fā)揮了很大的作用,所以對(duì)完整的估計(jì)等,包括清華等高校研究單位做的MEMS傳感器的項(xiàng)目,已經(jīng)能夠?qū)Σ馁|(zhì)(鋼鐵、玻璃還是木頭等)能夠識(shí)別了,包括手指已經(jīng)有了紋理,這方面就更精準(zhǔn)化了。
4 運(yùn)動(dòng)控制
● 系統(tǒng)建模。系統(tǒng)建模是在運(yùn)動(dòng)控制層面,是比較難的,主要依據(jù)人體運(yùn)動(dòng)特征,構(gòu)建基于倒立擺模型:如線性倒立擺,彈簧負(fù)載倒立擺模型,用于行走與跳躍運(yùn)動(dòng)控制,還有被動(dòng)動(dòng)力學(xué)、單剛體1多剛體動(dòng)力學(xué)模型進(jìn)行人形機(jī)器人控制(如圖2)。
圖2系統(tǒng)建模
● 動(dòng)步態(tài)運(yùn)動(dòng)。靜態(tài)1準(zhǔn)靜態(tài)運(yùn)動(dòng)的特點(diǎn)是依賴較大腳掌,行走緩慢,采用位置控制;動(dòng)態(tài)運(yùn)動(dòng)無(wú)需大腳掌保持靜態(tài)穩(wěn)定性,行走速度大幅提高,由位置控制轉(zhuǎn)為力控方案,有一定的魯棒性。高動(dòng)態(tài)運(yùn)動(dòng)的人形機(jī)器人軟硬件成本最高,追求極致的運(yùn)動(dòng)性能,以突破人類運(yùn)動(dòng)的極限。
早期仿生機(jī)器人主要是四足機(jī)器人,做了多少年都本體,這很復(fù)雜,然后再降維。應(yīng)該說(shuō)從機(jī)械動(dòng)力學(xué)方面有很多科學(xué)問(wèn)題,非常難。但是如果能把系統(tǒng)動(dòng)力學(xué)面有很多科學(xué)問(wèn)題,非常難。但是如果能把系統(tǒng)動(dòng)力學(xué)模型與大數(shù)據(jù)結(jié)合,可能是一種解決辦法。再加上人形機(jī)器人的自學(xué)習(xí)訓(xùn)練,像人一樣—人實(shí)際 上沒(méi)有模型,通過(guò)訓(xùn)練學(xué)習(xí)的過(guò)程把AI問(wèn)題解決了。這兩方面可以結(jié)合。
機(jī)器人的自學(xué)習(xí)訓(xùn)練,像人一樣—人實(shí)際上沒(méi)有模型,通過(guò)訓(xùn)練學(xué)習(xí)的過(guò)程把AI問(wèn)題解決了。這兩方面可以結(jié)合。
動(dòng)態(tài)運(yùn)動(dòng)控制方面。實(shí)際上機(jī)器人的發(fā)展也經(jīng)歷了從靜態(tài)、準(zhǔn)動(dòng)態(tài)到高動(dòng)態(tài)的發(fā)展過(guò)程,這方面已經(jīng)看到了挑戰(zhàn),無(wú)論是Atlas還是擎天柱(Optimus),都是向動(dòng)第二,控制也是一個(gè)大的問(wèn)題,包括控制目標(biāo)與模態(tài)和高動(dòng)態(tài)發(fā)起了挑戰(zhàn),使之能夠更好地得到應(yīng)用。
第二,控制也是一個(gè)大的問(wèn)題,包括控制目標(biāo)與模型的問(wèn)題。如前所敘,這里是模型與訓(xùn)練。底層來(lái)看,工業(yè)機(jī)器人是多關(guān)節(jié)位置控制,現(xiàn)在是全身運(yùn)動(dòng)控制,需要全身的力學(xué)模型。目前國(guó)內(nèi)很多學(xué)者和高校開(kāi)展了這方面的研究。
從這兩方面的手段來(lái)看,我們?cè)缙诘目刂剖侄?、?/span>制要素、執(zhí)行的變化基本是動(dòng)力學(xué)的問(wèn)題。
現(xiàn)在全身動(dòng)力學(xué)要搞關(guān)節(jié)的位置控制、沖擊力的柔性、接觸、執(zhí)行(讓人跳起來(lái))等問(wèn)題。這些模型的基礎(chǔ)原理也是多方面的,有基于動(dòng)量、動(dòng)能的,還包括機(jī)械動(dòng)力學(xué)模型等。
發(fā)展趨勢(shì)如前所述:準(zhǔn)動(dòng)態(tài)做了10年,然后運(yùn)動(dòng)控制/力控又做了10年,高動(dòng)態(tài)是當(dāng)前發(fā)展是最為火熱的技術(shù),最終的目標(biāo)是類人化。
在這里,模型研究還是很關(guān)鍵的,尤其對(duì)于從事機(jī)械系統(tǒng)的人。
● 四肢協(xié)調(diào)
兩條腿、兩條胳膊以及兩只手做復(fù)雜動(dòng)作的時(shí)候,對(duì)協(xié)調(diào)控制帶來(lái)挑戰(zhàn):怎樣來(lái)把人的行為復(fù)用到機(jī)器人上?這非常重要,需要數(shù)據(jù)驅(qū)動(dòng)。
想比之下,模型驅(qū)動(dòng)很難做得非常精準(zhǔn)一由于計(jì)算量要特別大,因此很難做到真實(shí)。所以數(shù)據(jù)驅(qū)動(dòng)是非常重要的。因?yàn)閯偛盘岬?,人的行為可能沒(méi)有太多的模型,是通過(guò)學(xué)習(xí)進(jìn)化的,最后能夠與外部環(huán)境進(jìn)行協(xié)調(diào)和適應(yīng),因此需要跟大模型、數(shù)據(jù)平臺(tái)結(jié)合。
未來(lái)的發(fā)展可能在手的操作方面會(huì)有很多挑戰(zhàn)。抓取相關(guān)的技術(shù)問(wèn)題,包括無(wú)縫地融合物理模型,最終是多模態(tài)一--通過(guò)大模型將不同傳 感器的信息融合處理,通過(guò)語(yǔ)言實(shí)現(xiàn)機(jī)器人智能控制。
總之,把底層運(yùn)動(dòng)和行為結(jié)合做好,是比較現(xiàn)實(shí)的亟待解決的問(wèn)題。
5 運(yùn)動(dòng)和感知技術(shù)的創(chuàng)新
無(wú)論從運(yùn)動(dòng)模型還是感知,人形機(jī)器人跟人不完全一樣,現(xiàn)在只能是從工程的角度改進(jìn)。例如人類有39萬(wàn)億個(gè)細(xì)胞/節(jié)點(diǎn),我們對(duì)其認(rèn)識(shí)太有限了。人運(yùn)動(dòng)最基本的是運(yùn)動(dòng)神經(jīng)元。神經(jīng)元來(lái)自于生物,截至2008年,孫立寧老師團(tuán)隊(duì)通過(guò)機(jī)械模型的方法建立了神經(jīng)時(shí)空分布模型、突觸生長(zhǎng)模型以及神經(jīng)電學(xué)模型,設(shè)計(jì)并搭建了神經(jīng)電路。這個(gè)模型準(zhǔn)不準(zhǔn)?他們把一個(gè)水蛭的腿切斷了,然后結(jié)合電生理實(shí)驗(yàn)平臺(tái)(膜片鉗)進(jìn)行了運(yùn)動(dòng)供了基礎(chǔ)?,F(xiàn)在來(lái)看這是生物芯片的概念,至少說(shuō)明這個(gè)模型是成功的,通過(guò)條件反射就能實(shí)現(xiàn)肌肉的控制。
如果這項(xiàng)工作能跟當(dāng)前的算力模型結(jié)合,可能效果就更好。
會(huì)有什么樣的效果呢?對(duì)于神經(jīng)元模型,我們看一朵花在含苞待放的時(shí)候,只要-滴水就會(huì)突然爆發(fā), 這是神經(jīng)發(fā)育的過(guò)程。包括動(dòng)物生下來(lái)的時(shí)候,神經(jīng)很快就會(huì)發(fā)育了,這是生物進(jìn)化的現(xiàn)象。
所以能不能把這個(gè)模型建好?通過(guò)一定的訓(xùn)練, 它自己就能爆發(fā)出一個(gè)神經(jīng)元?這個(gè)問(wèn)題很重要一結(jié)合生物學(xué)原理。
實(shí)際上,我們?nèi)祟惖纳窠?jīng)元,包括人類對(duì)于聲覺(jué)和視覺(jué)的認(rèn)識(shí)是因?yàn)榇竽X里有個(gè)海馬體,這個(gè)海馬區(qū)域的所以通過(guò)海馬體腦區(qū)的情感認(rèn)知,把拓?fù)潢P(guān)系找出來(lái),可能這樣一個(gè)宏觀模型對(duì)嵌入運(yùn)動(dòng)控制是一種非常好的原理。
前期工作已做到了包括建圖、采集,通過(guò)復(fù)雜環(huán)境導(dǎo)航、仿真強(qiáng)化學(xué)習(xí)等結(jié)合起來(lái),算力非???,相對(duì)比較前沿。在未來(lái)的研究.上如果這樣結(jié)合起來(lái),是否是一種新的思路?
6 ChatGPT的加持
ChatGPT已火熱一年多了,現(xiàn)在已司空見(jiàn)慣,但對(duì)我們的發(fā)展是很有幫助的。孫立寧教授非常關(guān)注神經(jīng)網(wǎng)絡(luò)和生成數(shù)據(jù),這兩者是非常重要的。前邊的感知是作為采集,從算法、AI到落地機(jī)器人的時(shí)候,主要有兩個(gè)大問(wèn)題,數(shù)據(jù)如何來(lái)?神經(jīng)網(wǎng)絡(luò)怎么做?
如果能夠把像神經(jīng)元這種生物學(xué)的原理,借鑒我們現(xiàn)在的神經(jīng)網(wǎng)絡(luò),可能進(jìn)展更快更好,但這需要人們的探索。
7 其他挑戰(zhàn)
人形機(jī)器人的應(yīng)用前景已經(jīng)非常肯定。關(guān)鍵問(wèn)題是在我們的生活、生產(chǎn)/工作的各個(gè)方面怎么用? 一個(gè)自然語(yǔ)言的模型,另一個(gè)是操作,尤其操作是很難的,一個(gè)動(dòng)作如果描述出來(lái)有很多數(shù)據(jù)。操作發(fā)展的過(guò)程都存在魯棒性。
還有數(shù)據(jù)存儲(chǔ)、技能的存儲(chǔ),例如一段視頻或照相需要上G、幾百兆,因此一個(gè)動(dòng)作的存儲(chǔ)恐怕是非常巨大的,海量數(shù)據(jù)怎么樣存儲(chǔ)?后邊還有模型神經(jīng)網(wǎng)絡(luò)?這方面很重要。
有了數(shù)據(jù)以后,我們?nèi)说男袨橛辛?,那么怎么遷移到機(jī)器人里?還得有異構(gòu)吧?包括4足機(jī)器人遷移到兩足機(jī)器人,人的行為遷移到機(jī)器人里,所以數(shù)據(jù)遷移問(wèn)題非常重要了。從大樣本的、小樣本的、特征的、模型的,不同的角度來(lái)遷移數(shù)據(jù)。
所以我們?cè)诿媾R人形機(jī)器人方面大的戰(zhàn)略思路也非常清楚,但細(xì)節(jié)的問(wèn)題還是很難在機(jī)械本體存在著一些瓶頸,在感知方面也需要?jiǎng)?chuàng)新,最重要的是結(jié)合AI技術(shù)怎么落地?數(shù)據(jù)、操作這些問(wèn)題也給我們帶來(lái)很多挑戰(zhàn)。
這些問(wèn)題如果能夠解決,相信就回到人形機(jī)器人的特種環(huán)境,最終可能在像工廠里,這樣幾大技術(shù)結(jié)合起特種環(huán)境,最終可能在像工廠里,這樣幾大技術(shù)結(jié)合起來(lái),希望從業(yè)者能夠從不同角度去合作、交叉,解決共性技術(shù),最后遷移到產(chǎn)業(yè)的載體,使人形機(jī)器人的性能不斷提高,好使好用,就達(dá)到了我們的夢(mèng)想。
注:
1:《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見(jiàn)》中提到,到2025年人形機(jī)“大腦、小腦、肢體”等一批關(guān)鍵技術(shù)取得突破,確保核心部組件安全有效供給。
2:《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見(jiàn)》中指出,到2027年人形機(jī)器人技術(shù)創(chuàng)新能力顯著提升,形成安全可靠的產(chǎn)業(yè)鏈供應(yīng)鏈體系,構(gòu)建具有國(guó)際競(jìng)爭(zhēng)力的產(chǎn)業(yè)生態(tài),綜合實(shí)力達(dá)到世界先進(jìn)水度融入實(shí)體經(jīng)濟(jì),成為重要的經(jīng)濟(jì)增長(zhǎng)新弓|擎。度融入實(shí)體經(jīng)濟(jì),成為重要的經(jīng)濟(jì)增長(zhǎng)新弓|擎。
3: 2024年3月13日,人形機(jī)器人大賽暨人形機(jī)器人百人會(huì)論壇在經(jīng)開(kāi)區(qū)開(kāi)幕,其中參賽的116個(gè)項(xiàng)目均是圍工信部關(guān)于人形機(jī)器人“揭榜掛帥”任務(wù)榜單的4大板塊19個(gè)方向展開(kāi)。4大板塊為:核心基礎(chǔ),重點(diǎn)產(chǎn)品,公共支撐,典型應(yīng)用。19個(gè)方向分別傳感器,觸覺(jué)傳感器,旋轉(zhuǎn)型電驅(qū)動(dòng)關(guān)節(jié),直線型電驅(qū)動(dòng)關(guān)節(jié),傳感器,觸覺(jué)傳感器,旋轉(zhuǎn)型電驅(qū)動(dòng)關(guān)節(jié),直線型電驅(qū)動(dòng)關(guān)節(jié),機(jī)械臂與靈巧手,高算力主控制器,高能量密度電池,人形機(jī)器人端到端仿真開(kāi)發(fā)平臺(tái),人形機(jī)器人的標(biāo)準(zhǔn)、測(cè)試與評(píng)估,人形機(jī)器人的機(jī)器腦智能控制技術(shù),面向工業(yè)制造的典型應(yīng)用,面向?yàn)?zāi)害救援的典型應(yīng)用,面向危險(xiǎn)作業(yè)的典型應(yīng)用,面向智慧物流的典型應(yīng)用,面向安防巡邏的典型應(yīng)用,面向服務(wù)娛樂(lè)的典型應(yīng)用。
(本文來(lái)源于《EEPW》202407)
評(píng)論