頂級專家討論：生成式 AI 與機器人技術的未來

發(fā)布人：傳感器技術時間：2023-12-25 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

大數(shù)據(jù)文摘出品

近日，來自卡內(nèi)基梅隆大學、加州大學伯克利分校、Meta、英偉達、波士頓動力以及豐田研究所的 6 家頂尖機構的 7 位頂級位專家進行了一場“關于生成式人工智能（AI）與機器人”的頂級討論。

討論的話題覆蓋了生成式 AI、人形機器人、家用機器人等等。討論的角度在于全面、深入解析現(xiàn)有的機器人技術以及未來技術。討論者發(fā)言的觀點，貼近實際發(fā)人深省。例如：

“2023 年是生成式 AI 徹底改變機器人學的一年”；
“生成式AI 對機器人技術的各個領域，從模擬到設計，都產(chǎn)生革命性的影響”；
“簡易的抓手比五指的機器人手更可靠、更經(jīng)濟”；
“農(nóng)業(yè)領域超越了傳統(tǒng)的制造業(yè)和倉儲業(yè)，為機器人技術提供了一個廣闊的應用平臺”......

參與討論位專家分別是：卡耐基梅隆大學的Matthew Johnson-Roberson、Meta的Dhruv Batra、波士頓動力公司的Aaron Saunders、加州大學伯克利分校的Ken Goldberg、英偉達的Deepu Talla、豐田汽車先進AI研究所的Russ Tedrake、Max Bajracharya。

生成式 AI 與機器人技術中的未來

卡耐基梅隆大學的Matthew Johnson-Roberson

Matthew（CMU）：通過生成新穎數(shù)據(jù)和解決方案，生成式 AI 將極大地提升機器人的能力。它不僅能使機器人更廣泛地泛化任務處理能力，還能增強它們對新環(huán)境的適應性，并提升其自主學習與進化的能力。

Dhruv （Meta）：生成式 AI 在具身 AI 和機器人研究中扮演兩個獨特角色：

1.數(shù)據(jù)/經(jīng)驗生成器：生成 2D 圖像、視頻、3D 場景或 4D（3D + 時間）等訓練機器人所需的語料。鑒于現(xiàn)實世界中的機器人經(jīng)驗（數(shù)據(jù)）極為珍貴，生成式 AI可以被視作“學習型模擬器”。我堅信，沒有模擬的訓練和測試，機器人研究是無法大規(guī)模進行的。

2.自監(jiān)督學習架構：生成機器人未來可能觀察到的感官數(shù)據(jù)，與實際觀測進行比較，作為一種無需標注的學習信號。更多細節(jié)可參見 Yann 發(fā)表的關于 AMI 的論文。

AMI論文：A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022-06-27地址：https://openreview.net/pdf?id=BZ5a1r-kVsf

Aaron（波士頓動力）：當前變革的速度讓我們無法對未來做出精準預測?；A模型標志著機器學習模型創(chuàng)造方式的重大變革，不僅能夠創(chuàng)建與機器人的對話界面，提升現(xiàn)有計算機視覺功能的質量，還可能開發(fā)出如視覺問題解答等新的能力。我們認為，這些更加可擴展的架構和訓練策略最終可能超越語言和視覺，擴展到機器人的規(guī)劃和控制領域。

豐田汽車先進AI研究所的Russ Tedrake

Russ（豐田汽車先進AI研究所）：生成式 AI 擁有給機器人技術帶來革命性新功能的潛力。現(xiàn)在，我們不僅能夠用自然語言與機器人交流，而且通過連接至互聯(lián)網(wǎng)規(guī)模的語言和圖像數(shù)據(jù)，機器人對世界的理解和推理能力也大幅增強。但目前還處于初級階段，還需進一步研究：如何將圖像和語言知識與機器人所需的物理智能有效結合，從而使機器人變得真正實用。

Ken（加州大學伯克利分校）：2023 年是生成式 AI 徹底改變機器人學的一年。像 ChatGPT 這樣的大語言模型讓機器人與人類之間的自然語言交流成為可能。機器人學家還發(fā)現(xiàn)，大型的視覺-語言-動作模型可以被訓練用來增強機器人的感知能力，并控制其手臂和腿部的動作。這種訓練需要大量的數(shù)據(jù)，因此全球實驗室現(xiàn)在正合作分享數(shù)據(jù)。雖然關于泛化能力的問題尚未完全解決，但這些模型帶來的影響是深遠的。

另一個激動人心的話題是“多模態(tài)模型”，它有兩種含義：

1.結合不同輸入模式的多模態(tài)：例如將視覺和語言結合起來?，F(xiàn)在這已經(jīng)擴展到包括觸覺、深度感知以及機器人動作。2.對相同輸入狀態(tài)允許不同響應的多模態(tài)：這在機器人技術中相當常見，例如用多種方式抓取同一個物體。標準的深度模型會將這些抓取動作“平均化”，這可能導致非常糟糕的抓取效果。

Deepu（英偉達）：我們已經(jīng)目睹了生成式 AI 如何提高生產(chǎn)力。顯然，生成式AI 對機器人技術的各個領域，從模擬到設計，都將產(chǎn)生革命性的影響。

模擬：模型將通過構建場景、創(chuàng)建環(huán)境和生成資產(chǎn)來加速模擬開發(fā)，縮小 3D 技術藝術家和開發(fā)者之間的差距。生成式AI 生成的資產(chǎn)將被廣泛應用于數(shù)據(jù)合成、機器人技能訓練和軟件測試。多模態(tài)人工智能：基于 Transformer 的模型將提升機器人理解其周圍世界的能力，使它們能在更多的環(huán)境中工作，并完成更復雜的任務。機器人（重新）編程：機器人將具備更強大的能力來用簡單的語言定義任務和功能，使它們變得更加通用和多用途。設計：創(chuàng)新的機械設計將提升效率，例如在末端執(zhí)行器的設計上。

對人形機器人的看法

加州大學伯克利分校的Ken Goldberg

Ken（加州大學伯克利分校）：我對類人機器人和腿式機器人一直持保留態(tài)度，認為它們往往過于夸張并且效率不高。但在見識了波士頓動力、Agility 和 Unitree 最新的人形機器人和四足機器人之后，我改變了看法。特斯拉在大規(guī)模開發(fā)低成本電機和齒輪系統(tǒng)方面擁有卓越的工程技能。相比于輪式機器人，腿式機器人在家庭和工廠等環(huán)境中更有優(yōu)勢，它們能夠跨越臺階、障礙物和地毯。雖然雙臂機器人對許多任務來說至關重要，但簡易的抓手比五指的機器人手更可靠、更經(jīng)濟。

Deepu（英偉達）：設計自動化機器人本就充滿挑戰(zhàn)，要創(chuàng)建類人機器人更是難上加難。不同于大多數(shù)只需理解地面障礙物的自動移動機器人（AMR），類人機器人作為移動操作平臺，需要利用多模態(tài) AI 來深入理解它們周邊的環(huán)境。這涉及到大量的傳感器處理、高級控制技術以及技能執(zhí)行。

生成式 AI 在構建基礎模型方面取得的突破，正讓類人機器人所需的技能更加廣泛適用。同時，也看到模擬技術的進步，這些技術能夠訓練基于 AI 的控制系統(tǒng)和感知系統(tǒng)。

Matthew（CMU）：人形的設計形態(tài)是一個極其復雜的工程與設計挑戰(zhàn)。它對模仿人類動作和互動設定了高度復雜的執(zhí)行器和控制系統(tǒng)標準。同時，它也在平衡和協(xié)調方面提出了獨特的挑戰(zhàn)。盡管存在這些困難，但人形機器人在多種社會和實用環(huán)境中具有極高的潛在通用性和直觀可用性。

Max（豐田汽車先進AI研究所）：機器人被廣泛應用于人類環(huán)境中，這些環(huán)境通常是以人為本設計的。因此，這些機器人需要具備適應這些以人為中心的環(huán)境并在其中有效工作的能力。然而，適應人類環(huán)境并不強求機器人必須擁有類人形態(tài)，如兩臂、五指、兩腿和頭部等。更為關鍵的是，機器人應設計得既緊湊又安全，并且能夠執(zhí)行與人類相似或相輔相成的任務，以實現(xiàn)與人類的協(xié)作和互補。

Dhruv （Meta）：我持有樂觀的看法。從根本上來說，人類的環(huán)境是圍繞人的形態(tài)和行為模式設計的。因此，如果期望通用機器人在這些環(huán)境中有效地工作，它們的形態(tài)至少在一定程度上需要模仿人類。這不僅僅是模仿人的外觀，機器人可能會配備有超出人類能力的傳感器或更多的附肢，以適應和優(yōu)化其在人類環(huán)境中的性能和功能。

Aaron（波士頓動力）：類人形態(tài)并不是所有類型任務的理想選擇。以Stretch為例，最初受到Atlas機器人移動箱子視頻的啟發(fā)，對開發(fā)一種專門的箱子搬運機器人產(chǎn)生了興趣。但是，僅僅因為人類可以搬運箱子，并不意味著人形就是執(zhí)行此類任務的最佳形態(tài)。因此，我們設計了Stretch，這款機器人專為搬運箱子而生，它在完成這一任務時的效率和效果遠超人類。盡管如此，我們依然對追求多功能通用機器人技術抱有長遠的興趣，畢竟人形設計與我們的生活環(huán)境極為契合。

下一個機器人技術落地場景

Max（豐田汽車先進AI研究所）：農(nóng)業(yè)領域蘊含巨大的潛力和需求，但同時，許多農(nóng)業(yè)任務因其戶外執(zhí)行和非結構化的環(huán)境特征，帶來了極大的挑戰(zhàn)。

Matthew（CMU）：農(nóng)業(yè)領域超越了傳統(tǒng)的制造業(yè)和倉儲業(yè)，為機器人技術提供了一個廣闊的應用平臺，這里面涉及到解決勞動力短缺、提升作業(yè)效率和推動可持續(xù)發(fā)展等多重挑戰(zhàn)。同時，在運輸和末端配送領域，機器人技術也被寄予厚望，它們有望極大提高效率、減少成本并提升整體服務質量。隨著技術的不斷進步和監(jiān)管環(huán)境的逐步優(yōu)化，預計這些領域將會加速采納機器人技術，以應對各種挑戰(zhàn)和需求。

Aaron（波士頓動力）：在考慮如何將客戶需求與前沿技術相結合時，制造業(yè)和物流業(yè)依然是關注的重點。隨著視野的不斷擴大，我預見我們將逐步進入到更加復雜和不確定的環(huán)境中。繼制造業(yè)和物流業(yè)這些對自動化極為友好的領域廣泛采用機器人技術之后，建筑業(yè)和醫(yī)療保健等行業(yè)可能會成為下一波機器人技術應用的熱點。這些行業(yè)因其對大量勞動力及對高技能勞動力的強烈需求，在勞動力供應短缺的情況下，顯得尤為具有吸引力。將機器人技術應用于這些位于高度結構化工業(yè)環(huán)境和完全非結構化消費市場之間的領域，可能成為實現(xiàn)更廣泛應用的自然而然的下一步。

隨著勞動力短缺和人口結構變化，對應的機器人技術機遇也在持續(xù)增長。這影響了從農(nóng)業(yè)到最后一公里配送，再到零售等各行各業(yè)的機器人企業(yè)。

構建適用于各類自主機器人的3D虛擬世界是一項關鍵挑戰(zhàn)，這對于模擬和測試系統(tǒng)是至關重要的。同時，生成式人工智能將為開發(fā)者快速構建逼真模擬環(huán)境提供支持。將AI技術集成進機器人技術將有助于提升在各種活躍的非傳統(tǒng)“機器人友好”環(huán)境中的自動化水平。

Ken（加州大學伯克利分校）：未來，制造業(yè)和倉庫中的機器人數(shù)量將遠超今日。自動駕駛出租車在舊金山等復雜的駕駛環(huán)境中取得的最新進展，的確令人矚目。然而，對于其成本效益，我仍持謹慎觀望態(tài)度。在機器人輔助手術領域，研究人員正在探索“增強靈活性”技術，通過這項技術，機器人能在執(zhí)行縫合等低級輔助任務中增強外科手術技能。

真正的通用機器人還有多遠？

Dhruv （Meta）：預計通用人工智能的實現(xiàn)還需要三十年時間。目前，我們所處的階段超出了任何有意義預測的范圍。實際上，對于那些宣稱“通用人工智能即將到來”的聲音，我們應該保持一定的懷疑態(tài)度，并對此類過于樂觀的觀點持警惕心態(tài)。

Nvidia的Deepu Talla

Deepu（英偉達）：我們持續(xù)見證機器人在智能化道路上的進步，并能夠在特定環(huán)境中執(zhí)行更多種類的任務。我們的目標是不斷解決特定任務的問題，同時提高機器人在各個領域的應用性。然而，要達到真正全面自主的通用機器人，仍有漫長的路要走。

Matthew（CMU）：能夠在多種環(huán)境下執(zhí)行廣泛任務的通用機器人，目前看來仍然是一個遙遠的夢想。這不僅需要在人工智能、機器學習、材料科學以及控制系統(tǒng)等眾多領域取得突破，而且是一個逐漸演進的過程。機器人技術將從專注于特定任務逐漸演化，最終擁有更廣泛的功能和通用性。

Russ（豐田汽車先進AI研究所）：對于我們的機器人從現(xiàn)有的專用模式向更加通用型的轉變，我持樂觀態(tài)度。盡管難以預測具體需要多長時間，但靈活的自動化技術、多樣化的高混合制造、農(nóng)業(yè)機器人、前端服務機器人以及其他我們尚未預見的新興領域，都將從不斷增長的自主性和擴展能力中受益。

Ken（加州大學伯克利分校）：我不認為我們在近期內(nèi)就能看到真正的通用人工智能（AGI）或通用機器人的出現(xiàn)。據(jù)我所知，目前沒有哪位機器人學家真正擔心機器人會在短期內(nèi)取代人類工作或主宰人類。

Aaron（波士頓動力）：在通用機器人的實現(xiàn)之路上，我們正面臨諸多挑戰(zhàn)。雖然專用機器人已在工業(yè)自動化中成為常規(guī)配置，但真正多功能機器人的發(fā)展才剛剛起步。要成為真正的通用機器人，它們必須能夠自主地在非結構化環(huán)境中導航，并能解決前所未有的問題。此外，這些進步需要建立在獲得用戶信任和滿足其需求的基礎上，同時還必須以有競爭力的價格提供相應的價值。然而，令人鼓舞的是，我們正見證這個領域的重要性日益增長，以及公眾興趣的顯著提升。我們的孩子們從小便開始接觸機器人技術，而新一代的畢業(yè)生們正致力于推動技術革新。如今，我們面對的為工業(yè)客戶創(chuàng)造價值的挑戰(zhàn)，正鋪就著通向明天消費者市場機遇以及我們共同期待的通用機器人未來的道路。

家庭機器人（除了吸塵器之外）會在未來十年內(nèi)蓬勃發(fā)展嗎？

Matthew（CMU）：真正通用的機器人，能夠在多樣化環(huán)境中執(zhí)行廣泛任務，可能尚處于遙遠的未來。要達成這一目標，我們需要在人工智能、機器學習、材料科學以及控制系統(tǒng)等多個領域取得關鍵突破。機器人的演進，從執(zhí)行專門的特定任務到擁有多功能乃至達到通用性，是一個漸進的演化過程。

Deepu（英偉達）：未來，家庭將迎來更多實用的機器人，如個人助理、自動割草機和輔助老年人的機器人等。然而，家用機器人的普及主要受限于成本與價值的平衡——消費者愿意為這些機器人支付多少，以及它們能否提供等值的服務。例如，機器人吸塵器之所以流行，是因為它們具有較好的性價比。隨著技術進步，機器人變得更加智能，擁有用戶友好的界面是其被廣泛采用的關鍵因素。相比于需要復雜編程的機器人，能夠自主繪制環(huán)境地圖和通過語音指令操作的機器人將更易被家庭用戶接受。

而在家用機器人的下一波普及浪潮中，我們可能首先看到的是那些專注于戶外活動的機器人，如自動草坪護理機器人。同時，個人/健康護理助手等其他類型的家用機器人雖展現(xiàn)出潛力，但要真正進入千家萬戶，它們還需要克服家庭環(huán)境中動態(tài)且非結構化的復雜挑戰(zhàn)。

Max（豐田汽車先進AI研究所）：家庭環(huán)境對于機器人來說構成了巨大的挑戰(zhàn)，因為每個家庭都擁有其獨特性，缺乏統(tǒng)一的結構化環(huán)境，同時消費者對價格極為敏感。盡管未來的發(fā)展難以精確預測，機器人技術正以驚人的速度不斷進步。

Aaron（波士頓動力）：在接下來的十年里，我們可能會看到更多專注于特定任務的家用機器人進入家庭，如Roomba這樣的清潔機器人，我們將發(fā)現(xiàn)更多具有明確價值的應用場景。然而，真正能夠滿足廣泛消費市場需求的多功能家用機器人普及還需時日。想象一下，在什么情況下你會愿意為一個機器人支付與汽車相當?shù)膬r格？這可能會在機器人能夠提供與當前交通工具相同的可靠性和價值時發(fā)生。

Ken（加州大學伯克利分校）：我預計，未來十年中，我們將看到更多負擔得起的家用機器人，它們能夠協(xié)助我們進行日常整理，比如撿起地上的衣服、玩具和垃圾，并將其放置到指定位置。正如現(xiàn)代的吸塵器，盡管這些機器人可能偶爾會出錯，但它們將為家庭提供的便利，尤其是對于父母和老年人，將大大超過它們的局限性。

Dhruv （Meta）：盡管機器人技術發(fā)展迅速，但核心技術尚未達到使其在家庭環(huán)境中廣泛應用所需的成熟度。

哪些機器人領域尚未得到足夠的關注？

Aaron Saunders，波士頓動力公司：當前，人工智能及其為機器人技術等眾多行業(yè)帶來的變革潛力正在引發(fā)廣泛關注。盡管人工智能在這些領域扮演著關鍵角色，希望開啟長期靜止不變的領域，但優(yōu)秀的機器人產(chǎn)品并非僅僅由簡單的二進制代碼組成。為了讓人工智能在物理世界中實現(xiàn)其功能，與環(huán)境互動，我們需要不斷跟進計算技術、感知傳感器、電源管理等所有構成機器人系統(tǒng)的關鍵技術的最新發(fā)展。汽車行業(yè)近期向電氣化和高級駕駛輔助系統(tǒng)的轉變正在迅速改造龐大的供應鏈，帶來前所未有的機遇。顯卡、計算機及越來越復雜的人工智能輔助消費電子產(chǎn)品的進步為整個行業(yè)注入了新的活力。這些深遠且鮮為人知的技術變革是機器人技術中最令人興奮的發(fā)展趨勢之一，它使得許多創(chuàng)新型小公司能夠借助業(yè)界巨頭的支持，推出新穎且引人注目的產(chǎn)品。

Ken（加州大學伯克利分校）：提及機器人運動規(guī)劃，它是機器人學領域中最古老而深入的研究課題之一，主要關注如何控制電機關節(jié)以實現(xiàn)機器人工具的精確移動和避免障礙。雖然有些人可能認為這個問題已經(jīng)被解決，但現(xiàn)實情況遠非如此。機器人技術中的“奇點”問題是所有機器人手臂普遍面臨的一個核心挑戰(zhàn)，它與人們所想象的機器人技術的極限大不相同。機器人奇點是指在特定的空間位置，機器人意外停止并需要人工重置的情況。這是由于將預期的直線移動轉化為六個機器人關節(jié)電機各自動作的復雜數(shù)學運算導致的。在某些特定的空間位置，這種轉換可能變得不穩(wěn)定，需要機器人進行重置。這個問題的復雜性和持續(xù)性表明了機器人運動規(guī)劃領域仍然有巨大的研究和改進空間。

對于重復性的機器人動作，可以通過繁瑣的手動微調來避免奇點，確保機器人的連貫性運動。一旦設定好，這些動作可以持續(xù)準確地重復執(zhí)行。然而，在機器人運動需求多樣化的新興領域，比如碼垛、抓取作業(yè)、訂單處理和包裹排序等，奇點問題變得更加常見。這些奇點在不可預測的時刻打斷機器人的操作，頻繁發(fā)生，成為了眾所周知的一個問題。為了解決這一挑戰(zhàn)，我共同創(chuàng)立了Jacobi Robotics。我們采用高效算法，保證機器人避開奇點，顯著提升了機器人的可靠性和生產(chǎn)效率。這一突破性進展對所有采用機器人技術的行業(yè)來說，都意味著質的飛躍，帶來了前所未有的穩(wěn)定性和效率。

Russ（豐田汽車先進AI研究所）：當前，生成式人工智能以及硬件領域的顯著進步和巨額投資頻頻成為話題。但在這些成就的背后，實際上是模擬技術領域一場靜默的革命。就在幾年前，大多數(shù)機器人學者還認為在模擬環(huán)境中訓練或測試計算機視覺系統(tǒng)是不切實際的；現(xiàn)在，這已經(jīng)成為了標準操作程序。盡管仍有一些研究者對完全在模擬中開發(fā)控制系統(tǒng)——例如靈巧手——并使其在現(xiàn)實世界中有效運作持保留意見，但越來越多的趨勢和實踐正顯示出這一方向的發(fā)展?jié)摿Αvidia、Google DeepMind 和 TRI 等公司的大量投資正在推動這一變革，我們有理由相信模擬技術的未來將更加廣闊，機器人技術的應用也將因此變得更加高效和精確。

Dhruv （Meta）：現(xiàn)在我們已經(jīng)能在真實的家庭環(huán)境中測試導航機器人，并且它們確實能夠有效地運作！請注意，這些家庭導航機器人沒有自動駕駛汽車在數(shù)百萬英里道路上構建精確地圖的奢侈條件。我們簡單地將機器人置于一個新環(huán)境，并指導它尋找特定物品。

Deepu（英偉達）：這突顯了對平臺方法的需求。許多機器人初創(chuàng)公司因為只專注于開發(fā)適用于特定任務或環(huán)境的解決方案而難以擴展。為了商業(yè)化實現(xiàn)規(guī)?；⒕哂锌尚行裕_發(fā)出能廣泛適用、快速學習新技能和適應新環(huán)境的通用機器人是至關重要的。機器人學家需要一個集成了工具和庫的平臺，以便訓練和測試機器人AI，這個平臺應當提供模擬能力，以訓練模型、生成合成數(shù)據(jù)，并測試整個機器人軟件堆棧。同時，它還應當能夠在機器人上實時運行最新和新興的生成式人工智能模型。未來成功的初創(chuàng)公司和機器人企業(yè)將專注于開發(fā)新的機器人技能和自動化任務，并充分利用全面的端到端開發(fā)平臺。

Matthew（CMU）：盡管機器人技術在某些特定細分市場和特定行業(yè)中取得了顯著進步并且成功應用，這些成就往往被那些更加具有未來感或廣泛適用性的機器人概念所遮蔽。在農(nóng)業(yè)、醫(yī)療保健或特定工業(yè)應用等領域中，穩(wěn)步取得的成功案例同樣至關重要。它們代表了機器人技術在實際應用中的真正和具體進展，理應受到更廣泛的關注和認可。這些進步不僅彰顯了技術的實用價值，也為機器人技術的未來發(fā)展和廣泛應用奠定了堅實的基礎。

來源：大數(shù)據(jù)文摘

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

頂級專家討論：生成式 AI 與機器人技術的未來

相關推薦

技術專區(qū)