圖靈獎(jiǎng)得主楊立昆：GPT模式五年就不會(huì)有人用了，世界模型才是AGI未來(lái)（1）

發(fā)布人：AI科技大本營(yíng) 時(shí)間：2023-06-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文經(jīng)授權(quán)轉(zhuǎn)自公眾號(hào)騰訊科技（ID:qqtech）

2023年6月9日的北京智源大會(huì)上開幕式上，機(jī)器學(xué)習(xí)三巨頭之一楊立昆（Yann Lecun）進(jìn)行了遠(yuǎn)程致辭，發(fā)表了名為《朝向能學(xué)習(xí)，思考和計(jì)劃的機(jī)器進(jìn)發(fā)》（ Towards Machines that can Learn, Reason, and Plan）的演講。

作為一個(gè)從ChatGPT誕生之日起就對(duì)它嘲諷連連，認(rèn)為它沒(méi)有什么新意。在今天的講座中，身處凌晨4點(diǎn)巴黎的楊立昆依然斗志滿溢，在演講中拿出了他反擊GPT的邏輯：自回歸模型根本不行，因?yàn)樗鼈儧](méi)有規(guī)劃，推理的能力。單純根據(jù)概率生成自回歸的大語(yǔ)言模型從本質(zhì)上根本解決不了幻覺，錯(cuò)誤的問(wèn)題。在輸入文本增大的時(shí)候，錯(cuò)誤的幾率也會(huì)成指數(shù)增加。

目前流行的AutoGPT，LOT之類看起來(lái)可以拆解任務(wù)，分步解釋復(fù)雜問(wèn)題的語(yǔ)言拓展模型讓大語(yǔ)言模型看起來(lái)有了規(guī)劃能力。對(duì)此楊立昆也反唇相譏，認(rèn)為那不過(guò)是它們?cè)诮柚阉骱推渌ぞ邅?lái)讓自己看起來(lái)可以做到規(guī)劃和推理而已，完全不是靠自身對(duì)世界的理解。

性能驚人，但使用范圍狹窄。完全不如人類智能，而且存在著無(wú)法解決的Bug。這就是楊立昆對(duì)當(dāng)前人工智能的判斷。

那想要通向AGI，人工智能的下一步在哪里呢？

楊立昆給出的答案是世界模型。一個(gè)不光是在神經(jīng)水平上模仿人腦的模型，而是在認(rèn)知模塊上也完全貼合人腦分區(qū)的世界模型。它與大語(yǔ)言模型最大的差別在于可以有規(guī)劃和預(yù)測(cè)能力（世界模型），成本核算能力（成本模塊）。

通過(guò)世界模型，它可以真正的理解這個(gè)世界，并預(yù)測(cè)和規(guī)劃未來(lái)。通過(guò)成本核算模塊，結(jié)合一個(gè)簡(jiǎn)單的需求（一定按照最節(jié)約行動(dòng)成本的邏輯去規(guī)劃未來(lái)），它就可以杜絕一切潛在的毒害和不可靠性。

但這個(gè)未來(lái)如何實(shí)現(xiàn)？世界模型如何學(xué)習(xí)？楊立昆只給了一些規(guī)劃性的想法，比如還是采用自監(jiān)督模型去訓(xùn)練，比如一定要建立多層級(jí)的思維模式。他也承認(rèn)之前并沒(méi)有深度學(xué)習(xí)的訓(xùn)練做到了這些，也沒(méi)人知道怎么做。

來(lái)自清華大學(xué)的朱軍教授看著這個(gè)模型估計(jì)是有點(diǎn)發(fā)懵，這個(gè)架構(gòu)太像傳統(tǒng)人工智能的那種符號(hào)學(xué)派的理想模型了。在問(wèn)答環(huán)節(jié)還問(wèn)了一句有沒(méi)有考慮符號(hào)學(xué)派和深度學(xué)習(xí)結(jié)合的可能。

這個(gè)曾經(jīng)挑戰(zhàn)明斯克符號(hào)主義統(tǒng)治十幾年，在無(wú)人認(rèn)可之時(shí)仍堅(jiān)持機(jī)器學(xué)習(xí)之路的楊立昆的回答很簡(jiǎn)單：“符號(hào)邏輯不可微，兩個(gè)系統(tǒng)不兼容”。

以下為騰訊新聞編輯整理的楊立昆報(bào)告核心發(fā)言及與朱軍教授全部QA的實(shí)錄：

機(jī)器學(xué)習(xí)的缺陷

我要說(shuō)的第一件事是：與人類和動(dòng)物相比，機(jī)器學(xué)習(xí)不是特別好。幾十年來(lái)，我們一直在使用監(jiān)督式學(xué)習(xí)，這需要太多的標(biāo)簽。強(qiáng)化學(xué)習(xí)效果不錯(cuò)，但需要大量的訓(xùn)練來(lái)學(xué)習(xí)任何東西。當(dāng)然，近年來(lái)，我們一直在使用大量的自我監(jiān)督學(xué)習(xí)。但結(jié)果是，這些系統(tǒng)在某個(gè)地方不太專精，而且很脆弱，它們會(huì)犯愚蠢的錯(cuò)誤，它們不會(huì)真正地推理，也不會(huì)計(jì)劃。當(dāng)然它們的反應(yīng)確實(shí)非?？?。而當(dāng)我們與動(dòng)物和人類進(jìn)行比較時(shí)，動(dòng)物和人類可以極其迅速地做新的任務(wù)，并理解世界是如何運(yùn)作的，可以推理和計(jì)劃，他們有某種程度的常識(shí)，而機(jī)器仍然沒(méi)有。而這是在人工智能的早期就發(fā)現(xiàn)的問(wèn)題。

這部分是由于目前的機(jī)器學(xué)習(xí)系統(tǒng)在輸入和輸出之間基本上有恒定數(shù)量的計(jì)算步驟。這就是為什么它們真的不能像人類和一些動(dòng)物那樣推理和計(jì)劃。那么，我們?nèi)绾巫寵C(jī)器理解世界是如何運(yùn)作的，并像動(dòng)物和人類那樣預(yù)測(cè)其行為的后果，可以進(jìn)行無(wú)限步數(shù)的推理鏈，或者可以通過(guò)將其分解為子任務(wù)序列來(lái)計(jì)劃復(fù)雜的任務(wù)？

這就是我想問(wèn)的問(wèn)題。但在說(shuō)這個(gè)問(wèn)題之前，我先談一下自我監(jiān)督學(xué)習(xí)，以及在過(guò)去幾年里它確實(shí)已經(jīng)占領(lǐng)了機(jī)器學(xué)習(xí)的世界。這一點(diǎn)已經(jīng)被倡導(dǎo)了相當(dāng)長(zhǎng)的時(shí)間，有七八年了，而且真的發(fā)生了，我們今天看到的機(jī)器學(xué)習(xí)的很多結(jié)果和成功都是由于自監(jiān)督學(xué)習(xí)，特別是在自然語(yǔ)言處理和文本理解和生成方面。

那么，什么是自監(jiān)督學(xué)習(xí)？自監(jiān)督學(xué)習(xí)是捕獲輸入中的依賴關(guān)系的想法。因此，我們不是要把輸入映射到輸出。我們只是被提供了一個(gè)輸入。在最常見的范式中，我們蓋住一部分輸入，并將其提供給機(jī)器學(xué)習(xí)系統(tǒng)，然后我們揭示輸入的其余部分，然后訓(xùn)練系統(tǒng)來(lái)捕捉我們看到的部分和我們尚未看到的部分之間的依賴關(guān)系。有時(shí)是通過(guò)預(yù)測(cè)缺失的部分來(lái)完成，有時(shí)不完全是預(yù)測(cè)。

而這一點(diǎn)在幾分鐘內(nèi)就能解釋清楚。

這就是自我監(jiān)督學(xué)習(xí)的理念。它被稱為自我監(jiān)督，因?yàn)槲覀兓旧鲜褂帽O(jiān)督學(xué)習(xí)方法，但我們將它們應(yīng)用于輸入本身，而不是與人類提供的單獨(dú)輸出相匹配。因此，我在這里展示的例子是一個(gè)視頻預(yù)測(cè)，你向一個(gè)系統(tǒng)展示一小段視頻，然后你訓(xùn)練它來(lái)預(yù)測(cè)視頻中接下來(lái)會(huì)發(fā)生什么。但這不僅僅是預(yù)測(cè)未來(lái)。它可能是預(yù)測(cè)中間的那種數(shù)據(jù)。這種類型的方法在自然語(yǔ)言處理方面取得了驚人的成功，我們最近在大型語(yǔ)言模型中看到的所有成功都是這個(gè)想法的一個(gè)版本。

好的，所以我說(shuō)，這種自我監(jiān)督的學(xué)習(xí)技術(shù)包括輸入一段文本，刪除該文本中的一些單詞，然后訓(xùn)練一個(gè)非常大的神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)缺失的那個(gè)單詞。在這樣做的過(guò)程中，神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了一個(gè)良好的內(nèi)部表征，可用于隨后的一些監(jiān)督任務(wù)，如翻譯或文本分類或類似的東西。因此它已經(jīng)取得了令人難以置信的成功。同樣成功的是生成式人工智能系統(tǒng)，用于生成圖像、視頻或文本。在文本的情況下，這些系統(tǒng)是自回歸的。們使用自我監(jiān)督學(xué)習(xí)的訓(xùn)練方式不是預(yù)測(cè)隨機(jī)缺失的單詞，而是只預(yù)測(cè)最后一個(gè)單詞。因此，你拿出一個(gè)詞的序列，遮住最后一個(gè)詞，然后訓(xùn)練系統(tǒng)預(yù)測(cè)最后一個(gè)詞。

它們不一定是詞，而是子詞單位。一旦系統(tǒng)在大量的數(shù)據(jù)上進(jìn)行了訓(xùn)練，你就可以使用所謂的自回歸預(yù)測(cè)，這包括預(yù)測(cè)下一個(gè)標(biāo)記，然后將該標(biāo)記轉(zhuǎn)移到輸入端，然后再預(yù)測(cè)下一個(gè)標(biāo)記，然后將其轉(zhuǎn)移到輸入，然后重復(fù)這個(gè)過(guò)程。因此，這就是自回歸LLMs，這就是我們?cè)谶^(guò)去幾個(gè)月或幾年中看到的流行模型所做的。其中一些來(lái)自我在Meta的同事，在FAIR、BlenderBot、Galactica和Lama，這是開源的。斯坦福大學(xué)的Alpaca，是在Lama基礎(chǔ)上的改進(jìn)。Lambda，谷歌的Bard，DeepMind的Chinchilla，當(dāng)然還有OpenAI的Chet、JVT和JVT4。如果你在類似一萬(wàn)億文本或兩萬(wàn)億文本上訓(xùn)練它們，這些系統(tǒng)的性能是驚人的。

但最終，他們會(huì)犯非常愚蠢的錯(cuò)誤。他們會(huì)犯事實(shí)錯(cuò)誤、邏輯錯(cuò)誤、不一致的問(wèn)題。他們的推理能力有限，會(huì)使用毒化的內(nèi)容，他們對(duì)潛在的現(xiàn)實(shí)沒(méi)有知識(shí)，因?yàn)樗麄兗兇馐窃谖谋旧嫌?xùn)練的，這意味著人類知識(shí)的很大一部分是他們完全無(wú)法接觸到的。而且他們無(wú)法真正規(guī)劃他們的答案。關(guān)于這一點(diǎn)有很多研究。然而，這些系統(tǒng)對(duì)于寫作輔助工具以及生成代碼，幫助程序員編寫代碼，效果都驚人的好。

所以你可以要求他們用各種語(yǔ)言寫代碼，而且效果很好。它會(huì)給你一個(gè)很不錯(cuò)的起點(diǎn)。你可以要求他們生成文本，他們同樣可以闡釋或說(shuō)明故事，但這使得該系統(tǒng)作為信息檢索系統(tǒng)或作為搜索引擎或如果你只是想要事實(shí)性的信息，并不是那么好。因此，它們對(duì)于寫作幫助、初稿的生成、統(tǒng)計(jì)數(shù)字方面是很有幫助的，特別是如果你不是你所寫語(yǔ)言的母語(yǔ)者。考慮到最近發(fā)生的事兒，他們不適合制作事實(shí)性和一致性的答案，因此他們必須為此進(jìn)行再訓(xùn)練。而他們?cè)谟?xùn)練集中可能會(huì)有相關(guān)的內(nèi)容，這就保證了他們會(huì)有正確的行為。

然后還有一些問(wèn)題，如推理、計(jì)劃、做算術(shù)和諸如此類的事情（他們都不擅長(zhǎng)），為此他們會(huì)使用一些工具，如搜索引擎計(jì)算器數(shù)據(jù)庫(kù)查詢。因此，這是目前一個(gè)非常熱門的研究課題，即如何從本質(zhì)上讓這些系統(tǒng)調(diào)用工具（來(lái)完成他們不擅長(zhǎng)的事情），這就是所謂的擴(kuò)展語(yǔ)言模型。而我和我在FAIR的一些同事共同撰寫了一篇關(guān)于這個(gè)話題的評(píng)論文章，關(guān)于正在提出的各種擴(kuò)展語(yǔ)言模型的技術(shù)：我們很容易被它們的流暢性所迷惑，以為它們很聰明，但它們其實(shí)并不那么聰明。他們?cè)跈z索記憶方面非常出色，大約是這樣。但同樣，他們對(duì)世界如何運(yùn)作沒(méi)有任何了解。自回歸模型還有一種重大缺陷。如果我們想象所有可能的答案的集合：所以輸入詞組的序列，是一棵樹，在這里用一個(gè)圓圈表示。但它實(shí)際上是一棵包含所有可能的輸入序列的樹。在這棵巨大的樹中，有一個(gè)小的子樹，對(duì)應(yīng)著對(duì)所給提示的正確答案。如果我們?cè)O(shè)想有一個(gè)平均概率e，即任何產(chǎn)生的標(biāo)記都會(huì)把我們帶到正確答案的集合之外，而產(chǎn)生的錯(cuò)誤是獨(dú)立的。那么xn的答案正確的概率是1-e的n次方。

這意味著有一個(gè)指數(shù)級(jí)發(fā)散的過(guò)程會(huì)把我們帶出正確答案的序列樹。而這是由于自回歸預(yù)測(cè)過(guò)程造成的。除了讓e盡可能的小之外，沒(méi)有辦法解決這個(gè)問(wèn)題。因此，我們必須重新設(shè)計(jì)系統(tǒng)，使其不會(huì)這樣做。而事實(shí)上，其他人已經(jīng)指出了其中一些系統(tǒng)的局限性。因此，我與我的同事吉格多-布朗寧共同寫了一篇論文，這實(shí)際上是一篇哲學(xué)論文，他是一位哲學(xué)家，這篇論文是關(guān)于只使用語(yǔ)言訓(xùn)練人工智能系統(tǒng)的局限性。

事實(shí)上，這些系統(tǒng)沒(méi)有物理世界的經(jīng)驗(yàn)，這使得它們（的能力）非常有限。有一些論文，或者是由認(rèn)知科學(xué)家撰寫的，比如左邊這個(gè)來(lái)自麻省理工學(xué)院小組的論文，基本上說(shuō)與我們?cè)谌祟惡蛣?dòng)物身上觀察到的相比，系統(tǒng)擁有的智能是非常有限的。還有一些來(lái)自傳統(tǒng)人工智能的研究者的論文，他們沒(méi)有什么機(jī)器學(xué)習(xí)的背景。他們?cè)噲D分析這些機(jī)器學(xué)習(xí)系統(tǒng)的規(guī)劃能力，并基本上得出結(jié)論，這些系統(tǒng)不能真正規(guī)劃和推理，至少不是以人們?cè)趥鹘y(tǒng)人工智能所理解的那種方式搜索和規(guī)劃。那么，人類和動(dòng)物是如何能夠如此迅速地學(xué)習(xí)的呢？我們看到的是，嬰兒在出生后的頭幾個(gè)月里學(xué)習(xí)了大量的關(guān)于世界如何運(yùn)作的背景知識(shí)。他們學(xué)習(xí)非?；镜母拍?，如物體的永久性，世界是三維的這一事實(shí)，有生命和無(wú)生命物體之間的區(qū)別，穩(wěn)定性的概念，自然類別的學(xué)習(xí)。以及學(xué)習(xí)非?；镜臇|西，如重力，當(dāng)一個(gè)物體沒(méi)有得到支撐，它就會(huì)掉下來(lái)。根據(jù)我的同事埃馬紐埃爾-杜普繪制的圖表，嬰兒大約在九個(gè)月大的時(shí)候就學(xué)會(huì)了這個(gè)。

因此，如果你給一個(gè)五個(gè)月大的嬰兒看，這里左下方的場(chǎng)景，一輛小車在平臺(tái)上，你把小車從平臺(tái)上推下來(lái)，它似乎漂浮在空中，五個(gè)月大的嬰兒不會(huì)感到驚訝。但是10個(gè)月大的嬰兒會(huì)非常驚訝，像底部的小女孩一樣看著這一幕，因?yàn)樵诖似陂g，他們已經(jīng)知道物體不應(yīng)該停留在空中。他們應(yīng)該在重力作用下墜落。因此，這些基本概念是在生命的頭幾個(gè)月學(xué)到的，我認(rèn)為我們應(yīng)該用機(jī)器來(lái)復(fù)制這種能力，通過(guò)觀察世界的發(fā)展或體驗(yàn)世界來(lái)學(xué)習(xí)世界如何運(yùn)作。那么，為什么任何青少年都可以在20個(gè)小時(shí)的練習(xí)中學(xué)會(huì)開車，而我們?nèi)匀恢辽僭跊](méi)有大量的工程和地圖以及激光雷達(dá)和各種傳感器的情況下，不會(huì)有完全可靠的5級(jí)自動(dòng)駕駛。所以很明顯，自回歸系統(tǒng)缺少一些很重要的東西。為什么我們有流暢的系統(tǒng)，可以通過(guò)法律考試或醫(yī)學(xué)考試，但我們卻沒(méi)有可以清理餐桌和裝滿洗碗機(jī)的家用機(jī)器人，對(duì)嗎？這是任何10歲的孩子都可以在幾分鐘內(nèi)學(xué)會(huì)的事情，而我們?nèi)匀粵](méi)有機(jī)器可以近似的做這些事。因此，我們顯然缺少一些極其重要的東西。在我們目前擁有的人工智能系統(tǒng)中，我們遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到人類水平的智能。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

圖靈獎(jiǎng)得主楊立昆：GPT模式五年就不會(huì)有人用了，世界模型才是AGI未來(lái)（1）

相關(guān)推薦

技術(shù)專區(qū)