博客專欄

EEPW首頁 > 博客 > 圖靈獎(jiǎng)得主楊立昆:GPT模式五年就不會(huì)有人用了,世界模型才是AGI未來(1)

圖靈獎(jiǎng)得主楊立昆:GPT模式五年就不會(huì)有人用了,世界模型才是AGI未來(1)

發(fā)布人:AI科技大本營 時(shí)間:2023-06-20 來源:工程師 發(fā)布文章

本文經(jīng)授權(quán)轉(zhuǎn)自公眾號(hào)騰訊科技(ID:qqtech)

2023年6月9日的北京智源大會(huì)上開幕式上,機(jī)器學(xué)習(xí)三巨頭之一楊立昆(Yann Lecun)進(jìn)行了遠(yuǎn)程致辭,發(fā)表了名為《朝向能學(xué)習(xí), 思考和計(jì)劃的機(jī)器進(jìn)發(fā)》( Towards Machines that can Learn, Reason, and Plan)的演講。

圖片

作為一個(gè)從ChatGPT誕生之日起就對(duì)它嘲諷連連,認(rèn)為它沒有什么新意。在今天的講座中,身處凌晨4點(diǎn)巴黎的楊立昆依然斗志滿溢,在演講中拿出了他反擊GPT的邏輯:自回歸模型根本不行,因?yàn)樗鼈儧]有規(guī)劃,推理的能力。單純根據(jù)概率生成自回歸的大語言模型從本質(zhì)上根本解決不了幻覺,錯(cuò)誤的問題。在輸入文本增大的時(shí)候,錯(cuò)誤的幾率也會(huì)成指數(shù)增加。

目前流行的AutoGPT,LOT之類看起來可以拆解任務(wù),分步解釋復(fù)雜問題的語言拓展模型讓大語言模型看起來有了規(guī)劃能力。對(duì)此楊立昆也反唇相譏,認(rèn)為那不過是它們?cè)诮柚阉骱推渌ぞ邅碜屪约嚎雌饋砜梢宰龅揭?guī)劃和推理而已,完全不是靠自身對(duì)世界的理解。

性能驚人,但使用范圍狹窄。完全不如人類智能,而且存在著無法解決的Bug。這就是楊立昆對(duì)當(dāng)前人工智能的判斷。

那想要通向AGI,人工智能的下一步在哪里呢?

楊立昆給出的答案是世界模型。一個(gè)不光是在神經(jīng)水平上模仿人腦的模型,而是在認(rèn)知模塊上也完全貼合人腦分區(qū)的世界模型。它與大語言模型最大的差別在于可以有規(guī)劃和預(yù)測(cè)能力(世界模型),成本核算能力(成本模塊)。

通過世界模型,它可以真正的理解這個(gè)世界,并預(yù)測(cè)和規(guī)劃未來。通過成本核算模塊,結(jié)合一個(gè)簡(jiǎn)單的需求(一定按照最節(jié)約行動(dòng)成本的邏輯去規(guī)劃未來),它就可以杜絕一切潛在的毒害和不可靠性。

但這個(gè)未來如何實(shí)現(xiàn)?世界模型如何學(xué)習(xí)?楊立昆只給了一些規(guī)劃性的想法,比如還是采用自監(jiān)督模型去訓(xùn)練,比如一定要建立多層級(jí)的思維模式。他也承認(rèn)之前并沒有深度學(xué)習(xí)的訓(xùn)練做到了這些,也沒人知道怎么做。

來自清華大學(xué)的朱軍教授看著這個(gè)模型估計(jì)是有點(diǎn)發(fā)懵,這個(gè)架構(gòu)太像傳統(tǒng)人工智能的那種符號(hào)學(xué)派的理想模型了。在問答環(huán)節(jié)還問了一句有沒有考慮符號(hào)學(xué)派和深度學(xué)習(xí)結(jié)合的可能。

這個(gè)曾經(jīng)挑戰(zhàn)明斯克符號(hào)主義統(tǒng)治十幾年,在無人認(rèn)可之時(shí)仍堅(jiān)持機(jī)器學(xué)習(xí)之路的楊立昆的回答很簡(jiǎn)單:“符號(hào)邏輯不可微,兩個(gè)系統(tǒng)不兼容”。

以下為騰訊新聞編輯整理的楊立昆報(bào)告核心發(fā)言及與朱軍教授全部QA的實(shí)錄:


圖片

機(jī)器學(xué)習(xí)的缺陷


我要說的第一件事是:與人類和動(dòng)物相比,機(jī)器學(xué)習(xí)不是特別好。幾十年來,我們一直在使用監(jiān)督式學(xué)習(xí),這需要太多的標(biāo)簽。強(qiáng)化學(xué)習(xí)效果不錯(cuò),但需要大量的訓(xùn)練來學(xué)習(xí)任何東西。當(dāng)然,近年來,我們一直在使用大量的自我監(jiān)督學(xué)習(xí)。但結(jié)果是,這些系統(tǒng)在某個(gè)地方不太專精,而且很脆弱,它們會(huì)犯愚蠢的錯(cuò)誤,它們不會(huì)真正地推理,也不會(huì)計(jì)劃。當(dāng)然它們的反應(yīng)確實(shí)非???。而當(dāng)我們與動(dòng)物和人類進(jìn)行比較時(shí),動(dòng)物和人類可以極其迅速地做新的任務(wù),并理解世界是如何運(yùn)作的,可以推理和計(jì)劃,他們有某種程度的常識(shí),而機(jī)器仍然沒有。而這是在人工智能的早期就發(fā)現(xiàn)的問題。

這部分是由于目前的機(jī)器學(xué)習(xí)系統(tǒng)在輸入和輸出之間基本上有恒定數(shù)量的計(jì)算步驟。這就是為什么它們真的不能像人類和一些動(dòng)物那樣推理和計(jì)劃。那么,我們?nèi)绾巫寵C(jī)器理解世界是如何運(yùn)作的,并像動(dòng)物和人類那樣預(yù)測(cè)其行為的后果,可以進(jìn)行無限步數(shù)的推理鏈,或者可以通過將其分解為子任務(wù)序列來計(jì)劃復(fù)雜的任務(wù)?

這就是我想問的問題。但在說這個(gè)問題之前,我先談一下自我監(jiān)督學(xué)習(xí),以及在過去幾年里它確實(shí)已經(jīng)占領(lǐng)了機(jī)器學(xué)習(xí)的世界。這一點(diǎn)已經(jīng)被倡導(dǎo)了相當(dāng)長的時(shí)間,有七八年了,而且真的發(fā)生了,我們今天看到的機(jī)器學(xué)習(xí)的很多結(jié)果和成功都是由于自監(jiān)督學(xué)習(xí),特別是在自然語言處理和文本理解和生成方面。

那么,什么是自監(jiān)督學(xué)習(xí)?自監(jiān)督學(xué)習(xí)是捕獲輸入中的依賴關(guān)系的想法。因此,我們不是要把輸入映射到輸出。我們只是被提供了一個(gè)輸入。在最常見的范式中,我們蓋住一部分輸入,并將其提供給機(jī)器學(xué)習(xí)系統(tǒng),然后我們揭示輸入的其余部分,然后訓(xùn)練系統(tǒng)來捕捉我們看到的部分和我們尚未看到的部分之間的依賴關(guān)系。有時(shí)是通過預(yù)測(cè)缺失的部分來完成,有時(shí)不完全是預(yù)測(cè)。

而這一點(diǎn)在幾分鐘內(nèi)就能解釋清楚。

這就是自我監(jiān)督學(xué)習(xí)的理念。它被稱為自我監(jiān)督,因?yàn)槲覀兓旧鲜褂帽O(jiān)督學(xué)習(xí)方法,但我們將它們應(yīng)用于輸入本身,而不是與人類提供的單獨(dú)輸出相匹配。因此,我在這里展示的例子是一個(gè)視頻預(yù)測(cè),你向一個(gè)系統(tǒng)展示一小段視頻,然后你訓(xùn)練它來預(yù)測(cè)視頻中接下來會(huì)發(fā)生什么。但這不僅僅是預(yù)測(cè)未來。它可能是預(yù)測(cè)中間的那種數(shù)據(jù)。這種類型的方法在自然語言處理方面取得了驚人的成功,我們最近在大型語言模型中看到的所有成功都是這個(gè)想法的一個(gè)版本。

好的,所以我說,這種自我監(jiān)督的學(xué)習(xí)技術(shù)包括輸入一段文本,刪除該文本中的一些單詞,然后訓(xùn)練一個(gè)非常大的神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)缺失的那個(gè)單詞。在這樣做的過程中,神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了一個(gè)良好的內(nèi)部表征,可用于隨后的一些監(jiān)督任務(wù),如翻譯或文本分類或類似的東西。因此它已經(jīng)取得了令人難以置信的成功。同樣成功的是生成式人工智能系統(tǒng),用于生成圖像、視頻或文本。在文本的情況下,這些系統(tǒng)是自回歸的。們使用自我監(jiān)督學(xué)習(xí)的訓(xùn)練方式不是預(yù)測(cè)隨機(jī)缺失的單詞,而是只預(yù)測(cè)最后一個(gè)單詞。因此,你拿出一個(gè)詞的序列,遮住最后一個(gè)詞,然后訓(xùn)練系統(tǒng)預(yù)測(cè)最后一個(gè)詞。

它們不一定是詞,而是子詞單位。一旦系統(tǒng)在大量的數(shù)據(jù)上進(jìn)行了訓(xùn)練,你就可以使用所謂的自回歸預(yù)測(cè),這包括預(yù)測(cè)下一個(gè)標(biāo)記,然后將該標(biāo)記轉(zhuǎn)移到輸入端,然后再預(yù)測(cè)下一個(gè)標(biāo)記,然后將其轉(zhuǎn)移到輸入,然后重復(fù)這個(gè)過程。因此,這就是自回歸LLMs,這就是我們?cè)谶^去幾個(gè)月或幾年中看到的流行模型所做的。其中一些來自我在Meta的同事,在FAIR、BlenderBot、Galactica和Lama,這是開源的。斯坦福大學(xué)的Alpaca,是在Lama基礎(chǔ)上的改進(jìn)。Lambda,谷歌的Bard,DeepMind的Chinchilla,當(dāng)然還有OpenAI的Chet、JVT和JVT4。如果你在類似一萬億文本或兩萬億文本上訓(xùn)練它們,這些系統(tǒng)的性能是驚人的。

圖片但最終,他們會(huì)犯非常愚蠢的錯(cuò)誤。他們會(huì)犯事實(shí)錯(cuò)誤、邏輯錯(cuò)誤、不一致的問題。他們的推理能力有限,會(huì)使用毒化的內(nèi)容,他們對(duì)潛在的現(xiàn)實(shí)沒有知識(shí),因?yàn)樗麄兗兇馐窃谖谋旧嫌?xùn)練的,這意味著人類知識(shí)的很大一部分是他們完全無法接觸到的。而且他們無法真正規(guī)劃他們的答案。關(guān)于這一點(diǎn)有很多研究。然而,這些系統(tǒng)對(duì)于寫作輔助工具以及生成代碼,幫助程序員編寫代碼,效果都驚人的好。

所以你可以要求他們用各種語言寫代碼,而且效果很好。它會(huì)給你一個(gè)很不錯(cuò)的起點(diǎn)。你可以要求他們生成文本,他們同樣可以闡釋或說明故事,但這使得該系統(tǒng)作為信息檢索系統(tǒng)或作為搜索引擎或如果你只是想要事實(shí)性的信息,并不是那么好。因此,它們對(duì)于寫作幫助、初稿的生成、統(tǒng)計(jì)數(shù)字方面是很有幫助的,特別是如果你不是你所寫語言的母語者。考慮到最近發(fā)生的事兒,他們不適合制作事實(shí)性和一致性的答案,因此他們必須為此進(jìn)行再訓(xùn)練。而他們?cè)谟?xùn)練集中可能會(huì)有相關(guān)的內(nèi)容,這就保證了他們會(huì)有正確的行為。

然后還有一些問題,如推理、計(jì)劃、做算術(shù)和諸如此類的事情(他們都不擅長),為此他們會(huì)使用一些工具,如搜索引擎計(jì)算器數(shù)據(jù)庫查詢。因此,這是目前一個(gè)非常熱門的研究課題,即如何從本質(zhì)上讓這些系統(tǒng)調(diào)用工具(來完成他們不擅長的事情),這就是所謂的擴(kuò)展語言模型。而我和我在FAIR的一些同事共同撰寫了一篇關(guān)于這個(gè)話題的評(píng)論文章,關(guān)于正在提出的各種擴(kuò)展語言模型的技術(shù):我們很容易被它們的流暢性所迷惑,以為它們很聰明,但它們其實(shí)并不那么聰明。他們?cè)跈z索記憶方面非常出色,大約是這樣。但同樣,他們對(duì)世界如何運(yùn)作沒有任何了解。自回歸模型還有一種重大缺陷。如果我們想象所有可能的答案的集合:所以輸入詞組的序列,是一棵樹,在這里用一個(gè)圓圈表示。但它實(shí)際上是一棵包含所有可能的輸入序列的樹。在這棵巨大的樹中,有一個(gè)小的子樹,對(duì)應(yīng)著對(duì)所給提示的正確答案。如果我們?cè)O(shè)想有一個(gè)平均概率e,即任何產(chǎn)生的標(biāo)記都會(huì)把我們帶到正確答案的集合之外,而產(chǎn)生的錯(cuò)誤是獨(dú)立的。那么xn的答案正確的概率是1-e的n次方。

圖片這意味著有一個(gè)指數(shù)級(jí)發(fā)散的過程會(huì)把我們帶出正確答案的序列樹。而這是由于自回歸預(yù)測(cè)過程造成的。除了讓e盡可能的小之外,沒有辦法解決這個(gè)問題。因此,我們必須重新設(shè)計(jì)系統(tǒng),使其不會(huì)這樣做。而事實(shí)上,其他人已經(jīng)指出了其中一些系統(tǒng)的局限性。因此,我與我的同事吉格多-布朗寧共同寫了一篇論文,這實(shí)際上是一篇哲學(xué)論文,他是一位哲學(xué)家,這篇論文是關(guān)于只使用語言訓(xùn)練人工智能系統(tǒng)的局限性。

事實(shí)上,這些系統(tǒng)沒有物理世界的經(jīng)驗(yàn),這使得它們(的能力)非常有限。有一些論文,或者是由認(rèn)知科學(xué)家撰寫的,比如左邊這個(gè)來自麻省理工學(xué)院小組的論文,基本上說與我們?cè)谌祟惡蛣?dòng)物身上觀察到的相比,系統(tǒng)擁有的智能是非常有限的。還有一些來自傳統(tǒng)人工智能的研究者的論文,他們沒有什么機(jī)器學(xué)習(xí)的背景。他們?cè)噲D分析這些機(jī)器學(xué)習(xí)系統(tǒng)的規(guī)劃能力,并基本上得出結(jié)論,這些系統(tǒng)不能真正規(guī)劃和推理,至少不是以人們?cè)趥鹘y(tǒng)人工智能所理解的那種方式搜索和規(guī)劃。那么,人類和動(dòng)物是如何能夠如此迅速地學(xué)習(xí)的呢?我們看到的是,嬰兒在出生后的頭幾個(gè)月里學(xué)習(xí)了大量的關(guān)于世界如何運(yùn)作的背景知識(shí)。他們學(xué)習(xí)非?;镜母拍?,如物體的永久性,世界是三維的這一事實(shí),有生命和無生命物體之間的區(qū)別,穩(wěn)定性的概念,自然類別的學(xué)習(xí)。以及學(xué)習(xí)非?;镜臇|西,如重力,當(dāng)一個(gè)物體沒有得到支撐,它就會(huì)掉下來。根據(jù)我的同事埃馬紐埃爾-杜普繪制的圖表,嬰兒大約在九個(gè)月大的時(shí)候就學(xué)會(huì)了這個(gè)。

因此,如果你給一個(gè)五個(gè)月大的嬰兒看,這里左下方的場(chǎng)景,一輛小車在平臺(tái)上,你把小車從平臺(tái)上推下來,它似乎漂浮在空中,五個(gè)月大的嬰兒不會(huì)感到驚訝。但是10個(gè)月大的嬰兒會(huì)非常驚訝,像底部的小女孩一樣看著這一幕,因?yàn)樵诖似陂g,他們已經(jīng)知道物體不應(yīng)該停留在空中。他們應(yīng)該在重力作用下墜落。因此,這些基本概念是在生命的頭幾個(gè)月學(xué)到的,我認(rèn)為我們應(yīng)該用機(jī)器來復(fù)制這種能力,通過觀察世界的發(fā)展或體驗(yàn)世界來學(xué)習(xí)世界如何運(yùn)作。那么,為什么任何青少年都可以在20個(gè)小時(shí)的練習(xí)中學(xué)會(huì)開車,而我們?nèi)匀恢辽僭跊]有大量的工程和地圖以及激光雷達(dá)和各種傳感器的情況下,不會(huì)有完全可靠的5級(jí)自動(dòng)駕駛。所以很明顯,自回歸系統(tǒng)缺少一些很重要的東西。為什么我們有流暢的系統(tǒng),可以通過法律考試或醫(yī)學(xué)考試,但我們卻沒有可以清理餐桌和裝滿洗碗機(jī)的家用機(jī)器人,對(duì)嗎?這是任何10歲的孩子都可以在幾分鐘內(nèi)學(xué)會(huì)的事情,而我們?nèi)匀粵]有機(jī)器可以近似的做這些事。因此,我們顯然缺少一些極其重要的東西。在我們目前擁有的人工智能系統(tǒng)中,我們遠(yuǎn)遠(yuǎn)沒有達(dá)到人類水平的智能。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉