人工智能有大事發(fā)生,LeCun也轉(zhuǎn)型了
「深度學(xué)習(xí)撞墻」激辯到第 N 回合,Gary Marcus 回懟 LeCun:你們對(duì)我說(shuō)的話(huà)有誤解。
符號(hào)處理是邏輯學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)中常見(jiàn)的過(guò)程,它將思維視為代數(shù)操作。近 70 年來(lái),人工智能領(lǐng)域最根本的爭(zhēng)論就是人工智能系統(tǒng)應(yīng)該建立在符號(hào)處理的基礎(chǔ)上還是類(lèi)似于人腦的神經(jīng)系統(tǒng)之上。
實(shí)際上還有作為中間立場(chǎng)的第三種可能——混合模型。通過(guò)將神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)與符號(hào)處理的強(qiáng)大抽象能力相結(jié)合,混合模型試圖獲得兩全其美的能力。這也是我個(gè)人職業(yè)生涯大部分時(shí)間的工作方向。
在最近發(fā)表于 NOEMA 雜志的一篇文章中,圖靈獎(jiǎng)得主、Meta 首席人工智能科學(xué)家 Yann LeCun 和 LeCun 實(shí)驗(yàn)室的「常駐哲學(xué)家」Jacob Browning 也卷入了這場(chǎng)爭(zhēng)論。這篇文章似乎提供了新的替代方案,但仔細(xì)檢查后就會(huì)發(fā)現(xiàn)文章觀點(diǎn)既不新鮮也不令人信服。
Yann LeCun 和 Jacob Browning 在發(fā)表于 NOEMA 雜志的文章中首次正式回應(yīng)「深度學(xué)習(xí)撞墻了」這個(gè)觀點(diǎn),表示「從一開(kāi)始,批評(píng)者就過(guò)早地認(rèn)為神經(jīng)網(wǎng)絡(luò)已經(jīng)遇到了不可翻越的墻,但每次都被證明只是一個(gè)暫時(shí)的障礙。」
在文章的開(kāi)頭,他們似乎反對(duì)混合模型,混合模型通常被定義為是結(jié)合了神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)和符號(hào)處理的系統(tǒng)。但到最后,LeCun 一反常態(tài),用很多話(huà)承認(rèn)混合系統(tǒng)的存在——它們很重要,它們是一種可能的前進(jìn)方式,而且我們一直知道這一點(diǎn)。文章本身就是矛盾的。
至于為什么會(huì)出現(xiàn)這種矛盾,我唯一能想到的原因是 LeCun 和 Browning 以某種方式相信:學(xué)習(xí)了符號(hào)處理的模型并不是混合模型。但學(xué)習(xí)是一個(gè)發(fā)展中的問(wèn)題(系統(tǒng)是如何產(chǎn)生的?),而已經(jīng)發(fā)展好的系統(tǒng)如何運(yùn)作(是用一種機(jī)制還是兩種)是一個(gè)計(jì)算問(wèn)題:無(wú)論以哪種合理的標(biāo)準(zhǔn)來(lái)衡量,同時(shí)利用了符號(hào)和神經(jīng)網(wǎng)絡(luò)兩種機(jī)制的系統(tǒng)都是一個(gè)混合系統(tǒng)。(也許他們真正想說(shuō)的是,AI 更像是一種習(xí)得的混合系統(tǒng)(learned hybrid),而不是先天的混合系統(tǒng)(innate hybrid)。但習(xí)得的混合系統(tǒng)仍然是混合系統(tǒng)。)
在 2010 年左右,符號(hào)處理被深度學(xué)習(xí)的支持者看作是一個(gè)糟糕的詞;而到了 2020 年,了解符號(hào)處理的來(lái)源成了我們的首要任務(wù)。
我認(rèn)為符號(hào)處理要么是與生俱來(lái)的,要么是其他東西間接地促成了符號(hào)處理的獲得。我們?cè)皆缗宄鞘裁椿A(chǔ)允許系統(tǒng)學(xué)習(xí)符號(hào)抽象,我們就能夠越早地構(gòu)建適當(dāng)利用世界上所有知識(shí)的系統(tǒng),系統(tǒng)也將更安全、更可信和可解釋。
然而,首先我們需要了解人工智能發(fā)展史上這場(chǎng)重要辯論的來(lái)龍去脈。
早期的人工智能先驅(qū) Marvin Minsky 和 John McCarthy 認(rèn)為符號(hào)處理是唯一合理的前進(jìn)方式,而神經(jīng)網(wǎng)絡(luò)先驅(qū) Frank Rosenblatt 認(rèn)為人工智能將更好地建立在類(lèi)似神經(jīng)元的「節(jié)點(diǎn)」集合并可處理數(shù)據(jù)的結(jié)構(gòu)上,以完成統(tǒng)計(jì)數(shù)據(jù)的繁重工作。
這兩種可能并不相互排斥。人工智能所使用的「神經(jīng)網(wǎng)絡(luò)」并不是字面上的生物神經(jīng)元網(wǎng)絡(luò)。相反,它是一個(gè)簡(jiǎn)化的數(shù)字模型,與實(shí)際生物大腦有幾分相似,但復(fù)雜度很小。原則上,這些抽象神經(jīng)元可以以許多不同的方式連接起來(lái),其中一些可以直接實(shí)現(xiàn)邏輯和符號(hào)處理。早在 1943 年,該領(lǐng)域最早的論文之一《A Logical Calculus of the Ideas Inmanent in Nervous Activity》就明確承認(rèn)了這種可能性。
20 世紀(jì) 50 年代的 Frank Rosenblatt 以及 1980 年代的 David Rumelhart 和 Jay McClelland,提出了神經(jīng)網(wǎng)絡(luò)作為符號(hào)處理的替代方案;Geoffrey Hinton 也普遍支持這一立場(chǎng)。
這里不為人知的歷史是,早在 2010 年代初期,LeCun、Hinton 和 Yoshua Bengio 對(duì)這些終于可以實(shí)際應(yīng)用的多層神經(jīng)網(wǎng)絡(luò)非常熱情,他們希望完全消滅符號(hào)處理。到 2015 年,深度學(xué)習(xí)仍處于無(wú)憂(yōu)無(wú)慮、熱情洋溢的時(shí)代,LeCun、Bengio 和 Hinton 在 Nature 上撰寫(xiě)了一份關(guān)于深度學(xué)習(xí)的宣言。這篇文章以對(duì)符號(hào)的攻擊結(jié)束,認(rèn)為「需要新的范式來(lái)通過(guò)對(duì)大型向量的操作取代基于規(guī)則的符號(hào)表達(dá)式操作」。
事實(shí)上,那時(shí)的 Hinton 非常確信符號(hào)處理是一條死胡同,以至于同年他在斯坦福大學(xué)做了一個(gè)名為「Aetherial Symbols」的演講——將符號(hào)比作科學(xué)史上最大的錯(cuò)誤之一。
類(lèi)似地,20 世紀(jì) 80 年代,Hinton 的合作者 Rumelhart 和 McClelland 也提出了類(lèi)似的觀點(diǎn),他們?cè)?1986 年的一本著作中辯稱(chēng):符號(hào)不是「人類(lèi)計(jì)算的本質(zhì)」。
當(dāng)我在 2018 年寫(xiě)了一篇文章為符號(hào)處理辯護(hù)時(shí),LeCun 在 Twitter 上稱(chēng)我的混合系統(tǒng)觀點(diǎn)「大部分是錯(cuò)誤的」。彼時(shí),Hinton 也將我的工作比作在「汽油發(fā)動(dòng)機(jī)」上浪費(fèi)時(shí)間,而「電動(dòng)發(fā)動(dòng)機(jī)」才是最好的前進(jìn)方式。甚至在 2020 年 11 月,Hinton 還聲稱(chēng)「深度學(xué)習(xí)將無(wú)所不能」。
因此,當(dāng) LeCun 和 Browning 現(xiàn)在毫不諷刺地寫(xiě)道:「在深度學(xué)習(xí)領(lǐng)域工作的每個(gè)人都同意符號(hào)處理是創(chuàng)建類(lèi)人 AI 的必要特征」,他們是在顛覆幾十年的辯論史。正如斯坦福大學(xué)人工智能教授 Christopher Manning 所說(shuō):「LeCun 的立場(chǎng)發(fā)生了一些變化?!?/span>
顯然,十年前的方法現(xiàn)在已經(jīng)不適用了。
2010 年代,機(jī)器學(xué)習(xí)社區(qū)中許多人斷言(沒(méi)有真正的論據(jù)):「符號(hào)在生物學(xué)上不可信」。而十年后,LeCun 卻正在考慮一種包含符號(hào)處理的新方案,無(wú)論符號(hào)處理是與生俱來(lái)的還是后天習(xí)得的。LeCun 和 Browning 的新觀點(diǎn)認(rèn)為符號(hào)處理是至關(guān)重要的,這代表了深度學(xué)習(xí)領(lǐng)域的巨大讓步。
人工智能歷史學(xué)家應(yīng)該將 NOEMA 雜志的文章視為一個(gè)重大轉(zhuǎn)折點(diǎn),其中深度學(xué)習(xí)三巨頭之一的 LeCun 首先直接承認(rèn)了混合 AI 的必然性。
值得注意的是,今年早些時(shí)候,深度學(xué)習(xí)三巨頭的另外兩位也表示支持混合 AI 系統(tǒng)。計(jì)算機(jī)科學(xué)家吳恩達(dá)和 LSTM 的創(chuàng)建者之一 Sepp Hochreiter 也紛紛表示支持此類(lèi)系統(tǒng)。而 Jürgen Schmidhuber 的 AI 公司 NNAISANCE 近期正圍繞著符號(hào)處理和深度學(xué)習(xí)的組合進(jìn)行研究。
LeCun 和 Browning 的文章的其余內(nèi)容大致可以分為三個(gè)部分:
- 對(duì)我的立場(chǎng)的錯(cuò)誤描述;
- 努力縮小混合模型的范圍;
- 討論為什么符號(hào)處理是后天習(xí)得的而非與生俱來(lái)的。
例如,LeCun 和 Browning 說(shuō):「Marcus 認(rèn)為,如果你一開(kāi)始沒(méi)有符號(hào)處理,那你后面也不會(huì)有(if you don’t have symbolic manipulation at the start, you’ll never have it)。」而事實(shí)上我在 2001 年的《代數(shù)思維(The Algebraic Mind)》一書(shū)中明確表示:我們不確定符號(hào)處理是否是與生俱來(lái)的。
他們還稱(chēng)我預(yù)計(jì)深度學(xué)習(xí)「無(wú)法取得進(jìn)一步進(jìn)展」,而我的實(shí)際觀點(diǎn)并不是在任何問(wèn)題上都不會(huì)再有任何進(jìn)展,而是深度學(xué)習(xí)對(duì)于某些工作(例如組合性問(wèn)題、因果推理問(wèn)題)來(lái)說(shuō)本身就是錯(cuò)誤的工具。
他們還說(shuō)我認(rèn)為「符號(hào)推理對(duì)于一個(gè)模型來(lái)說(shuō)是 all-or-nothing 的,因?yàn)?DALL-E 沒(méi)有用符號(hào)和邏輯規(guī)則作為其處理的基礎(chǔ),它實(shí)際上不是用符號(hào)進(jìn)行推理,」而我并沒(méi)有說(shuō)過(guò)這樣的話(huà)。DALL·E 不使用符號(hào)進(jìn)行推理,但這并不意味著任何包含符號(hào)推理的系統(tǒng)必須是 all-or-nothing 的。至少早在 20 世紀(jì) 70 年代的專(zhuān)家系統(tǒng) MYCIN 中,就有純粹的符號(hào)系統(tǒng)可以進(jìn)行各種定量推理。
除了假設(shè)「包含習(xí)得符號(hào)的模型不是混合模型」,他們還試圖將混合模型等同于「包含不可微分符號(hào)處理器的模型」。他們認(rèn)為我將混合模型等同于「兩種東西簡(jiǎn)單的結(jié)合:在一個(gè)模式完善(pattern-completion)的深度學(xué)習(xí)模塊上插入一個(gè)硬編碼的符號(hào)處理模塊?!苟聦?shí)上,每個(gè)真正從事神經(jīng)符號(hào) AI 工作的人都意識(shí)到這項(xiàng)工作并不是這么簡(jiǎn)單。
相反,正如我們都意識(shí)到的那樣,問(wèn)題的關(guān)鍵就是構(gòu)建混合系統(tǒng)的正確方法。人們考慮了許多不同方法來(lái)組合符號(hào)和神經(jīng)網(wǎng)絡(luò),重點(diǎn)關(guān)注從神經(jīng)網(wǎng)絡(luò)中提取符號(hào)規(guī)則、將符號(hào)規(guī)則直接轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)、構(gòu)建允許在神經(jīng)網(wǎng)絡(luò)和符號(hào)系統(tǒng)之間傳遞信息的中間系統(tǒng)等技術(shù),并重構(gòu)神經(jīng)網(wǎng)絡(luò)本身。許多途徑都正在探索中。
最后,我們來(lái)看一下最關(guān)鍵的問(wèn)題:符號(hào)處理是否可以通過(guò)學(xué)習(xí)學(xué)得而不需要從一開(kāi)始就內(nèi)置?
我直截了當(dāng)?shù)鼗卮穑寒?dāng)然可以。據(jù)我所知,沒(méi)有人否認(rèn)符號(hào)處理是可以習(xí)得的。2001 年,我在《代數(shù)思維》的第 6.1 節(jié)中回答過(guò)這個(gè)問(wèn)題,雖然我認(rèn)為這不太可能,但我沒(méi)有說(shuō)這是絕對(duì)不可能的。相反,我的結(jié)論是:「這些實(shí)驗(yàn)和理論肯定不能保證符號(hào)處理的能力是與生俱來(lái)的,但它們確實(shí)符合這一觀點(diǎn)?!?/span>
總的來(lái)說(shuō),我的觀點(diǎn)包括以下兩部分:
第一是「可學(xué)習(xí)性」觀點(diǎn):在《代數(shù)思維》整本書(shū)中,我展示了某些類(lèi)型的系統(tǒng)(基本是當(dāng)今更深層系統(tǒng)的前身)未能學(xué)得符號(hào)處理的各個(gè)方面,因此不能保證任何系統(tǒng)都能夠?qū)W習(xí)符號(hào)處理。正如我書(shū)中原話(huà):
有些東西必須是與生俱來(lái)的。但「先天」和「后天」這兩者并沒(méi)有真正的沖突。大自然提供了一套允許我們與環(huán)境互動(dòng)的機(jī)制、一套從世界中提取知識(shí)的工具,以及一套利用這些知識(shí)的工具。如果沒(méi)有一些與生俱來(lái)的學(xué)習(xí)工具,我們也根本就不會(huì)學(xué)習(xí)。
發(fā)展心理學(xué)家 Elizabeth Spelke 曾說(shuō):「我認(rèn)為一個(gè)具有一些內(nèi)置起點(diǎn)(例如對(duì)象、集合、用于符號(hào)處理的裝置等)的系統(tǒng)將比純粹的白板更有效地了解世界?!故聦?shí)上,LeCun 自己最著名的卷積神經(jīng)網(wǎng)絡(luò)工作也能說(shuō)明這一點(diǎn)。
第二點(diǎn)是人類(lèi)嬰兒表現(xiàn)出一些擁有符號(hào)處理能力的證據(jù)。在我實(shí)驗(yàn)室的一組經(jīng)常被引用的規(guī)則學(xué)習(xí)實(shí)驗(yàn)中,嬰兒將抽象模式的范圍泛化了,超越了他們訓(xùn)練中的具體例子。人類(lèi)嬰兒隱含邏輯推理能力的后續(xù)工作會(huì)進(jìn)一步證實(shí)這一點(diǎn)。
不幸的是,LeCun 和 Browning 完全回避了我這兩個(gè)觀點(diǎn)。奇怪的是,他們反而將學(xué)習(xí)符號(hào)等同于較晚習(xí)得的東西,例如「地圖、圖像表示、儀式甚至社會(huì)角色),顯然沒(méi)有意識(shí)到我和其他幾位認(rèn)知科學(xué)家從認(rèn)知科學(xué)的大量文獻(xiàn)中汲取的關(guān)于嬰兒、幼兒和非人類(lèi)動(dòng)物的思考。如果一只小羊在出生后不久就可以爬下山坡,那么為什么一個(gè)新生的神經(jīng)網(wǎng)絡(luò)不能加入一點(diǎn)符號(hào)處理呢?
最后,令人費(fèi)解的是,為什么 LeCun 和 Browning 會(huì)費(fèi)盡心力地反對(duì)符號(hào)處理的先天性呢?他們沒(méi)有給出反對(duì)先天性的強(qiáng)有力的原則性論據(jù),也沒(méi)有給出任何原則性的理由來(lái)證明符號(hào)處理是后天習(xí)得的。
值得注意的是,LeCun 的最新研究包容了一些「先天的」符號(hào)處理。他最近推出的新架構(gòu)總體包含六個(gè)模塊,其中大部分是可調(diào)的,但所有模塊都是內(nèi)置的。
此外,LeCun 和 Browning 也沒(méi)有具體說(shuō)明如何解決語(yǔ)言理解和推理中眾所周知的特定問(wèn)題,因?yàn)檎Z(yǔ)言模型沒(méi)有先天的符號(hào)處理機(jī)制。
相反,他們只是用歸納的原理說(shuō)明深度學(xué)習(xí)的作用:「由于深度學(xué)習(xí)已經(jīng)克服了 1 到 N 的問(wèn)題,我們應(yīng)該相信它可以克服 N+1 的問(wèn)題」。
這種觀點(diǎn)的說(shuō)服力很弱,人們真正應(yīng)該思考和質(zhì)疑的是深度學(xué)習(xí)的極限。
其次,還有一些強(qiáng)有力的具體理由可以說(shuō)明深度學(xué)習(xí)已經(jīng)面臨原則上的挑戰(zhàn),即組合性、系統(tǒng)性和語(yǔ)言理解問(wèn)題。這些問(wèn)題依賴(lài)于「泛化」和「分布偏移(distribution shift)」。領(lǐng)域內(nèi)的每個(gè)人現(xiàn)在都認(rèn)識(shí)到分布偏移是當(dāng)前神經(jīng)網(wǎng)絡(luò)的致命弱點(diǎn)。這也是《代數(shù)思維》一書(shū)中對(duì)當(dāng)今深度學(xué)習(xí)系統(tǒng)的先驅(qū)性觀點(diǎn)。
實(shí)際上,深度學(xué)習(xí)只是構(gòu)建智能機(jī)器的一部分。這類(lèi)技術(shù)缺乏表征因果關(guān)系(例如疾病與其癥狀之間關(guān)系)的方法,并且可能在獲取抽象概念方面存在挑戰(zhàn)。深度學(xué)習(xí)沒(méi)有明顯的邏輯推理方式,距離整合抽象知識(shí)還有很長(zhǎng)的路要走。
當(dāng)然,深度學(xué)習(xí)已經(jīng)取得了諸多進(jìn)展,它擅長(zhǎng)模式識(shí)別,但在推理等一些基本問(wèn)題上進(jìn)展還遠(yuǎn)遠(yuǎn)不夠,系統(tǒng)仍然非常不可靠。
以谷歌開(kāi)發(fā)的新模型 Minerva 為例,它在訓(xùn)練時(shí)有數(shù)十億個(gè) token,但仍然難以完成 4 位數(shù)字相乘的問(wèn)題。它在高中數(shù)學(xué)考試中獲得 50% 的正確率,卻被吹噓為「重大進(jìn)步」。因此,深度學(xué)習(xí)領(lǐng)域仍很難搭建起一個(gè)掌握推理和抽象的系統(tǒng)。現(xiàn)在的結(jié)論是:不僅是深度學(xué)習(xí)有問(wèn)題,而是深度學(xué)習(xí)「一直都有問(wèn)題」。
在我看來(lái),符號(hào)處理的情況可能與以往一樣:
在「代數(shù)思維」 20 年的影響下,當(dāng)前的系統(tǒng)仍然無(wú)法可靠地提取符號(hào)處理(例如乘法),即使面對(duì)龐大的數(shù)據(jù)集和訓(xùn)練也是如此。人類(lèi)嬰幼兒的例子表明,在正規(guī)教育之前,人類(lèi)是能夠歸納復(fù)雜的自然語(yǔ)言和推理概念的(假定是符號(hào)性質(zhì)的)。
一點(diǎn)內(nèi)置的符號(hào)主義可以大大提高學(xué)習(xí)效率。LeCun 自己在卷積方面的成功(對(duì)神經(jīng)網(wǎng)絡(luò)連接方式的內(nèi)置約束)很好地說(shuō)明了這種情況。AlphaFold 2 的成功一部分源于精心構(gòu)建的分子生物學(xué)的先天表征,模型的作用是另一部分。DeepMind 的一篇新論文表示,他們?cè)跇?gòu)建關(guān)于目標(biāo)的先天知識(shí)系統(tǒng)推理方面取得了一些進(jìn)展。
而 LeCun 和 Browning 所說(shuō)的都沒(méi)有改變這一切。
退一步看,世界大致可以分為三個(gè)部分:
在工廠(chǎng)完全安裝了符號(hào)處理設(shè)備的系統(tǒng)(例如幾乎所有已知的編程語(yǔ)言)。具有先天學(xué)習(xí)裝置的系統(tǒng)缺乏符號(hào)處理,但在適當(dāng)?shù)臄?shù)據(jù)和訓(xùn)練環(huán)境下,足以獲得符號(hào)處理。即使有足夠的訓(xùn)練,也無(wú)法獲得完整的符號(hào)處理機(jī)制的系統(tǒng)。
當(dāng)前深度學(xué)習(xí)系統(tǒng)屬于第三類(lèi):一開(kāi)始沒(méi)有符號(hào)處理機(jī)制,并且在此過(guò)程中沒(méi)有可靠的符號(hào)處理機(jī)制。
當(dāng) LeCun 和 Browning 意識(shí)到擴(kuò)展的作用,即添加更多層、更多數(shù)據(jù),但這是不夠的,他們似乎同意我最近反對(duì)擴(kuò)展的論點(diǎn)。我們?nèi)齻€(gè)人都承認(rèn)需要一些新的想法。
此外,在宏觀層面上,LeCun 最近的主張?jiān)诤芏喾矫娑挤浅=咏以?2020 年的主張,即我們都強(qiáng)調(diào)感知、推理和擁有更豐富世界模型的重要性。我們都認(rèn)為符號(hào)處理扮演著重要角色(盡管可能不同)。我們都認(rèn)為目前流行的強(qiáng)化學(xué)習(xí)技術(shù)不能滿(mǎn)足全部需求,單純的擴(kuò)展也是如此。
符號(hào)處理最大的不同在于需要固有結(jié)構(gòu)的數(shù)量,以及利用現(xiàn)有知識(shí)的能力。符號(hào)處理希望盡可能多地利用現(xiàn)有知識(shí),而深度學(xué)習(xí)則希望系統(tǒng)盡可能多地從零開(kāi)始。
早在 2010 年代,符號(hào)處理在深度學(xué)習(xí)支持者中還是一個(gè)不受歡迎的詞,21 世紀(jì) 20 年代,我們應(yīng)該將了解這一方法來(lái)源作為首要任務(wù),即使是神經(jīng)網(wǎng)絡(luò)最狂熱的支持者已經(jīng)認(rèn)識(shí)到符號(hào)處理對(duì)實(shí)現(xiàn) AI 的重要性。一直以來(lái)神經(jīng)符號(hào)社區(qū)一直關(guān)注的問(wèn)題是:如何讓數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)和符號(hào)表示在一個(gè)單一的、更強(qiáng)大的智能中協(xié)調(diào)一致地工作?令人興奮的是,LeCun 最終承諾為實(shí)現(xiàn)這一目標(biāo)而努力。
原文鏈接:https://www.noemamag.com/deep-learning-alone-isnt-getting-us-to-human-like-ai/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。