博客專欄

EEPW首頁(yè) > 博客 > AI 真的能夠理解人類語(yǔ)言嗎?

AI 真的能夠理解人類語(yǔ)言嗎?

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-01-16 來源:工程師 發(fā)布文章

作者 | Melanie Mitchell

譯者 | 彎月

出品 | CSDN(ID:CSDNnews)

2011年,IBM 的人工智能系統(tǒng)沃森參加綜藝節(jié)目《危險(xiǎn)邊緣》,并獲得了冠軍,當(dāng)時(shí)他們宣稱:“沃森能夠理解自然語(yǔ)言的所有歧義和復(fù)雜性?!比欢笪稚诖竽戇M(jìn)軍醫(yī)療保健領(lǐng)域時(shí),卻遭遇慘敗,這說明人工智能對(duì)語(yǔ)言的理解與人類并不相同。

長(zhǎng)期以來,理解自然語(yǔ)言一直是人工智能研究的主要目標(biāo)。最初,研究人員曾嘗試通過手工編寫的代碼,幫助計(jì)算機(jī)理解新聞故事、小說或人類撰寫的其他文檔。然而,正如沃森的經(jīng)歷,這種方法都是徒勞的,我們不可能把理解文本所需的所有不成文的事實(shí)、規(guī)則和假設(shè)都寫進(jìn)代碼里。

像人類一樣進(jìn)行書本學(xué)習(xí)的AI

最近,人工智能領(lǐng)域又涌現(xiàn)出一種新型的范式:讓機(jī)器學(xué)習(xí)通過大量書面文本學(xué)習(xí)預(yù)測(cè)單詞的方式,自行理解語(yǔ)言。這就是研究人員所說的語(yǔ)言模型。這類模型基于大型神經(jīng)網(wǎng)絡(luò),比如 OpenAI的GPT-3,并生成了令人難以置信的散文(和詩(shī)歌!),而且還可以推理復(fù)雜的語(yǔ)言邏輯。

GPT-3通過來自數(shù)千個(gè)網(wǎng)站、書籍和百科全書的文本的訓(xùn)練,它是否超越了沃森的表現(xiàn)呢?它真的能夠理解自己生成的語(yǔ)言及其邏輯嗎?這個(gè)話題在AI研究領(lǐng)域一直富有爭(zhēng)議。這類探討曾是哲學(xué)領(lǐng)域的話題,但在過去的十年中,人工智能已經(jīng)突破學(xué)術(shù)領(lǐng)域,并闖入了現(xiàn)實(shí)世界,但由于缺乏對(duì)現(xiàn)實(shí)世界的理解,它們可能會(huì)帶來災(zāi)難性的后果。在一項(xiàng)研究中,有人發(fā)現(xiàn)了IBM的沃森“提出不安全和不正確的治療建議”的多個(gè)例子。還有一項(xiàng)研究表明,Google的機(jī)器翻譯系統(tǒng)為非英語(yǔ)患者翻譯醫(yī)療說明時(shí)出現(xiàn)了重大錯(cuò)誤。

AI學(xué)會(huì)了嗎?

在實(shí)踐中,我們?nèi)绾尾拍艽_認(rèn)機(jī)器學(xué)習(xí)是否真的能夠理解人類的語(yǔ)言呢?1950 年,計(jì)算先驅(qū)艾倫·圖靈曾通過著名的“模仿游戲”來回答這個(gè)問題,如今我們稱其為圖靈測(cè)試。具體做法是,一臺(tái)機(jī)器和一個(gè)人,看不見彼此,二者競(jìng)相僅通過對(duì)話的方式來說服人類法官自己才是人類。如果該法官無法分辨哪個(gè)是人類,那么,圖靈可以斷言這臺(tái)機(jī)器確實(shí)擁有思考的能力,也就是說能夠理解人類的語(yǔ)言。

然而不幸的是,圖靈低估了人類喜歡被機(jī)器愚弄的傾向性。20世紀(jì)60年代,JosephWeizenbaum發(fā)明了一個(gè)名為Eliza的心理治療師,這個(gè)小程序騙過了很多人,他們相信自己正在與一個(gè)人類交談,即便他們知道對(duì)面只是一臺(tái)機(jī)器。

訓(xùn)練規(guī)模越來越大

在2012年的一篇論文中,計(jì)算機(jī)科學(xué)家Hector Levesque、Ernest Davis和 Leora Morgenstern提出了一個(gè)更客觀的測(cè)試,他們稱之為“威諾格拉德模式挑戰(zhàn)”(WinogradSchema Challenge,WSC)。該測(cè)試已被AI語(yǔ)言社區(qū)采用,作為評(píng)估機(jī)器理解的一種方式,也許是最好的方式,盡管我們可以看到它并不完美。這種方式有一個(gè)“威諾格拉德模式”(WinogradSchema),其名稱源于斯坦福大學(xué)計(jì)算機(jī)科學(xué)家特里·威諾格拉德。該模式由一對(duì)句子組成,兩個(gè)句子僅相差一個(gè)詞,而且兩個(gè)句子緊緊相接。下面是兩個(gè)例子:

句子1:我把瓶子里的水倒進(jìn)杯子里,一直到滿為止。

問題:什么是滿的,瓶子還是杯子?

句子2:我把瓶子里的水倒進(jìn)杯子里,一直到空為止。

問題:什么是空的,瓶子還是杯子?

句子1:小明跟叔叔打網(wǎng)球輸了,盡管他年長(zhǎng)了30歲。

問題:誰(shuí)更年長(zhǎng),小明還是小明的叔叔?

句子2:小明跟叔叔打網(wǎng)球輸了,盡管他年輕了30歲。

問題:誰(shuí)更年長(zhǎng),小明還是小明的叔叔?

在上述句子中,一字之差,所指的事物或人就完全不同。正確地回答這些問題需要一些常識(shí)性的判斷。威諾格拉德模式正是為了測(cè)試這種理解能力而設(shè)計(jì)的,這種方式彌補(bǔ)了圖靈測(cè)試的脆弱性:不可靠的人類判斷,以及聊天機(jī)器人采用的技巧。特別是,作者設(shè)計(jì)了數(shù)百個(gè)針對(duì)網(wǎng)絡(luò)搜索的模式:機(jī)器無法通過網(wǎng)絡(luò)搜索來正確回答的問題。

這些模式是2016年舉辦的一場(chǎng)比賽的主題,最后就連獲勝的程序也只回答對(duì)了 58%的句子,比盲猜(50%)略好一點(diǎn)。人工智能研究員Oren Etzioni打趣道:“AI連一句話中的it指的是什么都無法確定,居然還有人指望它統(tǒng)治整個(gè)世界?”

然而,由于大型神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的涌現(xiàn),AI程序解決威諾格拉德模式的能力也迅速得到了提高。2020年,OpenAI的一篇論文稱,在威諾格拉德模式的測(cè)試中,GPT-3正確回答了90%的句子。還有一些語(yǔ)言模型在經(jīng)過專門的訓(xùn)練之后表現(xiàn)更好。目前,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在一組特定的威諾格拉德模式測(cè)試上,達(dá)到了約97%的準(zhǔn)確率,這些模式是一個(gè)名叫SuperGLUE的人工智能理解語(yǔ)言競(jìng)賽中一部分。這個(gè)準(zhǔn)確率幾乎與人類的表現(xiàn)持平。這是否意味著神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型已經(jīng)達(dá)到了人類的理解水平?

不一定。盡管這些語(yǔ)言模型的創(chuàng)作者盡了最大努力,但這些威諾格拉德模式并非不可通過網(wǎng)絡(luò)獲取答案。這些問題就像許多其他當(dāng)前的AI語(yǔ)言理解測(cè)試一樣,有時(shí)也有捷徑可以走,即便神經(jīng)網(wǎng)絡(luò)不理解句子的真正含義,也可以給出正確答案。舉個(gè)例子:

跑車比卡車跑的更快,是因?yàn)樗乃俣雀臁?/p>

跑車比卡車跑的更快,是因?yàn)樗乃俣雀?/p>

經(jīng)過大型語(yǔ)料庫(kù)訓(xùn)練的語(yǔ)言模型掌握了“跑車”與“快”以及“卡車”與“慢”之間的聯(lián)系,因此可以僅憑這些相關(guān)性(而不是真正理解句子的含義)來給出正確的答案。事實(shí)證明,SuperGLUE競(jìng)賽中的許多威諾格拉德模式都可以通過這類的統(tǒng)計(jì)相關(guān)性給出答案。

艾倫人工智能研究所的研究人員并沒有放棄威諾格拉德模式,并決定努力解決這些問題。2019年,他們創(chuàng)建了WinoGrande,這是一組更大的威諾格拉德模式,其中包含44,000個(gè)句子。為了獲得如此多的例子,研究人員通過亞馬遜的 MechanicalTurk(一個(gè)流行的眾包工作平臺(tái)),讓每個(gè)(人類)工人寫出幾對(duì)句子,并通過一些限制確保這些句子包含不同的主題,盡管最后收集到的每一對(duì)句子相差可能不止一個(gè)單詞。

接著,研究人員通過一些簡(jiǎn)單的AI測(cè)試,刪除了可通過統(tǒng)計(jì)捷徑輕松回答的句子。正如預(yù)期的那樣,與原始的威諾格拉德模式相比,WinoGrande中的句子向機(jī)器學(xué)習(xí)發(fā)起了更困難的挑戰(zhàn)。雖然在面對(duì)WinoGrande 時(shí),人類的得分仍然很高,但神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的得分卻低了很多。這項(xiàng)新挑戰(zhàn)似乎恢復(fù)了威諾格拉德模式作為常識(shí)測(cè)試的地位,只要句子本身經(jīng)過仔細(xì)篩選,確保無法通過網(wǎng)絡(luò)搜索得到答案即可。

然而,另一個(gè)驚喜還在后面。在 WinoGrande 發(fā)布后的近兩年里,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的規(guī)模越來越大,而且隨著規(guī)模的增大,似乎它們?cè)谶@項(xiàng)新挑戰(zhàn)中的得分也越來越高。目前,最先進(jìn)的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型已經(jīng)經(jīng)過了TB級(jí)文本上訓(xùn)練,然后又在數(shù)千個(gè)WinoGrande示例上進(jìn)行了進(jìn)一步的訓(xùn)練,可以達(dá)到將近 90% 的正確率,而人類的正確率約為94%。這種性能提升幾乎完全來源于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型及其訓(xùn)練數(shù)據(jù)規(guī)模的增加。

這些日益增大的神經(jīng)網(wǎng)絡(luò)模型是否達(dá)到了人類的常識(shí)性理解水平?不太可能。WinoGrande 的結(jié)果有一些嚴(yán)重的問題。例如,由于這些句子的編寫依賴于亞馬遜Mechanical Turk 上的人工,因此寫作的質(zhì)量和連貫性參差不齊。此外,利用簡(jiǎn)單的人工智能方法剔除可通過網(wǎng)絡(luò)搜索結(jié)果的句子,但這些人工智能方法可能過于簡(jiǎn)單,無法發(fā)現(xiàn)大型神經(jīng)網(wǎng)絡(luò)有可能使用的統(tǒng)計(jì)捷徑,而且這些人工智能只能處理單個(gè)句子,因此導(dǎo)致一些成對(duì)的句子只剩下一句。一項(xiàng)后續(xù)研究表明,如果要求神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型僅測(cè)試成對(duì)的句子,并且要求兩個(gè)句子都回答正確,則它們的準(zhǔn)確性遠(yuǎn)低于人類,因此前面的 90% 根本不能說明什么。

AI理解人類語(yǔ)言了嗎?

那么,威諾格拉德模式對(duì)我們來說有何意義呢?我們可以從中得到一個(gè)重要的教訓(xùn):我們很難通過AI系統(tǒng)在某項(xiàng)挑戰(zhàn)中的表現(xiàn)判斷它們是否真的能夠理解人類的語(yǔ)言(或其他數(shù)據(jù))。如今我們知道,神經(jīng)網(wǎng)絡(luò)經(jīng)常使用統(tǒng)計(jì)捷徑(而不是展示類似于人類的理解能力)在威諾格拉德模式以及其他流行的“通用語(yǔ)言理解”基準(zhǔn)上展示出高水平。

在我看來,問題的關(guān)鍵在于,要想理解人類的語(yǔ)言就需要理解這個(gè)世界,而只能接觸到語(yǔ)言的機(jī)器無法獲得這樣的理解能力。我們來思考一下“跑車超過了卡車,是因?yàn)樗乃俣雀?,這句話是什么意思。首先你需要知道“跑車”和“卡車”是什么,而且需要知道車輛可以互相“超車”,從更基本的層面來看,車輛是存在于世界上、能夠與之互動(dòng)的物體,且由人類駕駛。

對(duì)于人類來說,這些知識(shí)不過是基本常識(shí),但機(jī)器內(nèi)部沒有這樣的常識(shí)庫(kù),也不可能明確地編寫到任何語(yǔ)言模型的訓(xùn)練文本中。一些認(rèn)知科學(xué)家認(rèn)為,人類學(xué)習(xí)和理解語(yǔ)言需要依賴語(yǔ)言的核心知識(shí),即掌握空間、時(shí)間以及許多關(guān)于這個(gè)世界的其他基本因素。如果想讓機(jī)器像人類一樣掌握語(yǔ)言,則我們需要賦予它們?nèi)祟惻c生俱來的一些基本法則。為了評(píng)估機(jī)器對(duì)語(yǔ)言的理解,我們首先應(yīng)該它們對(duì)這些法則的掌握情況,人們稱之為“嬰兒的元物理學(xué)”。

與威諾格拉德模式和GPT-3等人工智能系統(tǒng)相比,訓(xùn)練和評(píng)估嬰兒級(jí)別的智能機(jī)器似乎是一個(gè)巨大的倒退。但是,我們的目標(biāo)是理解語(yǔ)言,而這可能是機(jī)器能夠真正理解句子中的“it”所指,以及理解“it”所包含的一切的唯一途徑。

參考鏈接:

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

激光器相關(guān)文章:激光器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉