博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 萬(wàn)字長(zhǎng)文解讀:從Transformer到ChatGPT,通用人工智能曙光初現(xiàn)(1)

萬(wàn)字長(zhǎng)文解讀:從Transformer到ChatGPT,通用人工智能曙光初現(xiàn)(1)

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-04-18 來(lái)源:工程師 發(fā)布文章
自ChatGPT推出以來(lái),不僅業(yè)內(nèi)津津樂(lè)道并紛紛贊嘆自然語(yǔ)言處理(Natural Language Processing, NLP)大模型的魔力,更有探討通用人工智能(Artificial general intelligence,AGI)的奇點(diǎn)來(lái)臨。有報(bào)道說(shuō)Google CEO Sundar Pichai發(fā)出紅色警報(bào)(Red code)并促使了谷歌創(chuàng)始人佩奇與布林的回歸,以避免受到顛覆性的影響[1][2][3]。同時(shí),根據(jù)路透社的報(bào)道,ChatGPT發(fā)布僅兩個(gè)月就有1億用戶參與狂歡,成為有史以來(lái)用戶增長(zhǎng)最快的產(chǎn)品[4]。本文以ChatGPT為契機(jī),介紹飛速發(fā)展的自然語(yǔ)言處理技術(shù)(如圖1所示)。

圖片圖1 ChatGPT引發(fā) Google“紅色警報(bào)” [1][2][3]圖片

從機(jī)器翻譯到ChatGPT:自然語(yǔ)言處理的進(jìn)化

自然語(yǔ)言處理的歷史可以追溯到1949年,恰好與共和國(guó)同齡。但是由香農(nóng)的學(xué)生、數(shù)學(xué)家Warren Weaver發(fā)布的有關(guān)機(jī)器翻譯的研討備忘錄被認(rèn)為是自然語(yǔ)言處理的起點(diǎn),比1956年達(dá)特茅斯會(huì)議提出“人工智能(Artificial Intelligence,AI)” 的概念還略早一些。二十世紀(jì)五、六十年代是自然語(yǔ)言處理發(fā)展的第一階段,致力于通過(guò)詞典、生成語(yǔ)法(圖2)和形式語(yǔ)言來(lái)研究自然語(yǔ)言,奠定了自然語(yǔ)言處理技術(shù)的基礎(chǔ),并使得人們認(rèn)識(shí)到了計(jì)算對(duì)于語(yǔ)言的重要意義。這個(gè)階段的代表性的成果有1954年自動(dòng)翻譯(俄語(yǔ)到英語(yǔ))的“Georgetown–IBM實(shí)驗(yàn)”,諾姆·喬姆斯基(Noam Chomsky)于1955年提交的博士論文《變換分析(Transformational Analysis)》和1957年出版的著作《句法結(jié)構(gòu)(Syntactic Structures)》等。圖片圖2 句法分析示例,來(lái)自《知識(shí)圖譜:認(rèn)知智能理論與實(shí)戰(zhàn)》圖4-5,P149[6]在二十世紀(jì)六、七十年代,對(duì)話系統(tǒng)得到了發(fā)展,比如SHRDLU、LUNAR和ELIZA(圖3)。麻省理工學(xué)院的SHRDLU采用句法分析與“啟發(fā)式理解器(heuristic understander)”相結(jié)合的方法來(lái)理解語(yǔ)言并做出響應(yīng)。LUNAR科學(xué)自然語(yǔ)言信息系統(tǒng)(Lunar Sciences Natural Language Information System)則試圖通過(guò)英語(yǔ)對(duì)話的方式來(lái)幫助科學(xué)家們便捷地從阿帕網(wǎng)(ARPA net)獲取信息,這倒像是當(dāng)前爆火的ChatGPT雛形。ELIZA是那時(shí)對(duì)話系統(tǒng)的集大成者,集成了關(guān)鍵詞識(shí)別(圖4)、最小上下文挖掘、模式匹配和腳本編輯等功能[5]。圖片圖3 ELIZA對(duì)話系統(tǒng),摘自維基百科ELIZA詞條圖片圖4 ELIZA系統(tǒng)中關(guān)鍵詞挖掘的流程圖[5]隨著自然語(yǔ)言處理任務(wù)愈加復(fù)雜,人們認(rèn)識(shí)到知識(shí)的缺乏會(huì)導(dǎo)致在復(fù)雜任務(wù)上難以為繼,由此知識(shí)驅(qū)動(dòng)人工智能逐漸在二十世紀(jì)七、八十年代興起。語(yǔ)義網(wǎng)絡(luò)(Semantic Network)和本體(Ontology)是當(dāng)時(shí)研究的熱點(diǎn),其目的是將知識(shí)表示成機(jī)器能夠理解和使用的形式,并最終發(fā)展為現(xiàn)在的知識(shí)圖譜[6]。在這個(gè)階段,WordNet、CYC等大量本體庫(kù)被構(gòu)建,基于本體和邏輯的自然語(yǔ)言處理系統(tǒng)是研究熱點(diǎn)。進(jìn)入二十世紀(jì)末二十一世紀(jì)初,人們認(rèn)識(shí)到符號(hào)方法存在一些問(wèn)題,比如試圖讓邏輯與知識(shí)覆蓋智能的全部方面幾乎是不可完成的任務(wù)。統(tǒng)計(jì)自然語(yǔ)言處理(Statistical NLP)由此興起并逐漸成為語(yǔ)言建模的核心,其基本理念是將語(yǔ)言處理視為噪聲信道信息傳輸,并通過(guò)給出每個(gè)消息的觀測(cè)輸出概率來(lái)表征傳輸,從而進(jìn)行語(yǔ)言建模。相比于符號(hào)方法,統(tǒng)計(jì)方法靈活性更強(qiáng),在大量語(yǔ)料支撐下能獲得更優(yōu)的效果。在統(tǒng)計(jì)語(yǔ)言建模中,互信息(Mutual Information)可以用于詞匯關(guān)系的研究,N元語(yǔ)法(N-Gram)模型是典型的語(yǔ)言模型之一,最大似然準(zhǔn)則用于解決語(yǔ)言建模的稀疏問(wèn)題,淺層神經(jīng)網(wǎng)絡(luò)也早早就應(yīng)用于語(yǔ)言建模,隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機(jī)場(chǎng)(Conditional Random Fields ,CRF)(圖5)是這個(gè)階段的扛把子。在搜索引擎的推動(dòng)下,統(tǒng)計(jì)自然語(yǔ)言處理在詞法分析、機(jī)器翻譯、序列標(biāo)注和語(yǔ)音識(shí)別等任務(wù)中廣泛使用。圖片圖5 條件隨機(jī)場(chǎng),來(lái)自《知識(shí)圖譜:認(rèn)知智能理論與實(shí)戰(zhàn)》圖3-8,P104[6]特別地,從這個(gè)階段開(kāi)始,中文自然語(yǔ)言處理興起,中國(guó)的機(jī)構(gòu)緊緊跟上了人工智能發(fā)展的潮流。由于中文分詞、詞性標(biāo)注和句法分析等工作與英語(yǔ)等西方語(yǔ)言有著很大的不同,許多針對(duì)中文語(yǔ)言處理的方法被深入研究并在推動(dòng)自然語(yǔ)言處理的發(fā)展中發(fā)揮著巨大作用。2006年起,深度學(xué)習(xí)開(kāi)始流行,并在人工智能的各個(gè)細(xì)分領(lǐng)域“大殺四方”,獲得了非凡的成就,自然語(yǔ)言處理也開(kāi)始使用深度學(xué)習(xí)的方法。隨著2013年Word2vec的出現(xiàn),詞匯的稠密向量表示展示出強(qiáng)大的語(yǔ)義表示能力,為自然語(yǔ)言處理廣泛使用深度學(xué)習(xí)方法鋪平了道路。從現(xiàn)在來(lái)看,Word2vec也是現(xiàn)今預(yù)訓(xùn)練大模型的“嬰兒”時(shí)期。隨后,在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、注意力機(jī)制、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Tensor Network)等都被用于構(gòu)建語(yǔ)言模型,并在句子分類(lèi)、機(jī)器翻譯、情感分析、文本摘要、問(wèn)答系統(tǒng)、實(shí)體抽取、關(guān)系抽取、事件分析等任務(wù)中取得了巨大的成功。2017年發(fā)布的變換器網(wǎng)絡(luò)(Transformer)[7]極大地改變了人工智能各細(xì)分領(lǐng)域所使用的方法,并發(fā)展成為今天幾乎所有人工智能任務(wù)的基本模型。變換器網(wǎng)絡(luò)基于自注意力(self-attention)機(jī)制,支持并行訓(xùn)練模型,為大規(guī)模預(yù)訓(xùn)練模型打下堅(jiān)實(shí)的基礎(chǔ)。自此,自然語(yǔ)言處理開(kāi)啟了一種新的范式,并極大地推進(jìn)了語(yǔ)言建模和語(yǔ)義理解,成就了今天爆火出圈的 ChatGPT,并讓人們能夠自信地開(kāi)始探討通用人工智能(Artificial General Intelligence,AGI)。圖片

BERT & GPT的基礎(chǔ):變換器網(wǎng)絡(luò)

變換器網(wǎng)絡(luò)是2017年Google在論文《Attention Is All You Need》[7]中提出的一種序列到序列(Sequence to sequence, seq2seq)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),其架構(gòu)如圖6所示。圖片圖6 變換器網(wǎng)絡(luò)架構(gòu)[7]該網(wǎng)絡(luò)在當(dāng)時(shí)并未引起轟動(dòng),僅僅如蝴蝶扇動(dòng)了幾下翅膀。但隨著時(shí)間的推移卻引發(fā)了蝴蝶效應(yīng),最終掀起了自然語(yǔ)言處理乃至人工智能的海嘯。限于篇幅,這里簡(jiǎn)要介紹變換器網(wǎng)絡(luò)的重要特點(diǎn)。變換器網(wǎng)絡(luò)完全依賴(lài)于注意力機(jī)制,支持極大的并行化。如圖6所示,變換器網(wǎng)絡(luò)由兩部分組成,左邊是編碼部門(mén),有N個(gè)編碼器組成;右邊是解碼部分,由N個(gè)****組成。編碼部分將輸入序列(文本)進(jìn)行編碼,解碼部分以自回歸的方法不斷解碼下一個(gè)詞元,最終完成從序列到序列的變換并輸出。圖7展示了一個(gè)中文到英文翻譯的序列到序列的實(shí)例——將中文“《知識(shí)圖譜:認(rèn)知智能理論與實(shí)戰(zhàn)》是一本人工智能必看書(shū)籍”翻譯為英文“Knowledge Graph: Theory and Practice of Cognitive Intelligence is a must read book on AI.”。翻譯也是最典型的序列到序列的語(yǔ)言任務(wù),事實(shí)上也正是這個(gè)任務(wù)在1949年開(kāi)啟了自然語(yǔ)言處理這門(mén)學(xué)科,同時(shí)在變換器網(wǎng)絡(luò)的論文中,用的評(píng)測(cè)也正是翻譯任務(wù)。圖片圖7 用變換器網(wǎng)絡(luò)進(jìn)行中譯英的實(shí)例變換器網(wǎng)絡(luò)的最大創(chuàng)新是完全使用多頭自注意力機(jī)制(Multi-Head Self-Attention Mechanism,其架構(gòu)如圖8所示)。變換器網(wǎng)絡(luò)的編碼器和****都是用了同樣的多頭自注意力結(jié)構(gòu),有所不同的是,編碼器中,自注意力是雙向的,而****中,自注意力只允許關(guān)注輸出序列中較早的位置。如圖8的左邊圖所示,****的自注意力層在自注意力計(jì)算的 softmax 步驟之前設(shè)置為-inf來(lái)屏蔽(mask)未來(lái)位置,即圖中標(biāo)簽為“Mask(opt.)”的框所標(biāo)識(shí)的。這也正是圖6的****中被稱(chēng)為“Masked Multi-Head Attention”的原由。圖片圖8 多頭自注意力機(jī)制[7]多頭自注意力機(jī)制的核心就是自注意力。圖9是自注意力的一個(gè)實(shí)例,直觀地理解,自注意力就是模型在處理當(dāng)前輸入序列的某個(gè)詞元與該序列其他詞元的語(yǔ)義相關(guān)性。不同的“頭”關(guān)注了不同維度/方面的語(yǔ)義。圖9示例了“今”字與同一輸入序列(句子)的其他字的語(yǔ)義相關(guān)性,不同顏色表示了不同的“頭”( 頂部色塊表示了不同的“頭”的標(biāo)識(shí)),而顏色的深淺表示了語(yǔ)義相關(guān)性的強(qiáng)弱。在這個(gè)例子中,“今”字在有多個(gè)“注意力頭”最關(guān)注了“古”字,而在另一個(gè)“注意力頭”則最關(guān)注“魂”字,還有兩個(gè)“注意力頭”最關(guān)注了“的”字。圖片圖9 自注意力實(shí)例,《知識(shí)圖譜:認(rèn)知智能理論與實(shí)戰(zhàn)》圖3-15(P124)[6]值得一提的是,變換器網(wǎng)絡(luò)是近5年自然語(yǔ)言處理乃至全部人工智能高速發(fā)展的最大功臣!近年來(lái)叱咤風(fēng)云的BERT就是以變換器網(wǎng)絡(luò)的編碼器為基礎(chǔ)的,而 GPT 則是以其****為基礎(chǔ)的。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉