人工智能推動(dòng)神經(jīng)網(wǎng)絡(luò)技術(shù)開(kāi)發(fā)熱潮
神經(jīng)網(wǎng)絡(luò)幾乎成了人工智能的代名詞,正在被應(yīng)用于各種領(lǐng)域,包括影像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理、自動(dòng)駕駛、訊號(hào)分析、大數(shù)據(jù)分析和游戲。
這是一個(gè)瞬息萬(wàn)變的世界,每年都有新的神經(jīng)網(wǎng)絡(luò)模型被更新,大量的開(kāi)放原始碼到處流傳,專(zhuān)用人工智能芯片開(kāi)發(fā)企業(yè)更是如雨后春筍般涌現(xiàn)。
因此全球研究人員正透過(guò)模仿人類(lèi)大腦組織方式,積極開(kāi)發(fā)類(lèi)神經(jīng)網(wǎng)絡(luò)技術(shù),雖然一直有突破性的進(jìn)展,但是現(xiàn)階段的神經(jīng)網(wǎng)絡(luò),還是缺乏實(shí)時(shí)變化的靈活性,以及難以快速適應(yīng)陌生的狀況,使得神經(jīng)網(wǎng)絡(luò)技術(shù)普及實(shí)用化的進(jìn)程還是相當(dāng)遙遠(yuǎn)。
根據(jù)不同應(yīng)用開(kāi)發(fā)出的神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)是模仿人類(lèi)神經(jīng)細(xì)胞網(wǎng)絡(luò)的模型,由輸入層、中間層(隱藏層)和輸出層的神經(jīng)元,以及連接它們的突觸組成。而機(jī)器學(xué)習(xí)就是在大量數(shù)據(jù)的基礎(chǔ)上,自動(dòng)構(gòu)建連接和它們的權(quán)重。
深度學(xué)習(xí)是指,使用具有多個(gè)中間層的神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)。深度學(xué)習(xí)使計(jì)算機(jī)能夠提取自己的特征量,作為發(fā)現(xiàn)模式和規(guī)則時(shí)應(yīng)該注意些什么,同時(shí)也能進(jìn)行識(shí)別和其他作業(yè),因此促進(jìn)了人工智能熱潮。
模型根據(jù)應(yīng)用的不同,又分為影像識(shí)別的深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、語(yǔ)音識(shí)別的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和自然語(yǔ)言處理的Transformer。模型可以在不同的應(yīng)用中進(jìn)行整合,也可為每個(gè)應(yīng)用開(kāi)發(fā)出新模型。
深度神經(jīng)網(wǎng)絡(luò)(DNN)
DNN的隱藏層由一個(gè)卷積層和一個(gè)池化層組成。卷積層利用過(guò)濾上一層附近的節(jié)點(diǎn),而可得到一個(gè)特征圖。池化層進(jìn)一步縮小卷積層輸出的特征圖,得到新的特征圖,同時(shí)可在保持影像特性的同時(shí),可以極大地壓縮影像中的信息量。例如,在2012年ILSVRC影像識(shí)別比賽中,以壓倒性的優(yōu)勢(shì)獲勝,采用八層結(jié)構(gòu)的AlexNet就引發(fā)了深度學(xué)習(xí)的熱潮,隨后經(jīng)過(guò)改進(jìn)而來(lái)的ResNet,其層數(shù)就達(dá)到了152層。因此,透過(guò)導(dǎo)入簡(jiǎn)化處理塊的Residual模塊,即使是在高層數(shù)的結(jié)構(gòu)下,也能達(dá)到高效學(xué)習(xí)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
具有自我回饋的遞歸網(wǎng)絡(luò)RNN,是一個(gè)適合處理包括語(yǔ)音波形、視訊和文本文件(字符串)等等時(shí)間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。例如神經(jīng)網(wǎng)絡(luò)中為了處理如語(yǔ)音等,可變長(zhǎng)時(shí)間序列數(shù)據(jù),將隱藏層的值再次回饋輸入到隱藏層。當(dāng)存取很久以前的數(shù)據(jù),或出現(xiàn)運(yùn)算量爆炸等問(wèn)題時(shí),可透過(guò)應(yīng)用于自然語(yǔ)言處理的LSTM(長(zhǎng)短時(shí)記憶)來(lái)解決。
Transformer
在自然語(yǔ)言處理方面,既不是透過(guò)RNN,也不是CNN,而是據(jù)由深度學(xué)習(xí)的Transformer取得了重大進(jìn)展:這是一個(gè)只使用Attention(表示要注意句子中哪些單詞的分?jǐn)?shù))的Encoder-Decoder模型,也可透過(guò)并行化來(lái)減少學(xué)習(xí)時(shí)間。在后續(xù)的技術(shù)改進(jìn)下也相繼開(kāi)發(fā)出的BERT、GPT-2、T5等,甚至已超過(guò)了人類(lèi)的語(yǔ)言處理能力。
而Conformer是一個(gè)結(jié)合CNN的模型,可被應(yīng)用于語(yǔ)音識(shí)別,其能力已經(jīng)超過(guò)RNN的最高準(zhǔn)確性。Conformer結(jié)合了善于提取長(zhǎng)時(shí)空依賴(lài)關(guān)系的Transformer,和善于提取局部關(guān)系的CNN。此外,一個(gè)新的影像識(shí)別模型-Vision Transformer也被開(kāi)發(fā)出來(lái),在進(jìn)行影像識(shí)別時(shí),所需要的運(yùn)算資源比CNN少更少。
大型數(shù)據(jù)處理業(yè)者相爭(zhēng)投入開(kāi)發(fā)AI芯片
神經(jīng)網(wǎng)絡(luò)中的訊號(hào)處理,相當(dāng)于將神經(jīng)元乘以權(quán)重的數(shù)值加在一起,再透過(guò)高速運(yùn)算乘積之和的操作來(lái)模仿大腦行為(高速積和加速器)。最近的主流配置是盡可能多鋪設(shè)必要數(shù)量的圖磚(Tile)來(lái)進(jìn)行AI運(yùn)算,例如,一個(gè)圖磚被用于終端傳感器控制,4-16個(gè)圖磚用于中等規(guī)模的邊緣處理,64個(gè)或更多圖磚用于數(shù)據(jù)中心等服務(wù)器。
人工智能芯片的功能大致可分為推理和學(xué)習(xí)。兩者都需要相同的高速乘積運(yùn)算,但與推理相比,學(xué)習(xí)需要進(jìn)行大量的乘積和運(yùn)算,因此各大數(shù)據(jù)處理業(yè)者正積極投入這方面的研發(fā),例如,Google目前正積極開(kāi)發(fā)TPU來(lái)作為本身數(shù)據(jù)中心的AI芯片。第一代(2017年)有8位定點(diǎn)操作,只能用于推理,但第二代有16位浮點(diǎn)運(yùn)算,則可以應(yīng)用在學(xué)習(xí)。接下來(lái)第三代的性能則是120Tops @ 250W,最新的第四代載板設(shè)計(jì)了4顆TPU,且采用液體冷卻,指令周期更是上一代的2.7倍。這些電路板被安裝在一個(gè)個(gè)機(jī)柜內(nèi),然后通過(guò)高速傳輸線(xiàn)相互連接。
用于推理的人工智能芯片要求體積小、功耗低和實(shí)時(shí)處理。例如,Gyrfalco銷(xiāo)售一種形狀像USB隨身碟的AI棒。采用的AI芯片是一款具有矩陣處理引擎,利用PIM(內(nèi)存中處理器)技術(shù)來(lái)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的計(jì)算處理,這個(gè)架構(gòu)可降低與內(nèi)存和計(jì)算電路之間的數(shù)據(jù)存取的功耗,芯片內(nèi)部有大約28000個(gè)節(jié)點(diǎn)和10M bytes的內(nèi)存,據(jù)稱(chēng)能夠?qū)⑼ㄓ媚P退璧乃行阅芏寄苷系叫酒小?br/>
NTT與東大合作開(kāi)發(fā)新型類(lèi)腦學(xué)習(xí)算法
對(duì)于深度神經(jīng)網(wǎng)絡(luò)的運(yùn)算,日本NTT與東京大學(xué)合作下,開(kāi)發(fā)了一種不需要準(zhǔn)確掌握物理系統(tǒng)信息,適用于物理神經(jīng)網(wǎng)絡(luò)的新算法-「擴(kuò)展DFA(Detrended Fluctuation Analysis)」。
圖一A是這種算法的概況和結(jié)果的定位,這是基于深入研究了一種名為直接回饋排列法的學(xué)習(xí)算法,是將反向傳播算法(Back Propagation;BP)修改為在大腦信息處理更容易實(shí)現(xiàn)的形式,并將其擴(kuò)展到可在物理神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)。
這個(gè)方法是將神經(jīng)網(wǎng)絡(luò)最后一層的輸出與所需輸出訊號(hào)(誤差訊號(hào))之間的差值,透過(guò)隨機(jī)元素的矩陣的線(xiàn)性變換來(lái)更新學(xué)習(xí)參數(shù)。運(yùn)算過(guò)程不需要測(cè)量物理系統(tǒng)的狀態(tài),也不需要像BP法需要利用微分響應(yīng)的物理模擬進(jìn)行近似運(yùn)算。
此外,這個(gè)運(yùn)算可以在包括光路等物理系統(tǒng)上執(zhí)行,除了可以在物理系統(tǒng)上有效地運(yùn)算推理,還可以進(jìn)行學(xué)習(xí)。這種新的學(xué)習(xí)方法不僅適用于物理實(shí)現(xiàn)中實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型,也適用于各種機(jī)器學(xué)習(xí)模型,包括實(shí)際用于機(jī)器翻譯和其他應(yīng)用的高級(jí)深度神經(jīng)網(wǎng)絡(luò)模型。
因此NTT與東京大學(xué)構(gòu)建了一個(gè)光學(xué)神經(jīng)網(wǎng)絡(luò)(圖一 B),證明了以前難以進(jìn)行的光學(xué)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),可以利用光學(xué)計(jì)算輔助推理和學(xué)習(xí)運(yùn)算的可行性。這一成果將解決人工智能的計(jì)算時(shí),功耗和計(jì)算時(shí)間增加的問(wèn)題。
圖一 : 物理系統(tǒng)的計(jì)算被納入學(xué)習(xí)部分來(lái)提高效率;以及實(shí)際設(shè)備應(yīng)用的光學(xué)神經(jīng)網(wǎng)絡(luò)。(source:日本NTT;作者整理)
適用于物理神經(jīng)網(wǎng)絡(luò)的擴(kuò)展DFA法
DFA法是受到大腦信息處理的啟發(fā),因而進(jìn)一步擴(kuò)展為適合在物理神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)的形式。如圖二A所示,傳統(tǒng)的DFA法是透過(guò)隨機(jī)矩陣對(duì)最后一層的誤差,進(jìn)行線(xiàn)性變換來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí);盡管比BP法更適用于物理神經(jīng)網(wǎng)絡(luò),但仍然需要計(jì)算物理神經(jīng)網(wǎng)絡(luò)時(shí),使用的非線(xiàn)性變換及其導(dǎo)數(shù)。
而NTT與東大擴(kuò)展了DFA法技術(shù),使這部分可以由一個(gè)任意的非線(xiàn)性函數(shù)代替。這完全省去了對(duì)物理系統(tǒng)的狀態(tài)測(cè)量、基于微分響應(yīng)的物理模擬的近似值,以及基于這些近似值的順序反向傳播演算。學(xué)習(xí)過(guò)程已被大幅度簡(jiǎn)化,實(shí)現(xiàn)了用物理神經(jīng)網(wǎng)絡(luò)幾乎不可能的學(xué)習(xí)。此外在對(duì)各種深度學(xué)習(xí)模型的適用性應(yīng)用于各種深度學(xué)習(xí)模型時(shí),也可以適用于廣泛的深度神經(jīng)網(wǎng)絡(luò)模型,包括從實(shí)際用于影像識(shí)別,和其他應(yīng)用的高級(jí)模型(圖二B)。
圖二 : A現(xiàn)有和新開(kāi)發(fā)的學(xué)習(xí)方法概述;B各種模型的基準(zhǔn)檢驗(yàn)結(jié)果。(source:日本NTT;作者整理)
圖三A是使用構(gòu)建系統(tǒng)對(duì)圖像處理基準(zhǔn)任務(wù)性能的比較結(jié)果,光學(xué)神經(jīng)網(wǎng)絡(luò)可達(dá)到最高性能。圖三B則是顯示了每單位影像的學(xué)習(xí)時(shí)間對(duì)神經(jīng)元數(shù)量的依賴(lài)性。在小規(guī)模網(wǎng)絡(luò)模型的情況下,速率決定了信息傳輸?shù)焦鈱W(xué)硬件的處理時(shí)間,因此效果不如光學(xué)計(jì)算的計(jì)算加速效果大。
但是隨著神經(jīng)元數(shù)量的增加,可以發(fā)現(xiàn)光學(xué)神經(jīng)網(wǎng)絡(luò)計(jì)算在指令周期上比傳統(tǒng)的數(shù)字電子計(jì)算更有優(yōu)勢(shì)。此外,由于人工智能運(yùn)算的功耗,是由效率和計(jì)算時(shí)間的積和所決定的,因此加速計(jì)算有助于降低功耗。
圖三 : A使用光學(xué)神經(jīng)網(wǎng)絡(luò)進(jìn)行影像辨識(shí)測(cè)試(手寫(xiě)字符辨識(shí)、衣服影像辨識(shí);B 每單位影像的運(yùn)算時(shí)間對(duì)神經(jīng)元數(shù)量的依賴(lài)性。(source:日本NTT;作者整理)
靈感來(lái)自于線(xiàn)蟲(chóng)的液體神經(jīng)網(wǎng)絡(luò)技術(shù)
2020年,由麻省理工學(xué)院Ramin Hasani和Matthias Lechner所領(lǐng)導(dǎo)的一個(gè)研究小組,推出了一種液體神經(jīng)網(wǎng)絡(luò)(Liquid Neural Network)的新形態(tài)神經(jīng)網(wǎng)絡(luò),其靈感來(lái)自微小的線(xiàn)蟲(chóng)。這項(xiàng)技術(shù)是以模仿具有細(xì)長(zhǎng)的線(xiàn)狀身體的「線(xiàn)性動(dòng)物」為參考基礎(chǔ),來(lái)開(kāi)發(fā)出神經(jīng)網(wǎng)絡(luò)技術(shù),達(dá)到前所未有的速度和靈活性,來(lái)實(shí)現(xiàn)「質(zhì)」的跨越性進(jìn)步,足以在某些應(yīng)用中取代傳統(tǒng)網(wǎng)絡(luò)。
據(jù)加州大學(xué)伯克利分校的機(jī)器人工程師Ken Goldberg表示,根據(jù)實(shí)驗(yàn)結(jié)果顯示,比起需要透過(guò)隨時(shí)間變化,來(lái)進(jìn)行建立模型的「連續(xù)時(shí)間神經(jīng)網(wǎng)絡(luò)」,這款「液體神經(jīng)網(wǎng)絡(luò)技術(shù)」,要來(lái)得更快、更準(zhǔn)確(圖四)。
圖四 : 麻省理工學(xué)院Ramin Hasani和Matthias Lechner開(kāi)發(fā)出新形態(tài)的液體神經(jīng)網(wǎng)絡(luò)。(source:麻省理工學(xué)院Ramin Hasani博士)
Hasani和Lechner在思考如何能建立出一個(gè)夠靈活,且能快速適應(yīng)新?tīng)顩r的反應(yīng)性神經(jīng)網(wǎng)絡(luò)時(shí),發(fā)現(xiàn)線(xiàn)蟲(chóng)是一個(gè)非理想可參考的生物體。線(xiàn)蟲(chóng)是少數(shù)具有完全反射的神經(jīng)系統(tǒng)的生物之一,可以透過(guò)一個(gè)大約1mm長(zhǎng)的神經(jīng)系統(tǒng),來(lái)完成一系列復(fù)雜的行為,包括遷移、覓食、睡眠、交配,甚至從經(jīng)驗(yàn)中不斷的學(xué)習(xí),而且在現(xiàn)實(shí)世界中,線(xiàn)蟲(chóng)無(wú)論在任何環(huán)境或狀況下都具有相當(dāng)優(yōu)秀的適應(yīng)能力。
液體神經(jīng)網(wǎng)絡(luò)技術(shù)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)有很大的不同,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只提供特定時(shí)刻的結(jié)果。而液體神經(jīng)網(wǎng)絡(luò)技術(shù)是一種非常特別的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以將神經(jīng)元都是聯(lián)系在一起,并且透過(guò)彼此之間具有相互依賴(lài)的特性,來(lái)描述系統(tǒng)于任何特定時(shí)間下的狀態(tài)。
此外,在處理突觸的方式上也有所不同,突觸是人工神經(jīng)元之間的連接。在標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)中,突觸連接的強(qiáng)度,可以用單一的數(shù)值來(lái)表示「權(quán)重(weight)」。而另一方面,在液體神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元之間的訊號(hào)交換是透過(guò)「非線(xiàn)性」函數(shù)控制的隨機(jī)過(guò)程,這意味著不會(huì)傳回與輸入成比例的響應(yīng)(圖五)。
圖五 : MIT的研究人員基于蠕蟲(chóng)的啟發(fā),發(fā)現(xiàn)了一種更靈活的機(jī)器學(xué)習(xí)方法-液體神經(jīng)網(wǎng)絡(luò),可以實(shí)時(shí)轉(zhuǎn)換其底層算法,達(dá)到前所未有的速度和適應(yīng)性。(source:Quanta Magazine)
只需利用基本運(yùn)算獲得精確的近似解
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法是利用在訓(xùn)練期間調(diào)整「權(quán)重」的最佳值,但在面對(duì)大量數(shù)據(jù)的環(huán)境下,液體神經(jīng)網(wǎng)絡(luò)的適應(yīng)性會(huì)來(lái)得更強(qiáng)。因?yàn)橐后w神經(jīng)網(wǎng)絡(luò)可以根據(jù)觀察到的輸入改變基礎(chǔ)程序。例如在對(duì)自動(dòng)駕駛汽車(chē)操作進(jìn)行測(cè)試時(shí),傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只能定期分析來(lái)自汽車(chē)攝影機(jī)的視覺(jué)數(shù)據(jù),雖然液體神經(jīng)網(wǎng)絡(luò)僅由19個(gè)神經(jīng)元和253個(gè)突觸所組成,按機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)來(lái)說(shuō)這個(gè)能力根本是非常薄弱,但事實(shí)上,該模型是允許對(duì)例如蜿蜒的道路等,復(fù)雜的道路進(jìn)行更頻繁的采樣,因此液體神經(jīng)網(wǎng)絡(luò)能比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),表現(xiàn)出更高的反應(yīng)能力。
不過(guò),在突觸和神經(jīng)元的非線(xiàn)性方程式,通常需要計(jì)算機(jī)多次運(yùn)算才能得出解決方案。因此這也是液體神經(jīng)網(wǎng)絡(luò)的死穴,因?yàn)橐后w神經(jīng)網(wǎng)絡(luò)的突觸和神經(jīng)元的軟件,由于是單獨(dú)進(jìn)行計(jì)算,再加上所使用的突觸和神經(jīng)元數(shù)量不多,因此運(yùn)行速度非常慢。不過(guò),這樣的困境也被克服了。
在2022年11月新發(fā)表的一篇論文中表示,研究團(tuán)隊(duì)提出了一種新網(wǎng)絡(luò)架構(gòu),不必透過(guò)復(fù)雜困難的運(yùn)算來(lái)解決非線(xiàn)性方程式。這個(gè)架構(gòu)是只需要利用基本運(yùn)算,就可以獲得近乎精確的近似解,大幅度的減少運(yùn)算時(shí)間和能量,以及明顯地提高了處理速度。
目前這個(gè)小組正用一架無(wú)人機(jī)測(cè)試最新的液體神經(jīng)網(wǎng)絡(luò),最初的測(cè)試是在森林中進(jìn)行的,但希望將來(lái)能移到城市環(huán)境中,看看在面對(duì)新的環(huán)境條件時(shí)自我調(diào)適能力。
結(jié)語(yǔ):過(guò)度投入將導(dǎo)致泡沫熱潮
神經(jīng)運(yùn)算是人工智能熱潮的基礎(chǔ)技術(shù),在許多業(yè)者和機(jī)構(gòu)的投入下,從材料到設(shè)備、硬件、軟件到應(yīng)用,都呈現(xiàn)迅速地發(fā)展的態(tài)勢(shì)。此外,還有全方位的開(kāi)放架構(gòu),進(jìn)入門(mén)坎相當(dāng)?shù)?,尤其是從?yīng)用的角度來(lái)看,也有相當(dāng)多的開(kāi)發(fā)工具可使用。
以目前來(lái)看,但最大的障礙可能是收集所需要的大量學(xué)習(xí)數(shù)據(jù),例如在某些領(lǐng)域,由于隱私和其他問(wèn)題,數(shù)據(jù)收集是非常困難的。
另外,有些應(yīng)用領(lǐng)域更是缺乏關(guān)于缺陷和故障的數(shù)據(jù),如預(yù)測(cè)性故障和故障分析。由于神經(jīng)運(yùn)算是一個(gè)以歸納方式給出答案的系統(tǒng),因此有些人會(huì)抱怨,這和訴諸理性的演繹法不同。
然而,無(wú)論如何神經(jīng)運(yùn)算已經(jīng)開(kāi)始啟動(dòng)了,也呈現(xiàn)出非要達(dá)到目標(biāo)的勢(shì)頭。為了解決上述問(wèn)題,仍然需要技術(shù)的創(chuàng)新,可以說(shuō)所有的技術(shù)領(lǐng)域都有商業(yè)機(jī)會(huì)。因此更要冷靜地分析形勢(shì),不要被繁榮的景象所引誘,而又出現(xiàn)另一個(gè)泡沫熱潮。
評(píng)論