理解神經(jīng)網(wǎng)絡(luò)是否有更好的姿勢(shì)?
雷鋒網(wǎng)按:DeepMind 研究科學(xué)家 Timothy P. Lillicrap,賓夕法尼亞大學(xué)教授 Konrad P. Kording 近期發(fā)表了一篇文章《What does it mean to understand a neural network?》(arxiv.org/abs/1907.06374)。正如文章標(biāo)題提出的,「理解神經(jīng)網(wǎng)絡(luò)」到底意味著什么?我們當(dāng)前的研究是否走入了誤區(qū)以至于忽略了某些很有價(jià)值的東西?這是一篇視角獨(dú)特的討論,文章主要內(nèi)容介紹如下。
本文引用地址:http://2s4d.com/article/201907/402977.htm神經(jīng)網(wǎng)絡(luò)可解釋性之路面臨困境
自從現(xiàn)代神經(jīng)網(wǎng)絡(luò)被證明能解決復(fù)雜問(wèn)題并開(kāi)始蓬勃發(fā)展以來(lái),如何理解這些網(wǎng)絡(luò)就一直是一個(gè)未解之謎。網(wǎng)絡(luò)中少則數(shù)千、多則數(shù)萬(wàn)的連接和權(quán)重都分別如何影響網(wǎng)絡(luò)的表現(xiàn)、如何理解對(duì)抗性樣本之類(lèi)的意外行為,有許多問(wèn)題目前都還沒(méi)有完整的理論可以說(shuō)清。
但毫無(wú)疑問(wèn),我們對(duì)神經(jīng)網(wǎng)絡(luò)是有高度的掌控能力的。即便 AlphaGo、OpenAI Five 等已經(jīng)在游戲中展現(xiàn)出了超人類(lèi)水平的神經(jīng)網(wǎng)絡(luò),它們也只是來(lái)源于人類(lèi)編寫(xiě)的上百行代碼而已。我們理解這些代碼,我們知道它們將會(huì)如何轉(zhuǎn)化為計(jì)算流程,在網(wǎng)絡(luò)訓(xùn)練完畢以后也能夠知道網(wǎng)絡(luò)的所有權(quán)重。
從這個(gè)意義上說(shuō),我們對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)和其中的運(yùn)算都有完全的了解。但我們真正希望獲得的是一種介于人類(lèi)思維語(yǔ)言以及計(jì)算機(jī)運(yùn)算細(xì)節(jié)之間的中轉(zhuǎn)語(yǔ)言,我們可以借助這種語(yǔ)言直接構(gòu)建可以分類(lèi) ImageNet 圖像或者能夠下圍棋的神經(jīng)網(wǎng)絡(luò),而不需要經(jīng)過(guò)繁瑣、消耗資源的迭代學(xué)習(xí)過(guò)程;可以借助這種語(yǔ)言直接獲得網(wǎng)絡(luò)表現(xiàn)的清晰完整的描述,而不需要通過(guò)反復(fù)的測(cè)試進(jìn)行經(jīng)驗(yàn)總結(jié)。目前我們還沒(méi)有找到這樣的中轉(zhuǎn)語(yǔ)言,甚至都不確定是否存在這樣的語(yǔ)言。
神經(jīng)網(wǎng)絡(luò)能被緊湊地表達(dá)嗎?
一個(gè)值得深入思考的角度是,在機(jī)器學(xué)習(xí)的理論框架下設(shè)計(jì)的人工智能系統(tǒng),都是一些「學(xué)習(xí)系統(tǒng)」,它們?cè)谌祟?lèi)編寫(xiě)的學(xué)習(xí)規(guī)則下學(xué)習(xí)(從數(shù)據(jù)中提取信息)。這些學(xué)習(xí)規(guī)則的表達(dá)非常緊湊,幾十、幾百行高級(jí)編程語(yǔ)言代碼(比如 Pytorch 代碼)就足以描述。
對(duì)于我們廣大的機(jī)器學(xué)習(xí)科研和應(yīng)用人員來(lái)說(shuō),這種緊湊的表達(dá)顯然能幫助我們獲得一些有價(jià)值的理解。這樣的緊湊表達(dá)也給我們提供了許多便利:我們可以為同一個(gè)想法創(chuàng)造許許多多的不同變體,然后用它們解決一大批問(wèn)題。
既然學(xué)習(xí)規(guī)則可以被緊湊地表達(dá),那么神經(jīng)網(wǎng)絡(luò)本身可以被緊湊地表達(dá)嗎?不見(jiàn)得。近幾年隨著知識(shí)蒸餾和計(jì)算復(fù)雜度的研究增多,我們對(duì)數(shù)據(jù)和網(wǎng)絡(luò)的可壓縮性的理解也在增加。我們已經(jīng)知道,在 ImageNet 上訓(xùn)練完畢的網(wǎng)絡(luò)是無(wú)法被壓縮到 10 萬(wàn)個(gè)獨(dú)立參數(shù)之內(nèi)的;即便是用來(lái)識(shí)別 MNIST 數(shù)字的網(wǎng)絡(luò)也無(wú)法被壓縮為人類(lèi)可以理解的格式。但同時(shí),能存儲(chǔ)超過(guò)三萬(wàn)個(gè)類(lèi)別的知識(shí)并進(jìn)行分辨的人類(lèi)大腦,作為一類(lèi)十分高級(jí)的神經(jīng)網(wǎng)絡(luò),想要在其中找到,或者想要壓縮為某種緊湊的表征,也是幾乎不可能的事情。
跳出壓縮技巧之外,我們其實(shí)可以問(wèn)這樣一個(gè)問(wèn)題:在任務(wù)中表現(xiàn)出了人類(lèi)水準(zhǔn)的網(wǎng)絡(luò),應(yīng)當(dāng)是容易壓縮的嗎?不難得到答案:越是處理復(fù)雜任務(wù)、能存儲(chǔ)并處理越多信息的網(wǎng)絡(luò),就越難以壓縮。
更重要、也更長(zhǎng)遠(yuǎn)的一件事是,完全掌握某一個(gè)可以正常工作的 AI 系統(tǒng)的網(wǎng)絡(luò)架構(gòu)和權(quán)重、但不了解學(xué)習(xí)規(guī)則和執(zhí)行技巧,對(duì)于解決其它的任務(wù)就起不到任何幫助。也就是說(shuō),了解訓(xùn)練系統(tǒng)用到的學(xué)習(xí)規(guī)則、網(wǎng)絡(luò)架構(gòu)、損失函數(shù),對(duì)于后續(xù)的更改和拓展要遠(yuǎn)比了解直接存在于網(wǎng)絡(luò)之中的連接權(quán)重重要。
與神經(jīng)科學(xué)的類(lèi)比
雖然人腦的神經(jīng)網(wǎng)絡(luò)和如今的人工神經(jīng)網(wǎng)絡(luò)有諸多不同,但是相同點(diǎn)也不少,尤其是極高的可塑性以及難以準(zhǔn)確了解網(wǎng)絡(luò)內(nèi)的表征。說(shuō)到底,人腦在具有極強(qiáng)的持續(xù)學(xué)習(xí)能力、有高超的任務(wù)解決能力的同時(shí),可解釋性并不比人工神經(jīng)網(wǎng)絡(luò)好到哪里去,但同時(shí)人類(lèi)在學(xué)習(xí)和發(fā)展方面有諸多理論研究成果和實(shí)用技巧,不僅容易理解,也能切實(shí)起到幫助改善個(gè)人狀況、提升個(gè)人能力的作用。我們似乎可以說(shuō),為神經(jīng)網(wǎng)絡(luò)(不論人腦還是人工神經(jīng)網(wǎng)絡(luò))找到人類(lèi)可以理解的緊湊表達(dá)不僅不是唯一的目標(biāo),甚至它的作用也不如網(wǎng)絡(luò)架構(gòu)、學(xué)習(xí)規(guī)則、發(fā)展規(guī)律的研究的作用更大。
正如 Hinton 等人在 AlexNet 論文中,以及 DeepMind 在 AlphaGo 論文中展示的,一個(gè)人工神經(jīng)網(wǎng)絡(luò)可以被清晰地分成先天(原理)與后天(參數(shù))兩部分:為網(wǎng)絡(luò)提供任務(wù)和有關(guān)的數(shù)據(jù)源(供網(wǎng)絡(luò)從其中提取出絕大部分無(wú)法壓縮也難以描述的參數(shù)值),同時(shí)記錄下使用的網(wǎng)絡(luò)架構(gòu)(卷積網(wǎng)絡(luò) / 殘差網(wǎng)絡(luò))、損失函數(shù)(L2 / 交叉熵)、學(xué)習(xí)規(guī)則(SGD / Adam)、優(yōu)化手段(蒙特卡洛樹(shù)搜索)。后面的這四點(diǎn)可以簡(jiǎn)單且嚴(yán)謹(jǐn)?shù)乇磉_(dá)為人類(lèi)能夠理解的方程,而且可以指導(dǎo)我們開(kāi)發(fā)未來(lái)更多的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
在統(tǒng)計(jì)物理中,一團(tuán)氣體可以由溫度、壓強(qiáng)等不多的幾個(gè)變量描述,然后在這幾個(gè)變量基礎(chǔ)之上繼續(xù)進(jìn)行的預(yù)測(cè)和控制也都可以準(zhǔn)確地進(jìn)行。神經(jīng)科學(xué)研究中也傾向于相信人類(lèi)大腦中也存在這樣的描述方式。但氣體分子互相都是一樣的、可交換的、只有短期記憶,而人類(lèi)大腦中的細(xì)胞是各自具有獨(dú)特性、具有長(zhǎng)期記憶能力的(這也從另一個(gè)角度印證了上文提到的「難以被壓縮」)。所以,神經(jīng)科學(xué)研究中期待的這種描述方法很可能起到了誤導(dǎo)的作用。
總結(jié)
看起來(lái)可行的事情到了最后才證明此路不通,這樣的故事在歷史上反復(fù)重演。也許以后我們會(huì)發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)便于實(shí)驗(yàn)所以更容易理解,也有可能我們首先證明了人類(lèi)大腦的強(qiáng)模態(tài)性、近似線(xiàn)性和高噪聲特性;也有可能我們最終都無(wú)法完全理解任一種網(wǎng)絡(luò)。
目前熱門(mén)的研究大腦的方法已經(jīng)可以單獨(dú)研究其中的先天成分;從行為學(xué)的角度講,我們也可以提問(wèn)學(xué)習(xí)是如何改變了行動(dòng)的。當(dāng)我們研究表征的時(shí)候,我們可以研究是哪個(gè)損失函數(shù)、哪個(gè)網(wǎng)絡(luò)架構(gòu)、哪個(gè)學(xué)習(xí)特性可能導(dǎo)致了檢測(cè)到的表征的變化。當(dāng)我們嘗試研究大腦如何運(yùn)行而遇到困難的時(shí)候,我們完全可以研究大腦是如何學(xué)習(xí)運(yùn)行的。
閱讀原論文見(jiàn):https://arxiv.org/abs/1907.06374
PS:谷歌大腦研究員 Adam Gaier 和 David Ha 近期也對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和可解釋性做出了新的探索,他們嘗試避開(kāi)難以解釋的連接權(quán)重,直接創(chuàng)建具有可理解的結(jié)構(gòu)的網(wǎng)絡(luò)。這也是非常有趣的研究思路,詳細(xì)介紹請(qǐng)見(jiàn)《神經(jīng)網(wǎng)絡(luò)的氣宗與劍宗之爭(zhēng):先驗(yàn)強(qiáng)大的網(wǎng)絡(luò)甚至不需要訓(xùn)練》。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
評(píng)論