“深度學(xué)習(xí)”:人工神經(jīng)回路大顯威力
最近1~2年,有一項(xiàng)技術(shù)受到了全世界人工智能研究人員的密切關(guān)注。這種新方法名叫“深度學(xué)習(xí)”,是一種讓計(jì)算機(jī)像人類一樣根據(jù)經(jīng)驗(yàn)采取行動(dòng)的機(jī)器學(xué)習(xí)方式。
支撐互聯(lián)網(wǎng)社會(huì)的圖像識(shí)別和語(yǔ)音識(shí)別、有助于新藥開(kāi)發(fā)的化合物活性預(yù)測(cè)——在此類技術(shù)角逐精度的大賽上,深度學(xué)習(xí)大幅改寫過(guò)去的紀(jì)錄,一次又一次贏得了勝利。
“真不相信精度能得到如此飛躍”,“結(jié)果太震撼了”。專家的驚嘆之聲不絕于耳。
深度學(xué)習(xí)是由在計(jì)算機(jī)上模擬人類神經(jīng)回路的“神經(jīng)元網(wǎng)絡(luò)”技術(shù)發(fā)展而來(lái)。
![]() |
![]() |
人腦在根據(jù)圖像判斷圖上物品的種類、根據(jù)手頭信息預(yù)測(cè)未來(lái)上面擁有優(yōu)秀的能力。
神經(jīng)元網(wǎng)絡(luò)是在計(jì)算機(jī)上把虛擬的神經(jīng)元排列成層狀,模擬真正的神經(jīng)細(xì)胞之間的電信號(hào)。借此實(shí)現(xiàn)大腦從各式各樣的數(shù)據(jù)中提取本質(zhì)概念的功能。
深度學(xué)習(xí)的目的是把神經(jīng)元“深化”到4層、5層,實(shí)現(xiàn)接近于大腦的性能。
神經(jīng)元網(wǎng)絡(luò)研究的歷史悠久,可以追溯到1950年代。但是,由于增加神經(jīng)元的層數(shù)后,會(huì)出現(xiàn)性能降低等問(wèn)題,因此,研究一直處于興盛與衰退的反復(fù)交替過(guò)程。
然而,到了2000年代中期,美國(guó)的研究人員開(kāi)發(fā)出了攻克這一課題的計(jì)算技術(shù)。再加上能夠處理大數(shù)據(jù)的計(jì)算機(jī)的進(jìn)步,深度學(xué)習(xí)的研究拉開(kāi)了序幕。
2012年6月,美國(guó)谷歌與美國(guó)斯坦福大學(xué)合作發(fā)表的成果成為了讓世界了解深度學(xué)習(xí)威力的開(kāi)端。
谷歌把取自視頻網(wǎng)站“YouTube”的大量圖像輸入到了神經(jīng)元網(wǎng)絡(luò)之中。結(jié)果,在沒(méi)有教授任何知識(shí)的情況下,計(jì)算機(jī)自然產(chǎn)生了“貓”的概念。
識(shí)別精度提高7成
谷歌的研究員杰夫·迪恩(Jeff Dean)解釋說(shuō):“我們的研究就像是給剛出生的嬰兒看大量的YouTube圖像?!毕旅?,筆者就以該公司的研究為例,解釋一下深度學(xué)習(xí)的原理。
谷歌在計(jì)算機(jī)上制作了深達(dá)9層的神經(jīng)元。第1層是“輸入層”,第2~8層是“隱藏層”,第9層是“輸出層”。
輸入層的神經(jīng)元從輸入圖像上讀取各像素的值,把信號(hào)傳導(dǎo)至第2層的各個(gè)神經(jīng)元。第2層的神經(jīng)元根據(jù)某種規(guī)則,對(duì)第1層傳導(dǎo)來(lái)的信號(hào)進(jìn)行轉(zhuǎn)換,然后輸出到第3層。在第3層到輸出層之間,輸出信號(hào)按照同樣的步驟,逐層向下傳遞。
重點(diǎn)是在輸入每一幅圖像時(shí),各神經(jīng)元的連接方式都會(huì)發(fā)生細(xì)微的改變。向神經(jīng)元網(wǎng)絡(luò)輸入圖像后,各神經(jīng)元在接收信號(hào),進(jìn)行轉(zhuǎn)換之時(shí),相關(guān)的參數(shù)將得到調(diào)整,使整體的信號(hào)傳導(dǎo)方式發(fā)生改變。也就是網(wǎng)絡(luò)慢慢得到“訓(xùn)練”。
在谷歌的研究之中,參數(shù)約為10億個(gè),數(shù)量相當(dāng)龐大。該公司向如此巨大的網(wǎng)絡(luò)輸入了從1000萬(wàn)個(gè)YouTube視頻中截取的圖像。通過(guò)1.6萬(wàn)個(gè)CPU(中央運(yùn)算處理裝置)并用的大規(guī)模計(jì)算,耗費(fèi)1周時(shí)間實(shí)施了訓(xùn)練。
訓(xùn)練結(jié)束后,神經(jīng)元網(wǎng)絡(luò)的內(nèi)部形成了不可思議的構(gòu)造。各神經(jīng)元會(huì)分別對(duì)不同的特定種類輸入信號(hào)做出特別強(qiáng)烈的反應(yīng)(放電)。
這與人腦內(nèi)的神經(jīng)細(xì)胞對(duì)人的相貌、物體等特定物體和概念做出反應(yīng)并放電的原理相同。也就是說(shuō),人通過(guò)學(xué)習(xí)和經(jīng)驗(yàn)形成的神經(jīng)回路構(gòu)造在計(jì)算機(jī)中得到了重現(xiàn)。
各神經(jīng)元識(shí)別的對(duì)象因?qū)拥纳疃榷???拷斎雽拥牡?層的神經(jīng)元對(duì)圖像中的邊緣、彎曲等單純的形狀和概念做出反應(yīng)。隨著向第3層、第4層的不斷深入,神經(jīng)元捕捉的概念將愈發(fā)高深、抽象。在輸入動(dòng)物面部的圖像時(shí),這些層負(fù)責(zé)識(shí)別眼睛、耳朵等構(gòu)造,以及面部整體。
根據(jù)谷歌的研究,位于最后的輸出層的1個(gè)神經(jīng)元已經(jīng)可以自然地識(shí)別出貓臉。在看到包含貓臉的圖像后,這個(gè)神經(jīng)元的反應(yīng)最為強(qiáng)烈。
當(dāng)然,可以識(shí)別的并不只是貓。人、汽車、長(zhǎng)頸鹿等各種事物都可以進(jìn)行識(shí)別。包括人類難以區(qū)分的鰩和蝠鲼在內(nèi),在對(duì)大約2萬(wàn)個(gè)種類進(jìn)行識(shí)別精度調(diào)查后,結(jié)果顯示,識(shí)別率達(dá)到了16%,比過(guò)去的最高紀(jì)錄高出了約7成。
谷歌已經(jīng)把深度學(xué)習(xí)的技術(shù)運(yùn)用到了該公司的語(yǔ)音識(shí)別服務(wù)之中。今后還考慮在圖像識(shí)別和視頻搜索等用途投入實(shí)用。谷歌的迪恩充滿期待地表示,“計(jì)算機(jī)與人類的新式人機(jī)對(duì)話將成為可能”。
深度學(xué)習(xí)的目的是把神經(jīng)元“深化”到4層、5層,實(shí)現(xiàn)接近于大腦的性能。
神經(jīng)元網(wǎng)絡(luò)研究的歷史悠久,可以追溯到1950年代。但是,由于增加神經(jīng)元的層數(shù)后,會(huì)出現(xiàn)性能降低等問(wèn)題,因此,研究一直處于興盛與衰退的反復(fù)交替過(guò)程。
然而,到了2000年代中期,美國(guó)的研究人員開(kāi)發(fā)出了攻克這一課題的計(jì)算技術(shù)。再加上能夠處理大數(shù)據(jù)的計(jì)算機(jī)的進(jìn)步,深度學(xué)習(xí)的研究拉開(kāi)了序幕。
2012年6月,美國(guó)谷歌與美國(guó)斯坦福大學(xué)合作發(fā)表的成果成為了讓世界了解深度學(xué)習(xí)威力的開(kāi)端。
谷歌把取自視頻網(wǎng)站“YouTube”的大量圖像輸入到了神經(jīng)元網(wǎng)絡(luò)之中。結(jié)果,在沒(méi)有教授任何知識(shí)的情況下,計(jì)算機(jī)自然產(chǎn)生了“貓”的概念。
識(shí)別精度提高7成
谷歌的研究員杰夫·迪恩(Jeff Dean)解釋說(shuō):“我們的研究就像是給剛出生的嬰兒看大量的YouTube圖像?!毕旅?,筆者就以該公司的研究為例,解釋一下深度學(xué)習(xí)的原理。
谷歌在計(jì)算機(jī)上制作了深達(dá)9層的神經(jīng)元。第1層是“輸入層”,第2~8層是“隱藏層”,第9層是“輸出層”。
輸入層的神經(jīng)元從輸入圖像上讀取各像素的值,把信號(hào)傳導(dǎo)至第2層的各個(gè)神經(jīng)元。第2層的神經(jīng)元根據(jù)某種規(guī)則,對(duì)第1層傳導(dǎo)來(lái)的信號(hào)進(jìn)行轉(zhuǎn)換,然后輸出到第3層。在第3層到輸出層之間,輸出信號(hào)按照同樣的步驟,逐層向下傳遞。
重點(diǎn)是在輸入每一幅圖像時(shí),各神經(jīng)元的連接方式都會(huì)發(fā)生細(xì)微的改變。向神經(jīng)元網(wǎng)絡(luò)輸入圖像后,各神經(jīng)元在接收信號(hào),進(jìn)行轉(zhuǎn)換之時(shí),相關(guān)的參數(shù)將得到調(diào)整,使整體的信號(hào)傳導(dǎo)方式發(fā)生改變。也就是網(wǎng)絡(luò)慢慢得到“訓(xùn)練”。
在谷歌的研究之中,參數(shù)約為10億個(gè),數(shù)量相當(dāng)龐大。該公司向如此巨大的網(wǎng)絡(luò)輸入了從1000萬(wàn)個(gè)YouTube視頻中截取的圖像。通過(guò)1.6萬(wàn)個(gè)CPU(中央運(yùn)算處理裝置)并用的大規(guī)模計(jì)算,耗費(fèi)1周時(shí)間實(shí)施了訓(xùn)練。
訓(xùn)練結(jié)束后,神經(jīng)元網(wǎng)絡(luò)的內(nèi)部形成了不可思議的構(gòu)造。各神經(jīng)元會(huì)分別對(duì)不同的特定種類輸入信號(hào)做出特別強(qiáng)烈的反應(yīng)(放電)。
這與人腦內(nèi)的神經(jīng)細(xì)胞對(duì)人的相貌、物體等特定物體和概念做出反應(yīng)并放電的原理相同。也就是說(shuō),人通過(guò)學(xué)習(xí)和經(jīng)驗(yàn)形成的神經(jīng)回路構(gòu)造在計(jì)算機(jī)中得到了重現(xiàn)。
各神經(jīng)元識(shí)別的對(duì)象因?qū)拥纳疃榷???拷斎雽拥牡?層的神經(jīng)元對(duì)圖像中的邊緣、彎曲等單純的形狀和概念做出反應(yīng)。隨著向第3層、第4層的不斷深入,神經(jīng)元捕捉的概念將愈發(fā)高深、抽象。在輸入動(dòng)物面部的圖像時(shí),這些層負(fù)責(zé)識(shí)別眼睛、耳朵等構(gòu)造,以及面部整體。
根據(jù)谷歌的研究,位于最后的輸出層的1個(gè)神經(jīng)元已經(jīng)可以自然地識(shí)別出貓臉。在看到包含貓臉的圖像后,這個(gè)神經(jīng)元的反應(yīng)最為強(qiáng)烈。
![]() |
在美國(guó)谷歌的研究中,讓識(shí)別貓的神經(jīng)元做出了最強(qiáng)反應(yīng)的貓的頭像 |
當(dāng)然,可以識(shí)別的并不只是貓。人、汽車、長(zhǎng)頸鹿等各種事物都可以進(jìn)行識(shí)別。包括人類難以區(qū)分的鰩和蝠鲼在內(nèi),在對(duì)大約2萬(wàn)個(gè)種類進(jìn)行識(shí)別精度調(diào)查后,結(jié)果顯示,識(shí)別率達(dá)到了16%,比過(guò)去的最高紀(jì)錄高出了約7成。
谷歌已經(jīng)把深度學(xué)習(xí)的技術(shù)運(yùn)用到了該公司的語(yǔ)音識(shí)別服務(wù)之中。今后還考慮在圖像識(shí)別和視頻搜索等用途投入實(shí)用。谷歌的迪恩充滿期待地表示,“計(jì)算機(jī)與人類的新式人機(jī)對(duì)話將成為可能”。
超越人類的未來(lái)預(yù)測(cè)
人腦包含著數(shù)以千億計(jì)的神經(jīng)細(xì)胞。今后,隨著深度學(xué)習(xí)的規(guī)模和精度的提升,計(jì)算機(jī)將能夠達(dá)到人腦的什么程度呢?
東京大學(xué)研究生院工學(xué)系研究科副教授松尾豐指出,“人腦最大的優(yōu)勢(shì)在于擅長(zhǎng)預(yù)測(cè)和推測(cè)。通過(guò)使用深度學(xué)習(xí),對(duì)于未來(lái)的高精度預(yù)測(cè)或許將成為現(xiàn)實(shí)”。
人類擁有優(yōu)秀的預(yù)測(cè)能力,能夠根據(jù)物體的外觀,判斷其能否食用,或是根據(jù)與某人相關(guān)的知識(shí),預(yù)測(cè)此人的年收入。如果把這些特征與計(jì)算機(jī)的處理性能相結(jié)合,超越人類的高精度未來(lái)預(yù)測(cè)將開(kāi)辟一條嶄新的道路。
松尾副教授等人目前正在研究根據(jù)微博客“Twitter”上的發(fā)言內(nèi)容,來(lái)提高推測(cè)發(fā)言者性格的精度。今后還打算使用超級(jí)計(jì)算機(jī)等設(shè)備,把深度學(xué)習(xí)運(yùn)用于未來(lái)經(jīng)濟(jì)的預(yù)測(cè)。
深度學(xué)習(xí)不同于傳統(tǒng)技術(shù),輸入的數(shù)據(jù)無(wú)需事先進(jìn)行人工篩選。因此,只需輸入報(bào)紙刊登的企業(yè)財(cái)務(wù)數(shù)據(jù)、各種各樣的市場(chǎng)數(shù)據(jù)、互聯(lián)網(wǎng)的經(jīng)濟(jì)信息等雜亂的信息,就有望實(shí)現(xiàn)準(zhǔn)確的經(jīng)濟(jì)預(yù)測(cè)。
真實(shí)的大腦中存在著功能各異的多個(gè)部位,在這些部位之間,電信號(hào)的交換非常復(fù)雜。深度學(xué)習(xí)目前還不能完全重現(xiàn)。
但日本產(chǎn)業(yè)技術(shù)綜合研究所智能系統(tǒng)研究部門的高級(jí)主任研究員麻生英樹(shù)說(shuō):“開(kāi)發(fā)像人腦一樣提取數(shù)據(jù)內(nèi)在本質(zhì)概念的技術(shù)非常重要?!倍?,這種技術(shù)的應(yīng)用領(lǐng)域也十分廣泛,所以深度學(xué)習(xí)的研究熱度估計(jì)還會(huì)持續(xù)下去。
人腦包含著數(shù)以千億計(jì)的神經(jīng)細(xì)胞。今后,隨著深度學(xué)習(xí)的規(guī)模和精度的提升,計(jì)算機(jī)將能夠達(dá)到人腦的什么程度呢?
![]() |
東京大學(xué)研究生院工學(xué)系研究科副教授松尾豐指出,“人腦最大的優(yōu)勢(shì)在于擅長(zhǎng)預(yù)測(cè)和推測(cè)。通過(guò)使用深度學(xué)習(xí),對(duì)于未來(lái)的高精度預(yù)測(cè)或許將成為現(xiàn)實(shí)”。
人類擁有優(yōu)秀的預(yù)測(cè)能力,能夠根據(jù)物體的外觀,判斷其能否食用,或是根據(jù)與某人相關(guān)的知識(shí),預(yù)測(cè)此人的年收入。如果把這些特征與計(jì)算機(jī)的處理性能相結(jié)合,超越人類的高精度未來(lái)預(yù)測(cè)將開(kāi)辟一條嶄新的道路。
松尾副教授等人目前正在研究根據(jù)微博客“Twitter”上的發(fā)言內(nèi)容,來(lái)提高推測(cè)發(fā)言者性格的精度。今后還打算使用超級(jí)計(jì)算機(jī)等設(shè)備,把深度學(xué)習(xí)運(yùn)用于未來(lái)經(jīng)濟(jì)的預(yù)測(cè)。
深度學(xué)習(xí)不同于傳統(tǒng)技術(shù),輸入的數(shù)據(jù)無(wú)需事先進(jìn)行人工篩選。因此,只需輸入報(bào)紙刊登的企業(yè)財(cái)務(wù)數(shù)據(jù)、各種各樣的市場(chǎng)數(shù)據(jù)、互聯(lián)網(wǎng)的經(jīng)濟(jì)信息等雜亂的信息,就有望實(shí)現(xiàn)準(zhǔn)確的經(jīng)濟(jì)預(yù)測(cè)。
真實(shí)的大腦中存在著功能各異的多個(gè)部位,在這些部位之間,電信號(hào)的交換非常復(fù)雜。深度學(xué)習(xí)目前還不能完全重現(xiàn)。
但日本產(chǎn)業(yè)技術(shù)綜合研究所智能系統(tǒng)研究部門的高級(jí)主任研究員麻生英樹(shù)說(shuō):“開(kāi)發(fā)像人腦一樣提取數(shù)據(jù)內(nèi)在本質(zhì)概念的技術(shù)非常重要?!倍?,這種技術(shù)的應(yīng)用領(lǐng)域也十分廣泛,所以深度學(xué)習(xí)的研究熱度估計(jì)還會(huì)持續(xù)下去。
評(píng)論