“深度學習”：人工神經(jīng)回路大顯威力

作者：時間：2013-05-06 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

人稱“深度學習”的人工智能技術如今備受關注。為了大幅提升圖像、語音的識別精度，美國谷歌等公司正在進行研究。這項技術還有望在經(jīng)濟動向預測、新藥開發(fā)等領域發(fā)揮威力。

最近1～2年，有一項技術受到了全世界人工智能研究人員的密切關注。這種新方法名叫“深度學習”，是一種讓計算機像人類一樣根據(jù)經(jīng)驗采取行動的機器學習方式。

支撐互聯(lián)網(wǎng)社會的圖像識別和語音識別、有助于新藥開發(fā)的化合物活性預測——在此類技術角逐精度的大賽上，深度學習大幅改寫過去的紀錄，一次又一次贏得了勝利。

“真不相信精度能得到如此飛躍”，“結果太震撼了”。專家的驚嘆之聲不絕于耳。

深度學習是由在計算機上模擬人類神經(jīng)回路的“神經(jīng)元網(wǎng)絡”技術發(fā)展而來。

人腦在根據(jù)圖像判斷圖上物品的種類、根據(jù)手頭信息預測未來上面擁有優(yōu)秀的能力。

神經(jīng)元網(wǎng)絡是在計算機上把虛擬的神經(jīng)元排列成層狀，模擬真正的神經(jīng)細胞之間的電信號。借此實現(xiàn)大腦從各式各樣的數(shù)據(jù)中提取本質概念的功能。

深度學習的目的是把神經(jīng)元“深化”到4層、5層，實現(xiàn)接近于大腦的性能。

神經(jīng)元網(wǎng)絡研究的歷史悠久，可以追溯到1950年代。但是，由于增加神經(jīng)元的層數(shù)后，會出現(xiàn)性能降低等問題，因此，研究一直處于興盛與衰退的反復交替過程。

然而，到了2000年代中期，美國的研究人員開發(fā)出了攻克這一課題的計算技術。再加上能夠處理大數(shù)據(jù)的計算機的進步，深度學習的研究拉開了序幕。

2012年6月，美國谷歌與美國斯坦福大學合作發(fā)表的成果成為了讓世界了解深度學習威力的開端。

谷歌把取自視頻網(wǎng)站“YouTube”的大量圖像輸入到了神經(jīng)元網(wǎng)絡之中。結果，在沒有教授任何知識的情況下，計算機自然產(chǎn)生了“貓”的概念。

識別精度提高7成

谷歌的研究員杰夫·迪恩（Jeff Dean）解釋說：“我們的研究就像是給剛出生的嬰兒看大量的YouTube圖像?！毕旅妫P者就以該公司的研究為例，解釋一下深度學習的原理。

谷歌在計算機上制作了深達9層的神經(jīng)元。第1層是“輸入層”，第2～8層是“隱藏層”，第9層是“輸出層”。

輸入層的神經(jīng)元從輸入圖像上讀取各像素的值，把信號傳導至第2層的各個神經(jīng)元。第2層的神經(jīng)元根據(jù)某種規(guī)則，對第1層傳導來的信號進行轉換，然后輸出到第3層。在第3層到輸出層之間，輸出信號按照同樣的步驟，逐層向下傳遞。

重點是在輸入每一幅圖像時，各神經(jīng)元的連接方式都會發(fā)生細微的改變。向神經(jīng)元網(wǎng)絡輸入圖像后，各神經(jīng)元在接收信號，進行轉換之時，相關的參數(shù)將得到調整，使整體的信號傳導方式發(fā)生改變。也就是網(wǎng)絡慢慢得到“訓練”。

在谷歌的研究之中，參數(shù)約為10億個，數(shù)量相當龐大。該公司向如此巨大的網(wǎng)絡輸入了從1000萬個YouTube視頻中截取的圖像。通過1.6萬個CPU（中央運算處理裝置）并用的大規(guī)模計算，耗費1周時間實施了訓練。

訓練結束后，神經(jīng)元網(wǎng)絡的內(nèi)部形成了不可思議的構造。各神經(jīng)元會分別對不同的特定種類輸入信號做出特別強烈的反應（放電）。

這與人腦內(nèi)的神經(jīng)細胞對人的相貌、物體等特定物體和概念做出反應并放電的原理相同。也就是說，人通過學習和經(jīng)驗形成的神經(jīng)回路構造在計算機中得到了重現(xiàn)。

各神經(jīng)元識別的對象因層的深度而異。靠近輸入層的第2層的神經(jīng)元對圖像中的邊緣、彎曲等單純的形狀和概念做出反應。隨著向第3層、第4層的不斷深入，神經(jīng)元捕捉的概念將愈發(fā)高深、抽象。在輸入動物面部的圖像時，這些層負責識別眼睛、耳朵等構造，以及面部整體。

根據(jù)谷歌的研究，位于最后的輸出層的1個神經(jīng)元已經(jīng)可以自然地識別出貓臉。在看到包含貓臉的圖像后，這個神經(jīng)元的反應最為強烈。

在美國谷歌的研究中，讓識別貓的神經(jīng)元做出了最強反應的貓的頭像

當然，可以識別的并不只是貓。人、汽車、長頸鹿等各種事物都可以進行識別。包括人類難以區(qū)分的鰩和蝠鲼在內(nèi)，在對大約2萬個種類進行識別精度調查后，結果顯示，識別率達到了16％，比過去的最高紀錄高出了約7成。

谷歌已經(jīng)把深度學習的技術運用到了該公司的語音識別服務之中。今后還考慮在圖像識別和視頻搜索等用途投入實用。谷歌的迪恩充滿期待地表示，“計算機與人類的新式人機對話將成為可能”。

超越人類的未來預測

人腦包含著數(shù)以千億計的神經(jīng)細胞。今后，隨著深度學習的規(guī)模和精度的提升，計算機將能夠達到人腦的什么程度呢？

東京大學研究生院工學系研究科副教授松尾豐指出，“人腦最大的優(yōu)勢在于擅長預測和推測。通過使用深度學習，對于未來的高精度預測或許將成為現(xiàn)實”。

人類擁有優(yōu)秀的預測能力，能夠根據(jù)物體的外觀，判斷其能否食用，或是根據(jù)與某人相關的知識，預測此人的年收入。如果把這些特征與計算機的處理性能相結合，超越人類的高精度未來預測將開辟一條嶄新的道路。

松尾副教授等人目前正在研究根據(jù)微博客“Twitter”上的發(fā)言內(nèi)容，來提高推測發(fā)言者性格的精度。今后還打算使用超級計算機等設備，把深度學習運用于未來經(jīng)濟的預測。

深度學習不同于傳統(tǒng)技術，輸入的數(shù)據(jù)無需事先進行人工篩選。因此，只需輸入報紙刊登的企業(yè)財務數(shù)據(jù)、各種各樣的市場數(shù)據(jù)、互聯(lián)網(wǎng)的經(jīng)濟信息等雜亂的信息，就有望實現(xiàn)準確的經(jīng)濟預測。

真實的大腦中存在著功能各異的多個部位，在這些部位之間，電信號的交換非常復雜。深度學習目前還不能完全重現(xiàn)。

但日本產(chǎn)業(yè)技術綜合研究所智能系統(tǒng)研究部門的高級主任研究員麻生英樹說：“開發(fā)像人腦一樣提取數(shù)據(jù)內(nèi)在本質概念的技術非常重要?！倍遥@種技術的應用領域也十分廣泛，所以深度學習的研究熱度估計還會持續(xù)下去。

新聞中心

“深度學習”：人工神經(jīng)回路大顯威力

評論

相關推薦

技術專區(qū)