從任務角度分析深度學習硬件發(fā)展趨勢
從微小器件到海量數(shù)據(jù)中心,格外強勁的硬件將能為深度學習領域內(nèi)的一切提供助力。
本文引用地址:http://2s4d.com/article/201701/342412.htm2016 年 3 月份,谷歌 DeepMind 的計算機在多輪圍棋比賽中擊敗了世界圍棋冠軍李世乭。這一事件標志著人工智能領域內(nèi)的一個新里程碑。獲勝的 AlphaGo 借力于現(xiàn)在為大家所熟知的深度學習——一種人工神經(jīng)網(wǎng)絡;在這種神經(jīng)網(wǎng)絡里有很多計算處理層,可以用來自動尋找問題的解決方案。
那時候人們還不知道谷歌正在悄然開發(fā)為這一勝利提供助力的秘密武器——一種專用硬件,在谷歌用于擊敗世界冠軍李世石的計算機里已有這種特殊硬件。這種硬件被谷歌稱為張量處理單元(TPU/Tensor Processing Unit)。
谷歌的一位硬件工程師 Norm Jouppi 在這場圍棋大戰(zhàn)的兩個月后宣布了張量處理單元的存在,并解釋說谷歌的數(shù)據(jù)中心已經(jīng)使用這些新型加速器一年多了。谷歌還沒有公布這些集成板上到底有什么奧妙,但毫無疑問的是,這代表著加速深度學習計算上的一個日益流行的策略:使用專用集成電路(ASIC)。
來自深度學習軟件的收入很快就將超過十億美元(單位:十億美元;來源: Tractica)
企業(yè)(主要是微軟)追求的另一個戰(zhàn)術是使用現(xiàn)場可編程門陣列(FPGA),其有可重配置的優(yōu)勢,可以根據(jù)計算需求進行修改。而更常見的方法則是使用圖形處理單元(GPU),這種計算設備可以并行地同時執(zhí)行大量數(shù)學運算。最知名的 GPU 提供商英偉達(NVIDIA)近段時間以來的股價飛漲也正是得益于此。
事實上,GPU 在 2009 年的時候就已經(jīng)在驅(qū)動人工神經(jīng)網(wǎng)絡了,那時候斯坦大學的一些研究者證明這種硬件使得深度神經(jīng)網(wǎng)絡的訓練時間很適宜。
「今天所有人都在做深度學習,」斯坦福大學 Concurrent VLSI Architecture 研究組的領導者兼英偉達首席科學家 William Dally 說。他說這從他的角度來看是不足為奇的?!窯PU 幾乎和你想象的一樣美好?!?/p>
Dally 解釋說有三個獨立的領域需要考慮。第一是他所說的「數(shù)據(jù)中心中的訓練」。他認為任何深度學習系統(tǒng)的第一步都是:調(diào)節(jié)神經(jīng)元之間大約數(shù)百萬個連接以使網(wǎng)絡能夠完成分配給它的任務。
已被英特爾收購的公司 Nervana Systems 在這種任務的硬件開發(fā)上取得了領先。Nervana 計算機科學家 Scott Leishman 表示 Nervana Engine 是一款 ASIC 的深度學習加速器,其將在 2017 年初期到中期的時候投入生產(chǎn)。Leishman 指出另一個計算密集型任務——比特幣挖礦(bitcoin mining),就曾經(jīng)從 CPU 實現(xiàn)轉(zhuǎn)向 GPU,然后轉(zhuǎn)向 FPGA 并最終轉(zhuǎn)向了 ASIC,因為定制的硬件能夠?qū)崿F(xiàn)更優(yōu)的能量效率。他說:「我認為同樣的情況正在深度學習領域發(fā)生。」
Dally 說,深度學習硬件的第二個任務(大為異于第一個任務)是「數(shù)據(jù)中心中的推理」?!竿评?inference)」這個詞在這里的意思是:用于之前任務的已訓練的基于云的人工神經(jīng)網(wǎng)絡在同樣的任務上能進行持續(xù)運算。谷歌的神經(jīng)網(wǎng)絡每天都要執(zhí)行天文數(shù)字級別的推理計算,以幫助用戶分類圖片、翻譯語言和識別口語等等。盡管外界還不能百分之百確定,但可以推理谷歌的張量處理單元應該在為這些計算提供助力。
加滿油門:谷歌的 TPU 正在該公司的服務器里加速深度學習計算
訓練和推理常常需要運用不同的技能設置。通常對訓練的設置上,機器必須能夠?qū)嵤┚_度相對較高的計算,常使用 32 位的浮點計算。對于推理,則可以犧牲精確度以獲取更快的速度和更低的功耗?!高@是研究領域里一個很活躍的區(qū)域,」Leishman 說道?!改隳苓_到的最低限度是多少?」
雖然 Dally 謝絕泄露英偉達的特別計劃,但他指出英偉達的 GPU 正在完成升級。英偉達的早期版本——Maxwell 的架構能夠進行雙精度(64 位)和單精度(32 位)的計算,而目前的 Pascal 架構則增加了處理 16 位運算的能力,支持雙倍輸入且效率也是之前單精度計算的兩倍。所以不難想象英偉達最終將會推出能進行 8 位運算的 GPU,這樣的 GPU 將是在云端進行推理運算的理想硬件,因為對云端推理來說能源效率是控制成本的關鍵因素。
Dally 補充說:「三個支撐深度學習關鍵任務的最后一個任務就是在嵌入式設備里進行推理,」比如智能手機、相機和平板電腦。對于這些應用,關鍵是實現(xiàn)低能耗的專用集成電路(ASIC)。在即將來到的一年,深度學習軟件將會越來越多的實現(xiàn)手機端應用,比如目前已有的手機端應用——惡意軟件檢測以及圖片中的文字翻譯。
除此之外,無人機生產(chǎn)商大疆(DJI)已經(jīng)開始在其幽靈 4(Phantom 4)無人機中使用與專用集成電路的深度學習相類似的器件,大疆所使用的器件是一個由加州廠商 Movidius 制造的特殊視覺處理芯片,這個芯片用來識別障礙物。(Movidius 同時也是英特爾最近收購的另一家神經(jīng)網(wǎng)絡相關的公司)。與此同時高通(Qualcomm)在其 Snapdragon 820 處理器里放置了一個特殊的電路系統(tǒng)來更好地執(zhí)行深度學習運算。
雖然目前有很多因素促使硬件設計來加速深度神經(jīng)網(wǎng)絡的計算,但巨大的風險依然并存:如果神經(jīng)網(wǎng)絡的進步太快,所設計來運行過往的神經(jīng)網(wǎng)絡的芯片在出廠時就會過時。「算法正以非??斓乃俣雀淖?,」Dally 說?!杆袕氖聵嫿ㄟ@些硬件的人都在試圖贏得這場賭注?!?/p>
評論