本土AI模組及芯片發(fā)展動向
作者 / 王瑩 王金旺 《電子產(chǎn)品世界》編輯(北京 100036)
本文引用地址:http://2s4d.com/article/201803/377626.htm摘要:AI已成為國家戰(zhàn)略,激勵本土AI研發(fā)企業(yè)不斷探索。實際上,本土有一小批新銳公司,正面向特定領域推出模組或芯片。為此,本媒體特別采訪了國內(nèi)幾家有代表性企業(yè),介紹了其AI硬件及相關算法的最新進展。
AI芯片企業(yè)需加強軟硬件協(xié)同能力
目前市場上AI主要的商業(yè)應用場景有安防監(jiān)控、家居/消費電子和自動駕駛汽車。安防監(jiān)控以及消費電子市場已經(jīng)較為成熟,且國內(nèi)企業(yè)從產(chǎn)品能力到產(chǎn)業(yè)鏈整合能力均占據(jù)優(yōu)勢地位,是目前國內(nèi)人工智能企業(yè)展開競爭的主戰(zhàn)場。本土的汽車主機廠和零部件廠商較為弱勢,目前在無人駕駛領域的布局以互聯(lián)網(wǎng)等非傳統(tǒng)汽車產(chǎn)業(yè)鏈內(nèi)企業(yè)為主。針對不同的應用場景,國內(nèi)的主流AI企業(yè)已經(jīng)開始從算法與架構(gòu)的實現(xiàn)向提供特定應用場景系統(tǒng)解決方案發(fā)展并不斷向上游的ASIC芯片設計延伸。如地平線、深鑒科技等企業(yè)均已開始推出自己的芯片產(chǎn)品。
在對服務的安全性、實時性要求不高的應用領域,云端布局的人工智能服務將依然會是市場的主流。而在對服務的安全性、實時性、隱私性等要求較高的應用領域,前端部署已成為市場共識,未來市場空間非常巨大。
異構(gòu)算法要求更高的軟硬協(xié)同能力
一直以來,GPU、FPGA、ASIC三者就因其鮮明的特點分工在人工智能領域發(fā)揮著巨大的作用。GPU適合大規(guī)模并行運算,在訓練深度神經(jīng)網(wǎng)絡方面具有優(yōu)勢。FPGA具備可編程、高性能、低功耗、架構(gòu)靈活等特點,方便研究者進行模型優(yōu)化,一般被用作芯片原型設計和驗證,或是用在通信密集型和計算密集型場景中,諸如通信、軍工、汽車電子、消費及醫(yī)療等行業(yè)。ASIC將性能和功耗完美結(jié)合,具有體積小、功耗低、可靠性高、保密性強、成本低等幾方面的優(yōu)勢。
國內(nèi)人工智能企業(yè)在從單獨的架構(gòu)、算法構(gòu)建到行業(yè)應用系統(tǒng)解決方案提供的轉(zhuǎn)變過程中,通過異構(gòu)的方式解決優(yōu)化系統(tǒng)各部分的適配性已經(jīng)成為行業(yè)內(nèi)的共識。這一架構(gòu)和算法上的趨勢,將進一步提升軟件在人工智能系統(tǒng)中的地位,對公司的軟硬協(xié)同能力提出了更高的要求。
AI芯片設計要考慮終端需求
由于人工智能領域是新興事物,整個產(chǎn)業(yè)鏈還不完整,產(chǎn)業(yè)分工尚未形成,AI芯片企業(yè)必須提供從芯片/硬件、軟件SDK到應用的解決方案已基本成為業(yè)內(nèi)共識。
這一現(xiàn)狀要求每家AI芯片公司都成為一家軟件加系統(tǒng)公司,這樣才能在市場競爭中取得優(yōu)勢。比如,公司在芯片設計時候就需要考慮未來面對的終端用戶的需求,并通過將芯片集成到系統(tǒng)中,使其運行更加簡單。此外,應盡可能減少第三方協(xié)作以及為用戶提供更多的參考設計也是更好地服務下游用戶的方式之一。
AI芯片能力亟需提高,數(shù)據(jù)仍是AI核心
目前AI技術仍處于起步階段,監(jiān)督學習仍是主要的手段。AI的主流分支——深度學習技術也將隨著計算力的不斷提升,創(chuàng)造出更加智能的落地應用。
在兆芯看來,短期內(nèi),AI的發(fā)展趨勢有如下特點:
1)網(wǎng)絡的復雜度和訓練集的規(guī)模將會進一步提高,計算復雜度將達到一個新的高度;
2)帶label的數(shù)據(jù)將成為AI發(fā)展階段最有價值的資源;
3)傳統(tǒng)的AI是在設計好的網(wǎng)絡結(jié)構(gòu)下訓練未知參數(shù),而最新的方法利用GAN類似的機制,可以將網(wǎng)絡訓練成一個更高精度的全新網(wǎng)絡框架,而不需要設計者參與。這對于做框架算法的人也帶來了巨大的挑戰(zhàn)——他們該如何在這個重數(shù)據(jù)的AI時代突破重圍,將AI帶到更高的臺階;
4)CNN等網(wǎng)絡的安全性問題,例如pixel攻擊(通過干擾讓目標識別錯誤,或者認定為指定目標),這也對現(xiàn)有的應用安全落地帶來了極大的挑戰(zhàn)。因為在某些應用中安全性是致命的決定因素,如自動駕駛;
5)另外新興的網(wǎng)絡如capsule是否有機會替代現(xiàn)有CNN網(wǎng)絡,這些對于不能軟件編程的AI芯片來說也許是致命的。
AI芯片設計面臨速度、安全及兼容的挑戰(zhàn)
處理器技術決定互聯(lián)、智慧與傳統(tǒng)制造業(yè)的融合度,從而帶動產(chǎn)業(yè)鏈上下游企業(yè)競相入局。AI對處理器設計提出了更高的要求。如邊緣計算,AI設備需要高度集成、低功耗的專用解決方案,因此可以選擇將專用AI模塊集成到SoC內(nèi)部,并對SoC訪存系統(tǒng)進行優(yōu)化,滿足AI模塊的高帶寬需求,同時可以通過內(nèi)置硬件編解碼器,提升視頻的處理性能。在云端計算層面,可以選擇支持多PCIe 3.0接口,連接GPU或AI加速卡,構(gòu)建AI運算平臺。傳統(tǒng)行業(yè)設計人員可以復用部分原始軟件代碼,將智能功能調(diào)用AI完成,從而降低軟件的開發(fā)成本,并大幅縮短新產(chǎn)品設計周期。
而在AI芯片設計方面,具體有如下挑戰(zhàn):
1)網(wǎng)絡復雜度提高,意味著需要更高的計算能力。
2)由深度學習產(chǎn)生的非規(guī)則的網(wǎng)絡結(jié)構(gòu),雖然效果好,但是復雜的連接關系會令傳統(tǒng)ASIC AI芯片更加難以優(yōu)化加速。
3)安全性問題是AI最為敏感話題,也是新的網(wǎng)絡結(jié)構(gòu)的需求,或者說下一代的AI網(wǎng)絡結(jié)構(gòu)需要解決的問題。
4)新興網(wǎng)絡,如capsule,雖然解決了CNN網(wǎng)絡諸多問題,也引出了與現(xiàn)有硬件不太適應的問題。如何提好訓練效率,如何設計硬件讓其在可編程性和高效之間達到一個平衡點,來滿足不斷演進的算法需求,是芯片設計商的設計原則。
x86+外接AI PCIe加速卡及AI計算芯片
面對AI需求的迅速崛起,兆芯正在思考如何對這些產(chǎn)品形態(tài)進行智能升級,通過x86+外接AI PCIe加速卡的方式構(gòu)建運算平臺加速應用落地。
與此同時,兆芯已經(jīng)利用自己GPU技術的獨特優(yōu)勢,設計了全新的AI計算芯片:
1)基于兆芯GPU的AI硬件加速框架很好的解決了多計算單元的并行性管理和可擴展性問題,以及軟件生態(tài)的兼容性問題,支持OpenCL、CUDA等GPGPU API;
2)獨有專用加速器在能效比和可編程性之間做了很好的折中;
3)新型壓縮技術大幅降低了芯片的帶寬需求,從而有效地提高了計算單元和加速器利用率。
總之,對于AI來講,目前仍處于一個開始的階段,數(shù)據(jù)仍是整個AI的核心,硬件和軟件架構(gòu)都在不斷地相互變化中,每一次硬件變革都會帶來軟件變化,軟件變化、工藝變化又會促進硬件的進一步改良。對于兆芯來講,我們一方面會不斷演進加速器設計,讓其更好地加速主流算法,同時會保留足夠通用編程靈活性,給新的算法創(chuàng)造好的并行計算環(huán)境,也為國內(nèi)AI高端芯片自主可控發(fā)展貢獻力量。
華夏芯全新架構(gòu)的人工智能專用處理器內(nèi)核
安防領域一直被認為是人工智能最先落地的行業(yè),智能駕駛正在成為另一個高速發(fā)展以及炙手可熱的人工智能的典型應用場景。以智能駕駛和智能安防為例,“云邊結(jié)合”正逐步取代“中心分析”成為AI應用發(fā)展的趨勢。針對不同人工智能應用場景的AI終端芯片有望在今后數(shù)年內(nèi)成為芯片廠商的主戰(zhàn)場。云端的計算需求主要是支持海量數(shù)據(jù)下的計算開銷。因此,由超級性能的CPU、GPU、FPGA、專用加速器組成的超高計算性能的芯片組成為主要的芯片平臺。在云端芯片市場,Intel 約占71%、英偉達約占16%的市場。而終端側(cè)的計算需求更多的是要考慮有限功耗下的系統(tǒng)開銷。因此,高性能、低功耗的CPU、GPU、DSP、專用芯片組成的高集成度的SoC芯片成為首選。在這一市場,Intel、英偉達并無優(yōu)勢,相反,Arm、Ceva、華夏芯這樣的公司有優(yōu)勢。面對這一趨勢,華夏芯公司立足于為其客戶的芯片定制提供包括CPU、DSP和人工智能在內(nèi)的系列內(nèi)核和完整解決方案。
華夏芯公司新年伊始正式向業(yè)界公開了其全新架構(gòu)的嵌入式人工智能專用處理器的內(nèi)核方案。作為少數(shù)具備全系列處理器內(nèi)核設計能力的高科技企業(yè),華夏芯公司之前已經(jīng)陸續(xù)發(fā)布了其自主設計的64位體系的CPU(Central Processing Unit)和DSP(Digital Signal Processor )內(nèi)核方案,首次在嵌入式處理器領域引入了可變長矢量處理(Variable Length Vector,VLV)技術。因此,本次針對人工智能專用處理器內(nèi)核方案的公開發(fā)布,進一步展露了華夏芯在人工智能領域的龐大戰(zhàn)略,即華夏芯公司立足于為其客戶的芯片定制提供完整的包括CPU、DSP和人工智能在內(nèi)的系列內(nèi)核,并希望在芯片整體性能、功耗、成本、編程、生態(tài)和開發(fā)周期方面占據(jù)領先的位置。
此次,華夏芯公司推出的人工智能專用處理器內(nèi)核方案,預計2018年下半年第一款全部采用華夏芯CPU/DSP/人工智能處理器內(nèi)核的量產(chǎn)芯片開始下線,進入市場。
完全卷積神經(jīng)網(wǎng)絡IP——DPU “聽濤”系列 SoC
算法、數(shù)據(jù)和算力并稱為新AI時代三大驅(qū)動力。如何在追求更好性能的同時實現(xiàn)低功耗、低延遲和低成本,逐漸成為擺在所有AI從業(yè)者面前的艱巨挑戰(zhàn)之一。
很多硬件平臺都展示了自身所具備的強大算力,然而當用戶在真正運行一個應用時,卻發(fā)現(xiàn)在讀取數(shù)據(jù)時會產(chǎn)生比較明顯的卡頓現(xiàn)象。這表明,即便用戶在掌握大量數(shù)據(jù)的前提下,依然不能將AI運算單元填滿,從而導致計算硬件的計算效力低下。以谷歌第一代TPU為例,其平均硬件乘法陣列使用率只有28%,這意味著72%的硬件在大部分時間內(nèi)是沒有任何事情可以做的。
另外,如果將完成16位整數(shù)加法能量消耗定義為1,那么將32比特的數(shù)據(jù)從DDR內(nèi)存?zhèn)鬏數(shù)叫酒?,就將花費1萬倍的能量消耗。因此,過大的訪問帶寬增加了數(shù)據(jù)的復用性,導致AI芯片功耗高居不下。
而要提升計算效率、降低功耗,總結(jié)起來有三條路徑:首先,優(yōu)化計算引擎,增加計算并行度;其次,優(yōu)化訪存系統(tǒng);第三,利用神經(jīng)網(wǎng)絡稀疏性,實現(xiàn)軟硬件協(xié)同設計。這樣的產(chǎn)品規(guī)劃路線能走得通的一個關鍵因素,就在于用戶在未來的ASIC芯片和之前的FPGA模組上使用的是同樣的編程和軟件開發(fā)環(huán)境,能實現(xiàn)在應用上的無縫切換。
DPU “聽濤”系列 SoC
深鑒科技正式發(fā)布基于自主研發(fā)的人工智能處理器核心DPU 的“聽濤”系列 SoC。該DPU屬于完全卷積神經(jīng)網(wǎng)絡IP,支持傳統(tǒng)的1X1和3X3卷積層,能夠?qū)崿F(xiàn)高效的目標識別和加速。在該架構(gòu)基礎之上,深鑒科技做出了第一代5X5 FPGA產(chǎn)品,并在攝像頭市場實現(xiàn)了批量出貨。
DPU計算核心采用全流水設計結(jié)構(gòu)設計,內(nèi)部集成了大量的卷積運算器、加法器、非線性Pulling/ReLu之類的運算算子,在確保每一個運算單元都能夠被充分的調(diào)動起來的前提下,可同時支持不同動態(tài)精度的量化方法。像VGG16比較重的應用中,深鑒科技DPU的運算器利用率可以達到85%,對主流算法可以達到50%以上,功耗方面則低出競爭對手一個數(shù)量級。
相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力,將于年中交付的“聽濤”SoC產(chǎn)品的預期功耗約為3 W,峰值算力4 TOPS,考慮到網(wǎng)絡壓縮部分,這個數(shù)字應該再擴大5~10倍。
參考文獻:
[1]胡郁.人工智能與語音識別技術[J].電子產(chǎn)品世界,2016(4):23-25.
[2]王瑩.“CPU+”異構(gòu)計算時代,華夏芯通過HSA搶占高地[J].電子產(chǎn)品世界,2016(9):15-17.
[3]陳俊穎,周順風,閔華清.基于CAPI FPGA的醫(yī)學超聲成像算法異構(gòu)加速[J].電子產(chǎn)品世界,2016(10):41-44.
[4]王瑩,王金旺.異構(gòu)計算帶來AI視覺新突破[J].電子產(chǎn)品世界,2017(7):28-29.
本文來源于《電子產(chǎn)品世界》2018年第4期第22頁,歡迎您寫論文時引用,并注明出處。
評論