AI芯片發(fā)展現(xiàn)狀及前景分析
1. AI芯片定義及技術(shù)架構(gòu)
1.1 AI芯片定義
廣義上所有面向AI應(yīng)用的芯片都可以稱為AI芯片。目前一般認(rèn)為是針對AI算法做了特殊加速設(shè)計的芯片?,F(xiàn)階段,這些人工智能算法一般以深度學(xué)習(xí)算法為主,也可以包括其他淺層機(jī)器學(xué)習(xí)算法[7-8]。
1.2 AI芯片功能
(1)訓(xùn)練。對大量的數(shù)據(jù)在平臺上進(jìn)行學(xué)習(xí),并形成具備特定功能的神經(jīng)網(wǎng)絡(luò)模型。對AI芯片有高算力、高容量和訪問速率、高傳輸速率、通用性的要求。
(2)推理。利用已經(jīng)訓(xùn)練好的模型通過計算對輸入的數(shù)據(jù)得到各種結(jié)論。對于 AI芯片主要注重算力功耗比、時延、價格成本的綜合能力。實(shí)驗證明低精度運(yùn)算(如float16,int8)可達(dá)到幾乎和float32同等的推理效果,所以AI推理芯片有低精度算力的要求。
1.3 技術(shù)架構(gòu)
2. AI芯片應(yīng)用場景
用于云端訓(xùn)練和推理,目前大多數(shù)的訓(xùn)練工作都在云端完成[9]。移動互聯(lián)網(wǎng)的視頻內(nèi)容審核、個性化推薦等都是典型的云端推理應(yīng)用。Nvidia GPU在訓(xùn)練方面一家獨(dú)大,在推理方面也保持領(lǐng)軍位置。FPGA和ASIC因為低功耗、低成本的優(yōu)勢,在持續(xù)搶奪GPU的市場的份額。
云端主要的代表芯片有Nvidia-TESLA V100、華為昇騰910、Nvidia-TESLA T4、寒武紀(jì)MLU270等。
2.2 移動終端
主要用于移動端的推理,解決云端推理因網(wǎng)絡(luò)延遲帶來的用戶體驗等問題。典型應(yīng)用如視頻特效、語音助手等。通過在手機(jī)系統(tǒng)芯片(system on chip,SoC)中加入增加協(xié)處理器或?qū)S眉铀賳卧獊韺?shí)現(xiàn)。受制于手機(jī)電量,對芯片的功耗有嚴(yán)格的限制。代表芯片有Apple A12 Neural Engine(加速引擎)和華為麒麟990。
2.3 安防
目前最為明確的AI芯片應(yīng)用場景,主要任務(wù)是視頻結(jié)構(gòu)化。攝像頭終端加入AI芯片,可以實(shí)現(xiàn)實(shí)時響應(yīng)、降低帶寬壓力。也可以將推理功能集成在邊緣的服務(wù)器級產(chǎn)品中。AI芯片要有視頻處理和解碼能力。主要考慮的是可處理的視頻路數(shù)以及單路視頻結(jié)構(gòu)化的成本[10]。代表芯片有華為Hi3559-AV100和比特大陸B(tài)M1684等。
2.4 自動駕駛
AI芯片作為無人車的大腦,需要對汽車上大量傳感器產(chǎn)生的數(shù)據(jù)做實(shí)時處理[11],對芯片的算力、功耗、可靠性都有非常高的要求,同時芯片需要滿足車規(guī)標(biāo)準(zhǔn),因此設(shè)計的難度較大[12]。面向自動駕駛的芯片目前主要有Nvidia Orin、Xavier和Tesla的FSD等。
2.5 智能家居
在AI+IoT時代,智能家居中的每個設(shè)備都需要具備一定的感知、推斷以及決策功能。為了得到更好的智能語音交互用戶體驗,語音AI芯片進(jìn)入了端側(cè)市場。語音AI芯片相對來說設(shè)計難度低,開發(fā)周期短。代表芯片有思必馳TH1520和云知聲雨燕UniOne等。
3. AI芯片關(guān)鍵技術(shù)和基準(zhǔn)測試平臺
(1)AI芯片當(dāng)前的核心是利用乘加計算(multiplier and accumulation,MAC)陣列來實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)中最主要的卷積運(yùn)算的加速。MAC陣列的大量運(yùn)算,會造成功耗的增加。很多AI應(yīng)用的場景對于功耗都有嚴(yán)格的限制,如何達(dá)到優(yōu)異的性能功耗比是AI芯片研發(fā)的一個重要目標(biāo)。
(2)深度學(xué)習(xí)算法中參與計算的數(shù)據(jù)和模型參數(shù)很多,數(shù)據(jù)量龐大,導(dǎo)致內(nèi)存帶寬成為了整個系統(tǒng)的一個瓶頸“,Memory Wall”也是需要優(yōu)化和突破的主要問題[13]。
(3)除了芯片本身硬件的設(shè)計以外,軟件對于AI芯片性能的發(fā)揮也有著十分重要的作用,編譯器和工具鏈軟件的優(yōu)化能力、易用性現(xiàn)在也得到越來越多的重視。
3.2 基準(zhǔn)測試平臺
基準(zhǔn)測試平臺(Benchmark)為AI芯片建立了標(biāo)準(zhǔn)的評估體系,主要職責(zé)和意義有:
(1)基于調(diào)研和集群信息收集,真實(shí)反映AI芯片的使用情況。(2)引入評估和選型標(biāo)準(zhǔn)。(3)對AI芯片的架構(gòu)定義和優(yōu)化指引方向。基準(zhǔn)測試平臺的評估指標(biāo)包括延時(ms)、吞吐量(ims/s)、能效比(ims/s/W)、利用率(ims/s/T)等。主要的基準(zhǔn)測試臺有MLPerf、DawnBench(Stanford)、DeepBench(百度)、AI Matrix(阿里巴巴)。
4. AI芯片未來趨勢和探索
神經(jīng)形態(tài)芯片是指顛覆經(jīng)典的馮·諾依曼計算架構(gòu),采用電子技術(shù)模擬已經(jīng)被證明了的生物腦的運(yùn)作規(guī)則,從而構(gòu)建類似于生物腦的芯片[14]。
神經(jīng)形態(tài)芯片的優(yōu)點(diǎn):
(1)計算和存儲融合,突破Memory Wall瓶頸。(2)去中心化的眾核架構(gòu),強(qiáng)大的細(xì)粒度互聯(lián)能力。(3)更好的在線學(xué)習(xí)能力。清華大學(xué)、Intel、IBM等學(xué)校和企業(yè)都在做此方面的研究工作。
4.2 可重構(gòu)計算芯片
可重構(gòu)計算芯片也叫做軟件定義芯片[6],主要針對目前AI芯片存在的以下問題和任務(wù)需求:
(1)高效性和靈活性難以平衡。(2)復(fù)雜的AI任務(wù)需要不同類型AI算法任務(wù)的組合。(3)不同任務(wù)需要的計算精度不同??芍貥?gòu)計算芯片的設(shè)計思想在于軟硬件可編程,允許硬件架構(gòu)和功能隨軟件變化而變化,從而可以兼顧靈活性和實(shí)現(xiàn)超高的能效比。
5. 云端和邊緣側(cè)AI芯片和應(yīng)用
5.1 云端和邊緣側(cè)AI芯片
本研究團(tuán)隊從2017年開始研發(fā)AI芯片,并在當(dāng)年發(fā)售了第一代云端專用AI芯片 BM1680。在2019年發(fā)布了第三代AI芯片BM1684。BM1684采用TSMC-12 nm工藝,有17.6Tops的int8和2.2Tflops的float32算力,典型功耗為16W,可以支持32路1080P的高清視頻解碼。基于BM1684芯片,研發(fā)了深度學(xué)習(xí)加速板卡SC5(如圖1所示)、高密度計算服務(wù)器SA5、邊緣計算盒子SE5、邊緣計算模組SM5等面向各種不同人工智能應(yīng)用的產(chǎn)品。
5.2 研發(fā)產(chǎn)品的應(yīng)用
本團(tuán)隊的AI產(chǎn)品已經(jīng)在云端和邊緣側(cè)的多種應(yīng)用場景下落地使用,包括智慧園區(qū)(如圖2所示)、城市大腦(如圖3所示)、視頻結(jié)構(gòu)化、人臉布控、智能支付等。
6. 結(jié)論
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。