華夏芯推出全新架構(gòu)的人工智能專用處理器內(nèi)核
作者/華夏芯(北京)通用處理器技術(shù)有限公司創(chuàng)始人、董事長 李科奕
2016年7月,人工智能首次納入《“十三五”國家科技創(chuàng)新規(guī)劃》;2017年7月20日,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,將人工智能上升國家戰(zhàn)略,2018年李克強總理在政府工作報告中,進一步強調(diào)“產(chǎn)業(yè)級的人工智能應(yīng)用”。短短2年之內(nèi),伴隨數(shù)據(jù)、計算力、算法和網(wǎng)絡(luò)設(shè)施等快速迭代,人工智能已成為中國經(jīng)濟發(fā)展新舊動能轉(zhuǎn)換的重要引擎。安防領(lǐng)域一直被認為是人工智能最先落地的行業(yè),隨著國內(nèi)“智慧城市”、“平安城市”的不斷建設(shè),在大數(shù)據(jù)、深度學習等技術(shù)的支撐下,安防向城市化、綜合化、主動安防方向發(fā)展,智能安防成為當前發(fā)展的主流趨勢,產(chǎn)業(yè)規(guī)??涨褒嫶蟆V爸萍s高清安防產(chǎn)業(yè)發(fā)展的云端AI功耗大、實時性不強、缺乏安全保障等網(wǎng)絡(luò)瓶頸問題都在悄然緩解,智能安防正在演變?yōu)橹悄?、高清、無線、預警等相互融合、協(xié)調(diào)發(fā)展的多種形態(tài)的綜合產(chǎn)業(yè)。
除開智能安防行業(yè),智能駕駛正在成為另一個高速發(fā)展以及炙手可熱的人工智能的典型應(yīng)用場景。目前汽車產(chǎn)業(yè)呈現(xiàn)的“新四化”(即電動化、網(wǎng)聯(lián)化、智能化、共享化)給人工智能的計算、存儲、數(shù)據(jù)和通信等方方面面都帶來了巨大挑戰(zhàn),車用數(shù)據(jù)處理量呈指數(shù)型增長,車載計算芯片平臺逐漸走向低功耗與高浮點計算能力。
以智能駕駛和智能安防為例,“云邊結(jié)合”正逐步取代“中心分析”成為AI應(yīng)用發(fā)展的趨勢。針對不同人工智能應(yīng)用的場景的AI終端芯片有望在今后數(shù)年內(nèi)成為芯片廠商的主戰(zhàn)場。云端的計算需求主要是支持海量數(shù)據(jù)下的計算開銷。因此,由超級性能的CPU、GPU、FPGA、專用加速器組成的超高計算性能的芯片組成為主要的芯片平臺。在云端芯片市場,Intel 約占71%、英偉達約占16%的市場。而終端側(cè)的計算需求更多的是要考慮的是有限功耗下的系統(tǒng)開銷。因此,高性能、低功耗的CPU、GPU、DSP、專用芯片組成的高集成度的SoC芯片成為首選。在這一市場,Intel、英偉達并無無優(yōu)勢,相反ARM、Ceva、華夏芯這樣的公司有優(yōu)勢。
面對這一趨勢,即華夏芯公司立足于為其客戶的芯片定制提供完整的包括CPU、DSP和人工智能在內(nèi)的系列內(nèi)核和完整解決方案。華夏芯公司作為少數(shù)具備全系列處理器內(nèi)核設(shè)計能力的高科技企業(yè),繼之前陸續(xù)發(fā)布全自主64位的CPU和DSP內(nèi)核方案,并在嵌入式處理器領(lǐng)域率先引入了可變長矢量處理(Variable Length Vector,VLV)技術(shù)后,于2018年初正式向業(yè)界公開了其全新架構(gòu)的嵌入式人工智能專用處理器的內(nèi)核方案,及全套神經(jīng)網(wǎng)絡(luò)專用處理的完整解決方案。
新年伊始,華夏芯公司正式向業(yè)界公開了其全新架構(gòu)的嵌入式人工智能專用處理器的內(nèi)核方案。作為少數(shù)具備全系列處理器內(nèi)核設(shè)計能力的高科技企業(yè),華夏芯公司之前已經(jīng)陸續(xù)發(fā)布了其自主設(shè)計的64位體系的CPU(Central Processing Unit)和DSP(Digital Signal Processor )內(nèi)核方案,首次在嵌入式處理器領(lǐng)域引入了可變長矢量處理(Variable Length Vector,VLV)技術(shù)。因此,本次針對人工智能專用處理器內(nèi)核方案的公開發(fā)布,進一步展露了華夏芯在人工智能領(lǐng)域的龐大戰(zhàn)略,即華夏芯公司立足于為其客戶的芯片定制提供完整的包括CPU,DSP和人工智能在內(nèi)的系列內(nèi)核,并希望在芯片整體性能,功耗,成本,編程,生態(tài)和開發(fā)周期方面占據(jù)領(lǐng)先的位置。
華夏芯致力于人工智能的專用可編程處理器內(nèi)核的設(shè)計與授權(quán),可以廣泛應(yīng)用于嵌入式人工智能與服務(wù)器側(cè)的芯片設(shè)計與加速,高效率地解決與智能預測和智能推理等有關(guān)的方方面面。雖然華夏芯的人工智能方案可以運用到相當多的領(lǐng)域,但是,當前最為引人注目的應(yīng)用當以智能安防、無人駕駛等應(yīng)用領(lǐng)域為主要熱點。在人工智能的支撐下,高清安防正在快步邁進全民、全覆蓋安防的嶄新時代,產(chǎn)業(yè)規(guī)??涨褒嫶?,之前制約高清安防產(chǎn)業(yè)發(fā)展的網(wǎng)絡(luò)瓶頸問題悄然緩解,高清安防正在演變?yōu)橹悄?、高清、無線、預警等相互融合、協(xié)調(diào)發(fā)展的多種形態(tài)的綜合產(chǎn)業(yè)。和智能安防行業(yè)類似,無人駕駛正在成為另外一個平行、高速發(fā)展以及炙手可熱的人工智能的典型應(yīng)用。有人預測,2020年將成為發(fā)展無人駕駛的重要節(jié)點,產(chǎn)業(yè)生態(tài)初步成型,產(chǎn)業(yè)容量巨大,已經(jīng)成為全球汽車行業(yè)與消費電子行業(yè)巨頭都不能放下的產(chǎn)業(yè)高地和必爭之地。
上述發(fā)展趨勢給人工智能的計算、存儲、數(shù)據(jù)和通信等方方面面都帶來了巨大挑戰(zhàn)。比如,高維度、適應(yīng)稀疏結(jié)構(gòu)網(wǎng)絡(luò)的高效并行計算,高密度、低成本和低功耗的大容量存儲,完整或者大致完整的現(xiàn)場數(shù)據(jù)的收集與加工,帶寬高、時延小、運營費用低的寬帶網(wǎng)絡(luò)覆蓋,等等都已經(jīng)成為影響或者制約人工智能在相關(guān)行業(yè)快速發(fā)展的卡口瓶頸。為此,在大力發(fā)展針對神經(jīng)網(wǎng)絡(luò)的新型架構(gòu)的專用處理器的同時,還要加大力氣在神經(jīng)網(wǎng)絡(luò)的原創(chuàng)理論與方法方面下功夫,力爭形成理論和實踐并駕齊驅(qū)的雙創(chuàng)局面。
正是在這樣的背景情況下,華夏芯正式推出了其自主設(shè)計的全套神經(jīng)網(wǎng)絡(luò)專用處理的完整解決方案。
縱觀華夏芯本次推出的人工智能專用處理器內(nèi)核方案,不少地方的設(shè)計很有特點:
1.采用了與眾不同的異構(gòu)多核架構(gòu)。人工智能的計算與存儲由多種環(huán)節(jié)組成,而且他們的屬性各不相同,傳統(tǒng)的單核處理器集成硬件加速器的做法基本上與人工智能的多方面需求不能完全吻合。為此,采用并發(fā)、異構(gòu)的多核協(xié)同架構(gòu),將為人工智能的系統(tǒng)管理和數(shù)據(jù)處理奠定牢固的基礎(chǔ),這一點是非常重要的。
2.兼具處理器和硬件加速器的優(yōu)點。類似于CPU的傳統(tǒng)處理器架構(gòu)可以確保編程方面的靈活性,但不能完全滿足人工智能張量處理在專用計算和存儲方面大數(shù)據(jù)量實時處理的需求;華夏芯人工智能專用處理器同時采用了類似硬件加速器的技術(shù)完成大數(shù)據(jù)量的批量處理,加速效率非常高。
3.在位長方面僅支持八位與十六位。人工智能算法的動態(tài)范圍依據(jù)網(wǎng)絡(luò)規(guī)模,分類多少呈現(xiàn)完全不同的特征,為此,多種位長的設(shè)置有利于提升處理性能,降低處理功耗,倍增存儲效率。十六位半精度浮點的選擇已經(jīng)完全可以覆蓋人工智能前端數(shù)據(jù)處理和存儲的動態(tài)范圍的需求,這一點正在成為嵌入式人工智能領(lǐng)域的趨勢。
4.在內(nèi)核系統(tǒng)管理方面實現(xiàn)全自主。很多人以為,只要把人工智能的數(shù)據(jù)處理搞定了,頂多加上硬件定制的數(shù)據(jù)壓縮也就可以了。其實不然,人工智能的很多特性呈現(xiàn)運行時(runtime)的動態(tài)特性,需要相對應(yīng)的系統(tǒng)和資源管理方面的能力很強。在這方面,華夏芯的異構(gòu)多核并發(fā)的架構(gòu)做得很好,可以完美地解決這個問題。
5.在可編程與算法實現(xiàn)定制上很強。大家都說,人工智能現(xiàn)在還在發(fā)展的初期,很多東西都處在不確定狀態(tài)。但同一時期的人工智能算法在計算和存儲架構(gòu)上卻基本上是類似的。華夏芯專用處理器的系統(tǒng)架構(gòu)正是這樣的基礎(chǔ)上抽象設(shè)計出來的,其在可編程性和算法定制方面所蘊含的優(yōu)勢一般來說遠遠強于其它同類芯片產(chǎn)品?;蛘哒f,其生命周期是要遠遠長于其它同類定制芯片,一款產(chǎn)品可以適應(yīng)很多算法的優(yōu)化定制的需求。
6.在指令架構(gòu)和微架構(gòu)上擴展性好。伴隨著人工智能算法的不斷創(chuàng)新,應(yīng)用場景的豐富多彩,可以預知,好的人工智能專用處理器的指令架構(gòu)和微架構(gòu)一定是與時俱進的,因此,架構(gòu)擴展是不是方便快捷,也是度量專用處理器的關(guān)鍵指標。這方面,華夏芯專用處理器的層次感和擴展性是比較出色的,從一開始就支持對人工智能和控制指令的能力擴展。
7.在片上系統(tǒng)集成路線方面很靈活。華夏芯的人工智能專用處理器的自主管理與控制能力很強,不需要外配實時性很強的CPU等主控單元,因此,在SOC等芯片集成中表現(xiàn)得相對簡單而靈活。這一點與當前很多解決方案都完全不同,不僅僅便于片上集成,而且自洽性強,總體性能更加突出。
8.針對主流開源后臺實現(xiàn)無縫對接。毫無例外,當前主流的開源訓練庫和開源訓練平臺,諸如,CaffeNet, TensorFlow等,華夏芯的專用處理器都是可以無縫對接的。
根據(jù)華夏芯公司提供的最新時間表,目前,其已經(jīng)啟動對全球芯片設(shè)計企業(yè)的內(nèi)核授權(quán),并接收客戶委托的芯片設(shè)計服務(wù)需求,代客戶設(shè)計采用華夏芯內(nèi)核的系統(tǒng)芯片。預計2018年下半年第一款全部采用華夏芯CPU/DSP/人工智能處理器內(nèi)核的量產(chǎn)芯片開始下線,進入市場。
評論