以高算力和超低功耗賦能MCU,瑞薩為AIoT應(yīng)用增添新活力
——訪瑞薩電子中國(guó) 產(chǎn)業(yè)解決方案中心
本文引用地址:http://2s4d.com/article/201905/401006.htm高級(jí)總監(jiān)徐征作者/王瑩《電子產(chǎn)品世界》編輯
編者按:物聯(lián)網(wǎng)潛力巨大,加上近年人工智能的興起,AIoT(人工智能物聯(lián)網(wǎng))成為了新的熱點(diǎn)。MCU作為傳統(tǒng)的嵌入式處理器,似乎難以涉足高算力的AI應(yīng)用。不過(guò),瑞薩在嵌入式行業(yè)首開(kāi)先河,提出了e-AI(嵌入式人工智能)解決方案,并帶來(lái)了兩大核心技術(shù)——DRP動(dòng)態(tài)可配置處理器技術(shù)和SOTB超低功耗工藝,以期為AIoT的應(yīng)用提供重要的附加價(jià)值。
1 e-AI解決方案出爐
目前絕大部分產(chǎn)品的AI學(xué)習(xí)與推理是在云端進(jìn)行的。在OT(操作技術(shù))里面的終端產(chǎn)品或者設(shè)備,要到云端去做學(xué)習(xí)與分析,可能會(huì)造成網(wǎng)絡(luò)延遲、帶寬擁擠、網(wǎng)絡(luò)安全性和功耗等問(wèn)題。為此,瑞薩提出了e-AI解決方案(如圖1),可以通過(guò)終端學(xué)習(xí)AI模型,實(shí)現(xiàn)實(shí)時(shí)、安全和低功耗的終端智能化。
2017年7月,瑞薩首次公布e-AI方案,通過(guò)e-AI翻譯器,把客戶(hù)的AI模型翻譯成C語(yǔ)言,然后在瑞薩RX系列MCU里實(shí)現(xiàn)AI終端的推理功能(如圖2)。
2018年10月,第二代e-AI方案問(wèn)世,通過(guò)把瑞薩獨(dú)有的DRP技術(shù)做在芯片中,去實(shí)現(xiàn)DRP的e-AI解決方案。DRP即動(dòng)態(tài)可配置處理器,顧名思義,客戶(hù)可以按自己的需要,按不同的時(shí)間把DRP的硬件邏輯編程,實(shí)現(xiàn)并行的數(shù)據(jù)處理。DRP技術(shù)非常適合圖像處理。
接下來(lái),瑞薩在2019年第四季度將推出第三代e-AI解決方案,這是配置能力更強(qiáng)大的 DRP AI芯片,在器件中額外配置了AI MAC(乘加電路),特別適合卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
第四代產(chǎn)品DRP AI 2也在規(guī)劃當(dāng)中,目的是實(shí)現(xiàn)在終端的增量學(xué)習(xí)功能。
2 DRP巧妙提升算力
DRP是瑞薩獨(dú)有的技術(shù)。在同等功耗的前提下, 載有DRP技術(shù)的處理器比目前市場(chǎng)上常用的MCU、DSP或FPGA的處理能力高十倍或百倍,這意味著在相同的處理能力下,DRP的功耗比其他處理器低很多。
DRP的目標(biāo)應(yīng)用場(chǎng)景包括智能工廠、智能家居和智能基礎(chǔ)設(shè)施。例如在工業(yè)控制的預(yù)維護(hù)中,e-AI應(yīng)用方案可以通過(guò)一些學(xué)習(xí)完的數(shù)據(jù),通過(guò)在電機(jī)上的加速度傳感器去分析判斷從傳感器收集來(lái)的信息是否正常,然后再傳送到控制中心或控制系統(tǒng)。這樣可以大大改善生產(chǎn)效率,避免停機(jī),同時(shí)也可以降低維護(hù)維修的成本。
另外一個(gè)應(yīng)用場(chǎng)景是生物認(rèn)證,例如機(jī)場(chǎng)或者口岸的出入境檢查站,或者是辦公樓的門(mén)禁系統(tǒng)。
DRP的結(jié)構(gòu)主要包含多組并行陣列可編程的處理單元,加上存儲(chǔ)器和DMA控制器(如圖3)。DRP是動(dòng)態(tài)可配置處理器,可以根據(jù)用戶(hù)編程,能夠做到從一個(gè)時(shí)鐘周期到下一個(gè)時(shí)鐘周期動(dòng)態(tài)地改變其處理電路的配置,實(shí)現(xiàn)并行處理不同的算法。對(duì)于圖像處理這種應(yīng)用是非常適合的,可以做到每個(gè)時(shí)鐘周期少于1 ns。
AI的深度神經(jīng)網(wǎng)絡(luò)(DNN)包含幾個(gè)不同的處理層,諸如卷積層、池化層和全連接層等。因?yàn)镈RP的獨(dú)有特性能夠滿(mǎn)足卷積神經(jīng)網(wǎng)絡(luò)(CNN)所需要的多并行處理要求, 因此非常適合作為卷積神經(jīng)網(wǎng)絡(luò)的AI加速器。
即將推出的第三代DRP配置了AI MAC(如圖4),里面有多組快速處理單元,能實(shí)現(xiàn)有效的快速計(jì)算。卷積層里本身需要處理大量的數(shù)據(jù),同時(shí)卷積層里的數(shù)據(jù)需要不斷成立權(quán)重,然后再重復(fù)去計(jì)算,因而需要快速地去做乘法或加法。AI MAC結(jié)構(gòu)可以滿(mǎn)足卷積層里大量的復(fù)雜計(jì)算。
除了AI MAC硬件部分,第三代DRP也可以處理其他處理層的數(shù)據(jù),例如也可以做動(dòng)態(tài)可編程,可以把匯聚層里系統(tǒng)的計(jì)算合起來(lái)用。
通過(guò)對(duì)比一個(gè)500 MHz時(shí)鐘頻率的CPU,和第二代DRP,進(jìn)行Canny邊緣偵測(cè)算法的運(yùn)算。500 MHzCPU需要140 ms;但DRP盡管只有40 MHz,卻只用了10.4 ms,可見(jiàn)處理速度快十倍以上。
3 SOTB工藝實(shí)現(xiàn)了超低功耗
SOTB(Silicon On Thin Buriedoxide)是瑞薩研發(fā)的超低功耗的工藝技術(shù),可以實(shí)現(xiàn)無(wú)摻雜的晶體管。無(wú)摻雜結(jié)構(gòu)可以降低晶體管淤積特性變化。對(duì)比傳統(tǒng)的平面式晶體管的淤積特性變化,這種無(wú)摻雜通道和結(jié)構(gòu)可以將特性變化減低2/3。減小晶體管的淤積特性變化,就可以在超低電壓下,例如0.5 V進(jìn)行穩(wěn)定的操作,同時(shí)也可以大大降低工作電流與待機(jī)電流。
SOTB在特定條件下,電流的消耗只是傳統(tǒng)MCU的1/10。如果說(shuō)傳統(tǒng)方案是低功耗方案,SOTB就是超低功耗的方案,有望實(shí)現(xiàn)無(wú)電池系統(tǒng)。例如,傳統(tǒng)MCU通過(guò)3 V的紐扣電池供電,間隔性偵測(cè)傳感器的信號(hào)采集,再把信息上傳到云端。如果這些任務(wù)占用1%的工作周期,一個(gè)月后系統(tǒng)就可能沒(méi)電了。如果換到0.1%的工作周期,這個(gè)系統(tǒng)能工作一年左右。但是如果采用SOTB技術(shù)做成的MCU,在特定條件下可以連續(xù)工作十年。因?yàn)镾OTB本身需要的電流非常低,3 μA就足夠了。
SOTB的路線圖有三個(gè)階段。
第一階段,在2019年下半年將會(huì)在中國(guó)市場(chǎng)正式發(fā)布,屆時(shí)會(huì)做產(chǎn)品的介紹推廣。目標(biāo)應(yīng)用場(chǎng)景是一些需要經(jīng)常更換電池,或電氣維護(hù)的應(yīng)用。
第二階段是2021年左右,計(jì)劃會(huì)把無(wú)線技術(shù),諸如藍(lán)牙加進(jìn)來(lái),來(lái)擴(kuò)展應(yīng)用場(chǎng)景,包括智能家電或智能樓宇,以及個(gè)人健康產(chǎn)品。
長(zhǎng)遠(yuǎn)目標(biāo)主要是在第三階段,不但把無(wú)線技術(shù)加進(jìn)去,同時(shí)也會(huì)把e-AI/DRP解決方案帶到器件里,做成一個(gè)完整的AIoT方案,屆時(shí)應(yīng)用場(chǎng)景會(huì)變得更加多樣,包括智慧農(nóng)業(yè)、智能交通等。
4 嵌入式AI的應(yīng)用案例
瑞薩還展示了三個(gè)應(yīng)用案例。
第一個(gè)是3D手勢(shì)識(shí)別,通過(guò)RX231的e-AI解決方案,提供手勢(shì)數(shù)據(jù)的學(xué)習(xí)工具、錄制工具、AI的學(xué)習(xí)工具??蛻?hù)只需做很小的代碼改動(dòng),無(wú)需重新編寫(xiě)復(fù)雜的算法,就可以達(dá)到很高分辨率的3D手勢(shì)識(shí)別和控制。
第二是馬達(dá)異常偵測(cè)。采用32位MCU——RX66T來(lái)實(shí)現(xiàn)電機(jī)控制,以及e-AI推理功能。通過(guò)配置在電機(jī)上的加速度傳感器收集信號(hào),再通過(guò)學(xué)習(xí)的數(shù)據(jù)來(lái)判斷收集回來(lái)的信息是否異常,同時(shí)把計(jì)算的故障率在電腦上顯示出來(lái)。
第三是通過(guò)DRP實(shí)現(xiàn)實(shí)時(shí)圖像處理器。主控制器是RZ/A2M,其中配置了DRP。圖像處理可能會(huì)分成很多不同的算法,收集完影像后還需要去分析,還要做影像的解碼,牽涉到很多不同的算法,DRP的主芯片可以滿(mǎn)足圖像處理的復(fù)雜計(jì)算要求??梢圆⑿刑幚聿煌乃惴?。
瑞薩還提供了一組數(shù)字:相比Arm Cortex-A9528 MHz處理器,帶有DRP處理能力的RZ/A2M快了13倍。DRP另外一個(gè)優(yōu)勢(shì)是低功耗,因?yàn)榈诙鶧RP的主頻只有66 MHz,第三代為250 MHz,但是主頻低并不代表性能會(huì)相對(duì)降低,低主頻可以達(dá)到低功耗的效果,因?yàn)镈RP可以實(shí)現(xiàn)并行數(shù)據(jù)處理,所以它的處理能力比主頻高很多的MCU或MPU處理能力更強(qiáng)大,比A9處理器的處理能力快13倍。
5 熱點(diǎn)問(wèn)答
問(wèn):DPR跟FPGA或其他技術(shù)有何明顯的區(qū)別?
答:DRP可以理解成一個(gè)FPGA與GPU的混合體。
FPGA是一個(gè)可編程的硬件,要運(yùn)算一個(gè)非常復(fù)雜的算法,里面需要很多邏輯電路,整個(gè)器件需要做得很大。瑞薩獨(dú)有的DRP硬件技術(shù),優(yōu)點(diǎn)在于是動(dòng)態(tài)可編程的,通過(guò)DRP編譯器,可以把C語(yǔ)言編譯成DRP的硬件邏輯去運(yùn)行算法。下一秒鐘,又可以馬上再把同一個(gè)邏輯電路重新編排,去運(yùn)算另一種算法。
與FPGA相比,運(yùn)行同一個(gè)很大的算法,就可以把這個(gè)大算法切開(kāi)為十個(gè)不同的小算法,去并行處理。這樣整個(gè)邏輯電路不需要像FPGA做得那么大,只有FPGA的1/5或1/10即可(具體取決于用戶(hù)怎么去編硬件邏輯)。
同時(shí)DRP又是FPGA和GPU的混合產(chǎn)品。因?yàn)镈RP本身除了可以編程,也比較像GPU,可以做并行處理。但是GPU不能重新再編程。
有個(gè)生動(dòng)的比喻,DRP就像動(dòng)畫(huà)片里的變形金剛,針對(duì)不同的場(chǎng)景,既可以是MCU,也可以是GPU。
問(wèn):e-AI解決方案與DRP、SOTB技術(shù)的關(guān)系如何?
e-AI是AI的一個(gè)概念。e-AI在器件層的落腳點(diǎn),第一步是DRP,未來(lái)會(huì)有SOTB來(lái)支持e-AI在5G、IoT或者可穿戴領(lǐng)域的應(yīng)用。
現(xiàn)在的DRP更多的還是在傳統(tǒng)領(lǐng)域中應(yīng)用,未來(lái)再加上SOTB的配合,會(huì)有更廣闊的低功耗AIoT應(yīng)用。
問(wèn):DRP是否會(huì)用于所有MCU?
答:DRP本身是一個(gè)硬件架構(gòu),但DRP也不可能單獨(dú)去工作,需要把它放進(jìn)MPU或者M(jìn)CU里,中間有一個(gè)DMA控制器(注:作為MCU與DRP中間的交換溝通)。
瑞薩不會(huì)把DRP放進(jìn)全系列的MCU或MPU中,是有選擇性的,這是因?yàn)檎麄€(gè)市場(chǎng)是多樣性的。因此瑞薩傳統(tǒng)的GPMCU(通用MCU)還會(huì)繼續(xù)推廣。
DRP的目的是促進(jìn)AI學(xué)習(xí)或推理功能,是用于處理能力較高的處理器中,所以會(huì)選擇放在瑞薩中高端的LC、AC系列MPU中。例如,DRP第二代可放入528MHz主頻的MPU中。未來(lái)的第三代DRP性能更強(qiáng)大,MPU里會(huì)帶有雙核1 GHz處理器,以完成AI的學(xué)習(xí)與推理功能。
本文來(lái)源于科技期刊《電子產(chǎn)品世界》2019年第6期第1頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出
評(píng)論