MCU+NPU，Arm引領(lǐng)物聯(lián)網(wǎng)全面智能化時(shí)代

作者：時(shí)間：2024-04-17 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

人工智能作為過去兩年以及未來幾年注定爆火熱點(diǎn)應(yīng)用，始終缺乏足夠的落地方案確保盈利能力，即使目前最火爆的生成式AI（AIGC）依然屬于燒錢階段。因此，支撐AI未來商業(yè)價(jià)值的，并不只是人們看到的大模型和AIGC，還需要更多終端節(jié)點(diǎn)對人工智能應(yīng)用的支持。

本文引用地址：http://2s4d.com/article/202404/457745.htm

算力成本是人工智能應(yīng)用中不可回避的話題，畢竟從算力開銷上來說，單純把所有計(jì)算都放在云端不僅帶來的是龐大的算力構(gòu)建費(fèi)用，更是因?yàn)榇罅繑?shù)據(jù)的反復(fù)傳輸而帶來能效方面的開銷。因此，將算力資源合理的分配到云端和邊緣側(cè)可以更好地發(fā)揮不同節(jié)點(diǎn)的處理資源，將復(fù)雜AI推理和訓(xùn)練放在云端而將邊緣側(cè)的簡單數(shù)據(jù)處理和反饋交給邊緣端算力處理，這種部署能夠有效提升AI應(yīng)用的價(jià)值。隨著邊緣側(cè)處理單元的性能提升，物聯(lián)網(wǎng)終端節(jié)點(diǎn)的計(jì)算能力已經(jīng)逐漸開始能夠滿足一定程度的AI處理需求，同時(shí)處理器+AI專用處理器的異構(gòu)結(jié)構(gòu)在具有基礎(chǔ)AI需求的節(jié)點(diǎn)部署也沒有技術(shù)難度。因此相比于CPU+GPU的云端標(biāo)準(zhǔn)AI算力架構(gòu)，在邊緣節(jié)點(diǎn)的MPU+NPU甚至MCU+NPU的架構(gòu)更符合廣泛人工智能的需求，并且是人工智能短期內(nèi)最可能實(shí)現(xiàn)盈利的關(guān)鍵點(diǎn)（甚至已經(jīng)在盈利）。

在物聯(lián)網(wǎng)的邊緣節(jié)點(diǎn)中，MCU是目前最普遍的處理單元，雖然從內(nèi)核架構(gòu)上MCU已經(jīng)逐步開始增加NN和ML相關(guān)的處理能力，但從計(jì)算效率來說，傳統(tǒng)的MCU架構(gòu)并不適合高效地進(jìn)行AI相關(guān)的計(jì)算，遠(yuǎn)不如NPU這類處理器來得經(jīng)濟(jì)高效。作為在通用MCU內(nèi)核方面已經(jīng)占據(jù)領(lǐng)導(dǎo)地位的Arm，除了為基于Armv8架構(gòu)的內(nèi)核增加了ML支持單元之外，也開始面對物聯(lián)網(wǎng)節(jié)點(diǎn)對更強(qiáng)大AI處理能力的需求推出解決方案。Arm 全新的Corstone-320 物聯(lián)網(wǎng)參考設(shè)計(jì)平臺集成了 Arm 最高性能的 Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的 Ethos-U85 NPU，為語音、音頻和視覺等廣泛的邊緣 AI 應(yīng)用提供所需的性能，例如實(shí)時(shí)圖像分類和目標(biāo)識別，或在智能音箱上啟用具有自然語言翻譯功能的語音助手。該參考設(shè)計(jì)平臺涵蓋了軟件、工具和支持，其中包括 Arm 虛擬硬件。該平臺的軟硬件結(jié)合特性將使開發(fā)者能夠在物理芯片就緒前便啟動軟件開發(fā)工作，從而加速推進(jìn)產(chǎn)品進(jìn)程，為日益復(fù)雜的邊緣 AI 設(shè)備縮短上市時(shí)間。除了降低復(fù)雜性和加快產(chǎn)品上市進(jìn)程，Corstone-320 還帶來了以下優(yōu)勢：

· 提高性能：通過提升計(jì)算吞吐量，為各種物聯(lián)網(wǎng)設(shè)備和用例提供合適的算力。

· 改善內(nèi)存帶寬：對數(shù)據(jù)寬度和內(nèi)存通道等內(nèi)存帶寬方面進(jìn)行改善，從而為像素流提供全系統(tǒng)范圍的互連帶寬。

· 提高能效：提高可持續(xù)性，以及延長電池續(xù)航時(shí)間。

· 一系列電源模式：包括睡眠模式、待機(jī)模式和電源島。

· 降低設(shè)計(jì)成本，并縮短工程時(shí)間：通過“開箱即用的” Corstone-320，設(shè)計(jì)人員和工程師能夠立即啟動 SoC 設(shè)計(jì)。

· 更多的安全功能：包括啟動時(shí)和運(yùn)行時(shí)的安全機(jī)制，都集成至系統(tǒng)中。

· 可觀察性：Corstone-320 中內(nèi)置了所有組件的全面調(diào)試和跟蹤功能。

· 改進(jìn)的靈活性：Corstone-320 設(shè)計(jì)針對不同的細(xì)分市場、設(shè)備和用例中進(jìn)行定制。

· 一系列的軟件支持：包括大量開源軟件等一系列的軟件支持，可降低總體成本和復(fù)雜性。

圖片.png

從應(yīng)用角度，邊緣側(cè)需要越來越多的語音、圖像甚至視頻級處理能力，而邊緣側(cè)對功耗、尺寸和計(jì)算效率的要求遠(yuǎn)比云端要更為嚴(yán)格。處理能力的提升需要以不增加或者盡可能少增加功耗為基礎(chǔ)，這無疑需要對每個任務(wù)的處理效率都提出的更高的需求，因此，基于多核異構(gòu)的解決方案就是最合理的選擇。比如在硬件方面，Arm為物聯(lián)網(wǎng)參考設(shè)計(jì)平臺 Corstone-320 集成了以下前沿的IP：Arm Cortex-M85，Arm Mali-C55 ISP，全新的Arm Ethos-U85 NPU和Arm CoreLink DMA-350。其中Arm 最強(qiáng)MCU內(nèi)核Cortex-M85 搭載 Arm Helium 技術(shù)，是目前MCU視覺應(yīng)用的理想之選，能以高能效和高性能提供所需要的安全性和靈活性。Mali-C55絕佳地集成了高分辨率圖像處理能力（可支持 4800 萬像素的圖像分辨率）、能效、可配置性及無與倫比的圖像質(zhì)量，適用于廣泛的物聯(lián)網(wǎng)視覺應(yīng)用。同時(shí)，高度可配置的直接內(nèi)存訪問控制器 DMA-350，可實(shí)現(xiàn)高效的數(shù)據(jù)移動，從而提高系統(tǒng)性能和能效，并支持 Arm TrustZone技術(shù)。

參考設(shè)計(jì)平臺是Arm在進(jìn)入Armv8架構(gòu)和Armv9架構(gòu)時(shí)代為了更好提升系統(tǒng)級方案推出的創(chuàng)新解決方案，前有針對移動端的全面計(jì)算解決方案(TCS)和針對基礎(chǔ)設(shè)施的Neoverse 這兩個面向MPU為主的平臺，如今Corstone-320 則作為面向物聯(lián)網(wǎng)應(yīng)用的全新參考設(shè)計(jì)平臺，通過其預(yù)先集成、預(yù)先驗(yàn)證的參考設(shè)計(jì)模版，將幫助Arm的合作伙伴減少邊緣智能芯片開發(fā)的成本和時(shí)間。為了加速邊緣側(cè)AI的部署，同時(shí)為更廣泛、更高性能的設(shè)備提供高能效的邊緣推理能力，Arm發(fā)布了迄今性能最高且能效最佳的 Ethos NPU—Ethos-U85。

圖片.png

2017年問世的Transformer 架構(gòu)徹底改變了生成式AI，并成為許多新型神經(jīng)網(wǎng)絡(luò)的首選架構(gòu)?；赥ransformer架構(gòu)的模型可利用注意力機(jī)制處理序列數(shù)據(jù)，并在機(jī)器翻譯、自然語言理解、語音識別、分割和圖像字幕生成等多項(xiàng) AI 任務(wù)中實(shí)現(xiàn)優(yōu)異的效果。這些模型可被調(diào)整和壓縮，在不過多影響準(zhǔn)確度的情況下，能高效運(yùn)行于邊緣設(shè)備上，并在許多邊緣側(cè)和端側(cè)用例中發(fā)揮領(lǐng)先的優(yōu)勢。這種技術(shù)趨勢極大地催生了NPU在邊緣側(cè)應(yīng)用的技術(shù)需求。

相比于之前發(fā)布的U55和U65， Ethos-U85性能提升四倍，能效提高 20%，同時(shí)，其 MAC 單元可從 128 個擴(kuò)展到 2048 個（在 1GHz 時(shí)，算力實(shí)現(xiàn) 4 TOPs）。Ethos-U85 NPU 支持TensorFlow Lite和PyTorch等AI框架，更重要的是Ethos-U85 支持 Transformer 架構(gòu)和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 以實(shí)現(xiàn) AI 推理。Transformer 架構(gòu)將推動新的應(yīng)用，特別是面向視覺和生成式 AI 用例中，對于理解視頻、填充圖像的缺失部分或分析來自多個攝像頭的數(shù)據(jù)以進(jìn)行圖像分類和目標(biāo)檢測等任務(wù)非常有效。

除了 Ethos-U55 和 Ethos-U65 目前支持的算子，通過支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等運(yùn)算，Ethos-U85 涵蓋了對 Transformer 模型和 DeeplabV3 語義分割網(wǎng)絡(luò)的原生硬件支持。Ethos-U85 也支持元素級算子鏈化。通過鏈化將元素級運(yùn)算與先前的運(yùn)算相結(jié)合，使 SRAM 不必先寫入再讀取中間張量。由此可憑借 NPU 和內(nèi)存之間數(shù)據(jù)傳輸量的減少，提高 NPU 的效率。相比于 Ethos-U65，鏈化是 Ethos-U85 在效率提升上的新功能之一，其余還包括快速的權(quán)重編碼器、優(yōu)化的 MAC 陣列能效，以及提升的元素效率。

圖片.png

除了包括最新Ethos-U85 NPU在內(nèi)的硬件支持之外，Corstone-320 同樣擁有一系列的軟件支持。Corstone-320軟件套件包括固件、所有 IP 的驅(qū)動程序、中間件、實(shí)時(shí)操作系統(tǒng) (RTOS) 和云集成、ML 模型和參考應(yīng)用程序。這意味著軟件開發(fā)者能夠輕松選擇其特定細(xì)分市場所需的組件，并使用所選開發(fā)工具為該設(shè)備構(gòu)建物聯(lián)網(wǎng)堆棧。開源應(yīng)用程序演示了關(guān)鍵詞識別、語音識別和目標(biāo)識別用例。與此同時(shí)，Corstone-320 中包含的原型平臺能使軟件開發(fā)與 SoC 設(shè)計(jì)并行啟動。軟件中還包含了固定虛擬平臺 (FVP)，用于對構(gòu)成完整 FPGA 系統(tǒng)的外設(shè)進(jìn)行建模。通過使用 FVP，軟件開發(fā)者無需硬件即可開始開發(fā)應(yīng)用，從而加快開發(fā)速度。

Arm 通過軟硬件解決方案，生態(tài)系統(tǒng)支持等，不斷促進(jìn)邊緣 AI 應(yīng)用的進(jìn)展，以加速邊緣 AI 的創(chuàng)新步伐。

新聞中心

MCU+NPU，Arm引領(lǐng)物聯(lián)網(wǎng)全面智能化時(shí)代

評論

相關(guān)推薦

技術(shù)專區(qū)