MCU+NPU,Arm引領物聯(lián)網(wǎng)全面智能化時代
人工智能作為過去兩年以及未來幾年注定爆火熱點應用,始終缺乏足夠的落地方案確保盈利能力,即使目前最火爆的生成式AI(AIGC)依然屬于燒錢階段。因此,支撐AI未來商業(yè)價值的,并不只是人們看到的大模型和AIGC,還需要更多終端節(jié)點對人工智能應用的支持。
算力成本是人工智能應用中不可回避的話題,畢竟從算力開銷上來說,單純把所有計算都放在云端不僅帶來的是龐大的算力構建費用,更是因為大量數(shù)據(jù)的反復傳輸而帶來能效方面的開銷。因此,將算力資源合理的分配到云端和邊緣側可以更好地發(fā)揮不同節(jié)點的處理資源,將復雜AI推理和訓練放在云端而將邊緣側的簡單數(shù)據(jù)處理和反饋交給邊緣端算力處理,這種部署能夠有效提升AI應用的價值。隨著邊緣側處理單元的性能提升,物聯(lián)網(wǎng)終端節(jié)點的計算能力已經(jīng)逐漸開始能夠滿足一定程度的AI處理需求,同時處理器+AI專用處理器的異構結構在具有基礎AI需求的節(jié)點部署也沒有技術難度。因此相比于CPU+GPU的云端標準AI算力架構,在邊緣節(jié)點的MPU+NPU甚至MCU+NPU的架構更符合廣泛人工智能的需求,并且是人工智能短期內(nèi)最可能實現(xiàn)盈利的關鍵點(甚至已經(jīng)在盈利)。
在物聯(lián)網(wǎng)的邊緣節(jié)點中,MCU是目前最普遍的處理單元,雖然從內(nèi)核架構上MCU已經(jīng)逐步開始增加NN和ML相關的處理能力,但從計算效率來說,傳統(tǒng)的MCU架構并不適合高效地進行AI相關的計算,遠不如NPU這類處理器來得經(jīng)濟高效。作為在通用MCU內(nèi)核方面已經(jīng)占據(jù)領導地位的Arm,除了為基于Armv8架構的內(nèi)核增加了ML支持單元之外,也開始面對物聯(lián)網(wǎng)節(jié)點對更強大AI處理能力的需求推出解決方案。Arm 全新的Corstone-320 物聯(lián)網(wǎng)參考設計平臺集成了 Arm 最高性能的 Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的 Ethos-U85 NPU,為語音、音頻和視覺等廣泛的邊緣 AI 應用提供所需的性能,例如實時圖像分類和目標識別,或在智能音箱上啟用具有自然語言翻譯功能的語音助手。該參考設計平臺涵蓋了軟件、工具和支持,其中包括 Arm 虛擬硬件。該平臺的軟硬件結合特性將使開發(fā)者能夠在物理芯片就緒前便啟動軟件開發(fā)工作,從而加速推進產(chǎn)品進程,為日益復雜的邊緣 AI 設備縮短上市時間。除了降低復雜性和加快產(chǎn)品上市進程,Corstone-320 還帶來了以下優(yōu)勢:
· 提高性能:通過提升計算吞吐量,為各種物聯(lián)網(wǎng)設備和用例提供合適的算力。
· 改善內(nèi)存帶寬:對數(shù)據(jù)寬度和內(nèi)存通道等內(nèi)存帶寬方面進行改善,從而為像素流提供全系統(tǒng)范圍的互連帶寬。
· 提高能效:提高可持續(xù)性,以及延長電池續(xù)航時間。
· 一系列電源模式:包括睡眠模式、待機模式和電源島。
· 降低設計成本,并縮短工程時間:通過“開箱即用的” Corstone-320,設計人員和工程師能夠立即啟動 SoC 設計。
· 更多的安全功能:包括啟動時和運行時的安全機制,都集成至系統(tǒng)中。
· 可觀察性:Corstone-320 中內(nèi)置了所有組件的全面調試和跟蹤功能。
· 改進的靈活性:Corstone-320 設計針對不同的細分市場、設備和用例中進行定制。
· 一系列的軟件支持:包括大量開源軟件等一系列的軟件支持,可降低總體成本和復雜性。
從應用角度,邊緣側需要越來越多的語音、圖像甚至視頻級處理能力,而邊緣側對功耗、尺寸和計算效率的要求遠比云端要更為嚴格。處理能力的提升需要以不增加或者盡可能少增加功耗為基礎,這無疑需要對每個任務的處理效率都提出的更高的需求,因此,基于多核異構的解決方案就是最合理的選擇。比如在硬件方面,Arm為物聯(lián)網(wǎng)參考設計平臺 Corstone-320 集成了以下前沿的IP:Arm Cortex-M85,Arm Mali-C55 ISP,全新的Arm Ethos-U85 NPU和Arm CoreLink DMA-350。其中Arm 最強MCU內(nèi)核Cortex-M85 搭載 Arm Helium 技術,是目前MCU視覺應用的理想之選,能以高能效和高性能提供所需要的安全性和靈活性。Mali-C55絕佳地集成了高分辨率圖像處理能力(可支持 4800 萬像素的圖像分辨率)、能效、可配置性及無與倫比的圖像質量,適用于廣泛的物聯(lián)網(wǎng)視覺應用。同時,高度可配置的直接內(nèi)存訪問控制器 DMA-350,可實現(xiàn)高效的數(shù)據(jù)移動,從而提高系統(tǒng)性能和能效,并支持 Arm TrustZone技術。
參考設計平臺是Arm在進入Armv8架構和Armv9架構時代為了更好提升系統(tǒng)級方案推出的創(chuàng)新解決方案,前有針對移動端的全面計算解決方案(TCS)和針對基礎設施的Neoverse 這兩個面向MPU為主的平臺,如今Corstone-320 則作為面向物聯(lián)網(wǎng)應用的全新參考設計平臺,通過其預先集成、預先驗證的參考設計模版,將幫助Arm的合作伙伴減少邊緣智能芯片開發(fā)的成本和時間。為了加速邊緣側AI的部署,同時為更廣泛、更高性能的設備提供高能效的邊緣推理能力,Arm發(fā)布了迄今性能最高且能效最佳的 Ethos NPU—Ethos-U85。
2017年問世的Transformer 架構徹底改變了生成式AI,并成為許多新型神經(jīng)網(wǎng)絡的首選架構?;赥ransformer架構的模型可利用注意力機制處理序列數(shù)據(jù),并在機器翻譯、自然語言理解、語音識別、分割和圖像字幕生成等多項 AI 任務中實現(xiàn)優(yōu)異的效果。這些模型可被調整和壓縮,在不過多影響準確度的情況下,能高效運行于邊緣設備上,并在許多邊緣側和端側用例中發(fā)揮領先的優(yōu)勢。這種技術趨勢極大地催生了NPU在邊緣側應用的技術需求。
相比于之前發(fā)布的U55和U65, Ethos-U85性能提升四倍,能效提高 20%,同時,其 MAC 單元可從 128 個擴展到 2048 個(在 1GHz 時,算力實現(xiàn) 4 TOPs)。Ethos-U85 NPU 支持TensorFlow Lite和PyTorch等AI框架,更重要的是Ethos-U85 支持 Transformer 架構和卷積神經(jīng)網(wǎng)絡 (CNN) 以實現(xiàn) AI 推理。Transformer 架構將推動新的應用,特別是面向視覺和生成式 AI 用例中,對于理解視頻、填充圖像的缺失部分或分析來自多個攝像頭的數(shù)據(jù)以進行圖像分類和目標檢測等任務非常有效。
除了 Ethos-U55 和 Ethos-U65 目前支持的算子,通過支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等運算,Ethos-U85 涵蓋了對 Transformer 模型和 DeeplabV3 語義分割網(wǎng)絡的原生硬件支持。Ethos-U85 也支持元素級算子鏈化。通過鏈化將元素級運算與先前的運算相結合,使 SRAM 不必先寫入再讀取中間張量。由此可憑借 NPU 和內(nèi)存之間數(shù)據(jù)傳輸量的減少,提高 NPU 的效率。相比于 Ethos-U65,鏈化是 Ethos-U85 在效率提升上的新功能之一,其余還包括快速的權重編碼器、優(yōu)化的 MAC 陣列能效,以及提升的元素效率。
除了包括最新Ethos-U85 NPU在內(nèi)的硬件支持之外,Corstone-320 同樣擁有一系列的軟件支持。Corstone-320軟件套件包括固件、所有 IP 的驅動程序、中間件、實時操作系統(tǒng) (RTOS) 和云集成、ML 模型和參考應用程序。這意味著軟件開發(fā)者能夠輕松選擇其特定細分市場所需的組件,并使用所選開發(fā)工具為該設備構建物聯(lián)網(wǎng)堆棧。開源應用程序演示了關鍵詞識別、語音識別和目標識別用例。與此同時,Corstone-320 中包含的原型平臺能使軟件開發(fā)與 SoC 設計并行啟動。軟件中還包含了固定虛擬平臺 (FVP),用于對構成完整 FPGA 系統(tǒng)的外設進行建模。通過使用 FVP,軟件開發(fā)者無需硬件即可開始開發(fā)應用,從而加快開發(fā)速度。
Arm 通過軟硬件解決方案,生態(tài)系統(tǒng)支持等,不斷促進邊緣 AI 應用的進展,以加速邊緣 AI 的創(chuàng)新步伐。
評論