MemryX AI 加速卡結合 Rockchip RK3588 多路物體檢測解決方案

—— 強大擴展邊緣運算 AI 新世代 ( Simple & Scalable Edge AI )

作者：時間：2025-03-05 來源：大大通

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

信息革命的浪潮正快速推進！隨著科技日新月異的發(fā)展，人工智能(AI) 的應用已悄然融入人們的日常生活，無論是 Google 的搜索引擎、Facebook 的推薦系統(tǒng)，還是電商平臺的銷售排行，AI 技術正潛移默化地改變著我們的生活方式。這些科技成果的普及，使得低成本、高效能的解決方案成為當下的關鍵需求。

本文引用地址：http://2s4d.com/article/202503/467664.htm

同時，視覺相關的AI應用正在改變著我們的世界，無論是在車用、工業(yè)還是醫(yī)療領域，都展現(xiàn)出其無可替代的價值。未來，隨著視覺AI技術的進一步發(fā)展，更多的創(chuàng)新應用將逐步落地，徹底重塑我們的日常生活與工作方式。應用于以下領域：

◆ 智能監(jiān)控：可實現(xiàn)實時目標檢測、行為分析及入侵預警，為智慧城市的安全提供保障。

◆ 智慧零售：通過顧客行為分析與智能貨架管理，優(yōu)化購物體驗并提升銷售效率。

◆ 醫(yī)療影像分析：協(xié)助醫(yī)生進行精準診斷，例如腫瘤檢測分析以提升醫(yī)療效率與準確性。

◆ 工業(yè)質(zhì)檢：利用視覺AI快速識別產(chǎn)品瑕疵，確保生產(chǎn)質(zhì)量，提高生產(chǎn)效率。

◆ 自動駕駛：車載AI能夠通過視覺處理分析道路環(huán)境、行人和障礙物，實現(xiàn)即時決策，提升駕駛安全性。

其中，邊緣計算(Edge Computing) 將是推動這項技術的關鍵指標隨著神經(jīng)運算處理芯片(Neural Processing Unit, NPU) 的誕生，運算性能實現(xiàn)了指數(shù)級的飛躍，使機器學習與人工智能應用得以廣泛應用于移動設備、傳感器等多種硬件中，將智能計算更貼近人們的日常生活。因此MemryX 推出 MX3 AI 芯片能夠提供每瓦 5 TOPS 的算力性能，并且支持浮點數(shù)(Brain Floating Point) 運算來確保用戶的模塊準確度。每顆芯片內(nèi)建 10.5 MB 的靜態(tài)隨機存取存儲器(SRAM) 用于訪問模塊，不會占用主系統(tǒng)的資源，并且最多可以串聯(lián) 16 顆芯片來擴展性能。

圖1 MemryX AI芯片規(guī)格示意圖

2024年，MemryX 重磅推出外掛式 MemryX MX3 AI 推理加速卡，采用 PCIe Gen3 M.2 M-Key 接口，具備高達 20 TOPS 的卓越計算性能，為各類工業(yè)電腦帶來即插即用的便捷體驗。該解決方案以“平臺升級，迎接AI智能時代”為設計理念助力企業(yè)與開發(fā)者輕松邁向人工智能領域。本方案特別結合了 Orange Pi 5 Plus (Rockchip RK3588) 與 MemryX AI 加速卡，構建出一套高性價比的智能解決方案。憑借 MemryX 提供的豐富軟件資源及對主流深度學習框架 (如 TensorFlow、PyTorch、ONNX) 的支持，即便是新手也能快速上手，輕松部署 AI 模型，實現(xiàn)智能應用開發(fā)。

圖2 基于 MemryX AI 加速卡結合 Rockchip RK3588 多路物體檢測解決方案優(yōu)勢示意圖

憑借 MemryX 的強大運算能力，能夠輕松 實現(xiàn)多路(Multi-Streamer) 的物體檢測(Object Detection) 應用。只需要使用普通的USB攝像頭或通過網(wǎng)絡來源串聯(lián)，即可適用于市面上常見的停車場管理系統(tǒng)、智慧停車柱、智慧交通監(jiān)控、商場人流檢測、居家無死角意外檢測等應用?，F(xiàn)在就加入我們，體驗人工智能的無限魅力！讓 AI 助力您的創(chuàng)新，開創(chuàng)屬于您的智能應用時代！

圖3 多路物件檢測解決方案應用示意圖

搭配 MemryX 所構建的開發(fā)環(huán)境 Developer Hub，開發(fā)者能夠簡單且快速地上手將 TensorFlow Lite、ONNX、Pytorch、Keras 等熱門深度學習框架的模塊轉換為 MemryX MX3+ 芯片所需的 DFP 框架。并通過原廠豐富的示例應用與公共工具，即可一步步實現(xiàn) AI 應用。

圖4 MemryX 開發(fā)環(huán)境示意圖

▼ 編譯器(Compiler)

神經(jīng)編譯器提供多種功能，如多模型整合(Multi-Model)、模型剪枝(Model Cropping)、多路流輸入單一應用(Multiple Input Streams)、單路流輸入多個應用(Shared Input Stream)、混合精度權重(Mixed-Precision Weights)、模塊資源使用情況顯示(Resources Utilization)。通過簡單的命令行指令，能夠幫助開發(fā)者。快速轉換模塊將 Pytorch、Keras、Tensorflow、Tensorflow Lite、ONNX 等模型轉換為 MemryX DFP 模組格式。

▼ 運行時(Runtime)

提供優(yōu)化的用戶體驗，利用 Benchmark 搭配模型庫能夠幫助開發(fā)者快速評估其硬件性能與準確度，并且提供多種開源示例 DEMO (MemryX_Example) 與簡潔有力的 API 能夠幫助開發(fā)者快速實現(xiàn)與部署AI應用。

基準測試(Python，C/C++)

加速器 API(Python，C/C++)

▼ 公用工具(Utility Tools)

模擬器 (Simulator) : 為 MemryX 提供一套軟件，以解決手頭沒有 MX3 芯片的開發(fā)者進行性能評估的問題。

可視化工具(Viewer) : 為 MemryX 提供的 GUI 界面，包含上述編譯器、模擬器、加速器。

檢查器(DFP Inspect) : 為 MemryX 提供的一套檢查 DFP 文件的工具。

如下圖所示，展示了更多實際的應用，如物體檢測、語義分割、車輛識別、深度估算、肢體識別、虛擬畫筆、人臉識別、車牌識別、表情檢測、圍欄警示等。都可以通過你的想象力與創(chuàng)造力，開發(fā)出更具潛力的殺手級應用！這里還提供了實際應用數(shù)據(jù)，大多數(shù)應用都能輕松達到每秒 30 幀以上的推理速度！并主打浮點數(shù)運算 (BF16)，確保模型的準確性！潛力無限！

圖5 MemryX 實際應用示意圖

圖6 MemryX M3+ 芯片性能數(shù)據(jù)表

?場景應用圖

?展示板照片

?方案方塊圖

?核心技術優(yōu)勢

◆ 采用浮點數(shù) BF16 進行計算，確保模塊準確度：模塊設計以 BF16（Brain Floating Point 16）為基礎進行運算，相較于傳統(tǒng)的浮點數(shù)格式，BF16 能夠在大幅減少內(nèi)存使用量的同時，仍然提供接近 FP32 的計算準確度。這使其特別適合用于人工智能和深度學習模型的推理與訓練場景，確保結果的精確性。 ◆ 不占用系統(tǒng)內(nèi)存：模塊運行時采用了獨立內(nèi)存的架構，無需占用主系統(tǒng)的 RAM 資源，有效降低對系統(tǒng)整體性能的影響。這種設計特性確保模塊在高效運行的同時，仍然能為其他應用程序預留足夠的系統(tǒng)資源。 ◆ 高度可擴展性：支持連接多達 16 個模塊，通過模塊化設計實現(xiàn)高擴展性。這使得系統(tǒng)能夠根據(jù)需求靈活擴展計算能力，以應對不同場景的計算需求，例如需要更高性能的數(shù)據(jù)中心或邊緣計算。 ◆ 最佳數(shù)據(jù)流優(yōu)化，最大限度減少數(shù)據(jù)移動：模塊內(nèi)部針對數(shù)據(jù)流進行了高度優(yōu)化設計，通過智能路由和緩存機制，能夠最大程度地減少數(shù)據(jù)在運行過程中的移動頻率，從而提升處理性能并降低延遲。此外，這樣的設計也有助于降低能耗，進一步增強系統(tǒng)的運行效率。 ◆ 高性價比與低功耗解決方案：將主平臺 Orange Pi 5 Plus 搭配 MemryX MX+ 的 AI 芯片，即可無痛升級為更高階的 AI 平臺，每秒能夠運行約 480 幀（YOLOv8）的物體檢測；且 MX3+ 擁有 5 TOPS/W 的性能表現(xiàn)，整套多路物體檢測解決方案僅耗電約 14 W。 ◆ 多路應用的新概念：相較于近年來興起的邊緣計算，將其概念套用到區(qū)域性場景或許是一個新穎且能夠大幅降低成本的解決方案。利用輕松易得的攝像頭，再搭配一臺智能工業(yè)主機，即可實現(xiàn)許多應用，并且能夠對前端的攝像頭進行任意更換與配置。

?方案規(guī)格

◆ 主平臺開發(fā)板采用 RockChip RK3588 平臺為基礎，搭載四顆 Cortex-A76 處理器與四顆 Cortex-A55 處理器，并提供高性能圖像處理器 Arm Mali-G610 與神經(jīng)運算處理器 NPU 等強大核心架構。 ◆ I/O Board 開發(fā)板提供強大的周邊配置，如 Gigabit Ethernet 千兆以太網(wǎng)、USB Type A/C 3.0 通用串行總線接口、HDMI 高清多媒體接口、M.2 E-Key 傳輸接口、M.2 M-Key 傳輸接口，并能夠通過擴展的 40 pin 針腳來模擬常用的 UART、I2C、SPI、CAN 等信號。 ◆ MemryX MX3+ 芯片提供強大的 AI 運算能力（20 TOPS），以 PCIe Gen3 M.2 2280 M-Key 接口為主，其 M.2 加速卡搭載四顆 MX3+ 芯片，每顆芯片能夠提供 5 TOPS/W 的性能，并內(nèi)置 10.5 MB 的靜態(tài)隨機存取存儲器用于存取模塊。支持 Linux 與 Windows 兩大操作系統(tǒng)，并提供豐富的軟件資源供開發(fā)者使用，能夠直接移植 Tensorflow、ONNX、Pytorch、Keras 等熱門的深度學習框架。

新聞中心