邊緣視覺 AI 的理想平臺
Kria K26 SOM
本文引用地址:http://2s4d.com/article/202106/426416.htmKria K26 SOM 專門為滿足當前和未來市場對視覺 AI 和視頻分析的需求而設計。尺寸僅有手掌大小,Kria SOM 搭載基于 Zynq? UltraScale+? MPSoC 架構的自適應 SoC 以及支持該 SoC 所需的所有基本組件(如存儲器和電源)。
量產(chǎn)部署的定制也簡便易行。Kria SOM 搭配一款簡單的專為最終用戶設計的載卡,該卡集成了用戶終端系統(tǒng)具體使用的連接組件和附加組件。
在評估和開發(fā)方面,賽靈思提供了一款入門套件。套件包含與視覺型載卡搭配的 Kria K26 SOM。通過將預定義視覺硬件平臺、構建在 Yocto 或 Ubuntu 上的高度可靠且綜合全面的軟件協(xié)議棧與預構建視覺型加速應用相結合,為開發(fā)者提供了一個運用賽靈思技術構建系統(tǒng)的前所未有的方法。詳細介紹請參閱賽靈思白皮書:借助 Kria SOM 實現(xiàn)嵌入式設計簡化[參考資料 6]和 Kria KV260 視覺 AI 入門套件用戶指南[參考資料7]。本白皮書的結論以 KV260 視覺 AI 入門套件為依據(jù)。參見圖 2。
圖2 KV260 視覺 AI 入門套件
將 K26 SOM 用作邊緣設備
智能應用除了要求亞微秒級的時延,還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構為基礎,Kria K26 SOM 提供了業(yè)界一流的單位功耗性能和更低的總體擁有成本,使之成為邊緣設備的理想選擇。Kria SOM 具備硬件可配置能力,也就是說在 K26 上實現(xiàn)的解決方案是可擴展,同時具備未來兼容能力的。
原始計算能力
就在邊緣設備上部署解決方案而言,硬件必須擁有充足的算力,才能處理先進 ML 算法工作負載。我們可以使用各種深度學習處理單元 (DPU) 配置對 Kria K26 SOM 進行配置,還能根據(jù)性能要求,將最適用的配置集成到設計內(nèi)。例如,運行在 300MHz 的 DPU B3136 的峰值性能是 0.94TOPS。運行在 300MHz 的 DPU B4096 的峰值性能是 1.2TOPS,幾乎是 Jetson Nano 公布的峰值性能 472GFLOPS[參考資料 8]的差不多 3 倍。
支持更低精度的數(shù)據(jù)類型
深度學習算法正在以極快的速度演進發(fā)展,INT8、二進制、三進制等更低精度的數(shù)據(jù)類型和定制數(shù)據(jù)正在進入使用。GPU 廠商難以滿足當前的市場需求,因為他們必須修改/調(diào)整他們的架構,才能適應并支持定制的或者更低精度的數(shù)據(jù)類型。Kria K26 SOM 支持全系列數(shù)據(jù)類型精度,如 PF32、INT8、二進制和其他定制數(shù)據(jù)類型。此外,根據(jù) Mark Horowitz(雅虎創(chuàng)始者、斯坦福大學工程學院教授、計算機科學教授)提供的數(shù)據(jù)點[參考資料 9],以較低精度數(shù)據(jù)類型進行的運算功耗更低,比如在 INT8 上進行的運算的功耗比在 FP32 上進行的運算低一個數(shù)量級。參見圖3。
圖3 運算的能耗成本
圖3 所列數(shù)值依據(jù)臺積電 45nm工藝并被證明可以準確地縮放到更小的工藝節(jié)點。因此,Kria SOM 通過可重配置能力,允許適配任何數(shù)據(jù)類型,這是一個重大優(yōu)勢。
低時延與低功耗
一般情況下,對于任何實現(xiàn)在多核 CPU、GPU 或者任何 SoC 上的應用設計而言,功耗可在總體上按如下估算大致進行劃分[參考資料 9]:
● 核心 = 30%
● 內(nèi)部存儲器(L1、L2、L3)= 30%
● 外部存儲器(DDR)= 40%
這就是 GPU 功耗高的主要原因。為了改善軟件可編程能力,GPU 架構需要頻繁訪問外部 DDR。這種做法非常低效,有時候會對高帶寬設計要求構成瓶頸。相反,Zynq MPSoC 架構具有高能效。它的可重配置能力便于開發(fā)者設計的應用減少或不必訪問外部存儲器。這不僅有助于減少應用的總功耗,也通過降低端到端時延改善了響應能力。圖4 所示的是一種典型的汽車應用架構,其中 GPU 與各個模塊的通信都通過 DDR 實現(xiàn),而 Zynq MPSoC 器件采用的是在設計上避免訪問任何DDR 的高效率流水線。
圖4 典型 GPU 與 Zynq MPSoC 架構
靈活性
與數(shù)據(jù)流固定的 GPU 不同,賽靈思硬件提供了靈活性用來專門地重新配置數(shù)據(jù)路徑,從而實現(xiàn)最大吞吐量并降低時延。此外,可編程的數(shù)據(jù)路徑也降低了對批處理的需求,而批處理是 GPU 的一個重大不足,需要在降低時延或提高吞吐量之間做出權衡取舍。Kria SOM 靈活的架構已在稀疏網(wǎng)絡中展示出巨大潛力。稀疏網(wǎng)絡是當前 ML 應用中最熱門的趨勢之一。另一個重要特性(能進一步提高 Kria SOM 靈活性的特性)是任意 I/O 連接。它讓 K26 SOM 在無需主機 CPU 的情況下就可以連接到任何設備、網(wǎng)絡或存儲設備。
評論