新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 邊緣視覺 AI 的理想平臺

邊緣視覺 AI 的理想平臺

作者: 時間:2021-06-18 來源:電子產(chǎn)品世界 收藏

深度學習模型性能比較

本文引用地址:http://2s4d.com/article/202106/426416.htm

本白皮書引用英偉達公布的 Jetson Nano 和 Jetson Tx2 的時延性能優(yōu)化值和吞吐量性能優(yōu)化值[參考資料10],并測量了賽靈思 AI 模型庫中提供的復雜性相似的等效模型的性能。在用 B3136 DPU 和 B4096 DPU 配置的 KV260 入門套件上執(zhí)行這些模型,獲取性能數(shù)值。賽靈思平臺上的所有模型均以 INT8 量化,以改善功耗并提高帶寬效率。英偉達 Jetson Nano 和英偉達 Jetson Tx2 的性能數(shù)值以 FP16 精度報告,因為這些英偉達器件不支持較低精度的 INT8 [參考資料 11]。但賽靈思和英偉達性能應(yīng)用均使用綜合數(shù)據(jù)作為輸入,在報告中并不包括預(yù)處理和后處理時間。參見表2。

表 2:深度學習模型性能比較

 

編號

模型

圖像大小

賽靈思 K26 B3136 DPU

賽靈思 K26 B4096 DPU

英偉達 Jetson   Nano

英偉達 Jetson   TX2

FPS

(時延優(yōu)化)(1)

FPS

(吞吐量優(yōu)化)(2)

FPS

(延遲優(yōu)化)

FPS

(吞吐量優(yōu)化)

FPS

(時延優(yōu)化)

FPS

(吞吐量優(yōu)化)

FPS

(時延優(yōu)化)

FPS

(吞吐量優(yōu)化)

1

Inception V4

299x299

19

19.1

30.3

30.4

11

13

24

32

2

VGG-19

224x224

17.9

17.9

17.4

17.4

10

12

23

29

3

Tiny Yolo V3

416x416

88.2

92.6

148.0

161.3

48

49

107

112

4

ResNet-50

224x224

49

49.1

75.6

75.9

37

47

84

112

 

5

SSD

Mobilenet-   V1

300x300

129.6

133.4

 

192.1

 

200.4

 

43

 

48

 

92

 

109

6

SSD

ResNet34

1200x1200

1.6

1.6

2.5

2.5

1

1

3

2

說明:

1.K26 SOM 完成時延優(yōu)化后可執(zhí)行一個線程。

2.K26 SOM 完成吞吐量優(yōu)化后可執(zhí)行兩個線程。

3.請聯(lián)系您當?shù)氐馁愳`思銷售代表,獲取賽靈思 ML 性能包說明。

根據(jù)表 2 所列信息,所有模型在 K26 SOM 上的性能數(shù)值均優(yōu)于英偉達 Jetson Nano。而且對于 SSD Mobilenet-V1 等部分模型,吞吐量則為 Jetson Nano 的四倍以上,為 Jetson Tx2 的兩倍左右。參見圖 5,從中可以很容易地看到顯著的吞吐量提升。

1624242354435317.png

圖5 FPS 測量(時延優(yōu)化)

功耗測量

邊緣設(shè)備提供最佳性能這點非常重要,但同時必須降低能耗。本白皮書在研究中測量了英偉達和賽靈思 SOM 模塊在執(zhí)行表 2 所列的具體模型時發(fā)生的峰值功率。但是,SSD ResNet34 模型的功耗測量不包括在內(nèi),因為 Jetson 基準測試庫不包含此模型。[參考資料 10]峰值功率數(shù)值是在所有三種器件上的時延優(yōu)化模式下執(zhí)行比較時取得的。對于英偉達 Jetson Nano 和 TX2,每 30 秒從 INA3221x

驅(qū)動程序的 sysfs 節(jié)點獲取一次讀數(shù);對于賽靈思 K26 SOM,每 10 秒從 ina260-adc 驅(qū)動程序獲取一次讀數(shù)。參見表 3。

表3 峰值功率測量(單位:瓦)

編號

模型

賽靈思 K26 SOM B3136 DPU

賽靈思 K26   SOM B4096 DPU

英偉達 Jetson Nano

英偉達 Jetson TX2

1

Inception V4

8.09

10.10

7.40

11.20

2

VGG-19

8.55

11.28

8.10

13.10

3

Tiny Yolo V3

8.26

11.08

7.80

12.30

4

ResNet-50

7.47

9.28

7.70

11.70

5

SSD Mobilenet-V1

7.67

9.29

7.30

10.80

為了更準確地理解功耗優(yōu)勢,請參看圖 6 所示的單位功耗性能。很明顯,K26 SOM 優(yōu)于 Jetson Nano 3.5 倍,優(yōu)于 Jetson TX2 2.4 倍。

image.png

圖6 FPS/瓦

剪枝優(yōu)勢

賽靈思提供 AI 優(yōu)化工具,能進一步增強運行在 K26 SOM 上的各種神經(jīng)網(wǎng)絡(luò)的性能。本白皮書中提供的比較數(shù)據(jù),到目前為止均是在未經(jīng)優(yōu)化或剪枝的原始模型上取得的。大多數(shù)神經(jīng)網(wǎng)絡(luò)通常都有過度參數(shù)化的情況,存在可以優(yōu)化的相當嚴重的冗余。賽靈思的 AI 優(yōu)化器是一種行業(yè)領(lǐng)先的模型壓縮技術(shù)。該工具可在幾乎不影響精度的情況下,將模型復雜性最多降低 50 倍。

本白皮書引用了賽靈思研究部所做的案例研究中的一個例子[參考資料12]。這是一個擁有 117 千兆次運算 (Gops) 的非常復雜的 SSD + VGG 模型,它使用賽靈思 AI優(yōu)化器工具經(jīng)多次迭代進行優(yōu)化。圖7 所示的是使用 AI 優(yōu)化器工具為模型剪枝帶來的好處。作為基線,該模型運算量為 117Gops,運行在用兩個 B4096 DPU 配置的 Zynq UltraScale+ MPSoC 上,最高 FPS 為 18。經(jīng)過數(shù)次剪枝迭代,數(shù)據(jù)顯示復雜性明顯下降,F(xiàn)PS 相應(yīng)增加,但未對精度 (mAP) 造成任何影響。在第 11 次迭代時,復雜性降低了 10 倍, 即復雜性從 117Gops 降低到 11.6Gops;性能提高 5 倍,即性能從 18FPS 提高到 103FPS;精度僅下降 1.1%,即從 61.55mAP 下降到 60.4mAP。

image.png

圖7 剪枝結(jié)果

到這里,我們已經(jīng)對 Kria K26 SOM 與 GPU 的原始性能對比做了介紹。了解這種原始性能在實際用例中的意義至關(guān)重要。實際用例結(jié)構(gòu)復雜,涉及流水線中的其他模塊,如任何 AI-ML 應(yīng)用所需的預(yù)處理和后處理組件。在這類應(yīng)用中,最大吞吐量由流水線中性能最低的組件決定。

下面章節(jié)里的性能比較以兩種器件的實際用例為基礎(chǔ)。

實際應(yīng)用的性能比較

為了分析實際用例,我們選擇了一種準確檢測和識別車輛牌照的基于機器學習的應(yīng)用。賽靈思已經(jīng)與在智慧城市視頻分析解決方案領(lǐng)域居于行業(yè)領(lǐng)先地位的 Uncanny Vision 合作,旨在為市場提供世界一流的汽車牌照(車牌)識別 (ANPR) 解決方案。這種應(yīng)用已得到世界上眾多城市的廣泛采用,用于智慧城市的建設(shè)中。ANPR 的主要應(yīng)用包括自動收費管理系統(tǒng)、高速公路監(jiān)測系統(tǒng)、停車場門禁和安全門門禁。ANPR應(yīng)用是一種基于 AI 的流水線,內(nèi)含視頻解碼、圖像預(yù)處理、機器學習(檢測)和 OCR 字符識別。參見圖8。

1624242449834690.png

圖8 ALPR 應(yīng)用的處理模塊

ANPR AI 盒應(yīng)用一般從現(xiàn)貨 IP 攝像頭攝入一個到多個 H.264 或 H.265 編碼的 RTSP 流并進行解碼(解壓縮)。解碼的視頻幀在被機器學習算法攝入前,先進行預(yù)處理(通常是縮放、剪裁、色彩空間轉(zhuǎn)換和歸一化)。就高性能商用 ANPR 實現(xiàn)方案而言,通常需要多級 AI 流水線。第一個網(wǎng)絡(luò)的作用是檢測和定位幀內(nèi)的車輛。這項操作中還結(jié)合了跨多幀追蹤車輛軌跡的算法和選擇最佳幀曝光,為OCR 優(yōu)化圖像畫質(zhì)的算法。通常先剪裁和縮放車輛感興趣區(qū)域 (ROI),然后饋入負責定位車牌的次級檢測網(wǎng)絡(luò)。與車牌 ROI 有關(guān)的像素經(jīng)過剪裁和縮放,最終被饋送到負責實現(xiàn) OCR 預(yù)測的最后一個神經(jīng)網(wǎng)絡(luò)。最后一級提供的元數(shù)據(jù)預(yù)測是壓印或印刷在車牌上或是以其他方式可見的字母數(shù)字字符。為了進行比較,已商業(yè)化地部署在 GPU 和 CPU 上的 Uncanny Vision 的 ANPR 應(yīng)用,為實現(xiàn)在 Kria KV260 視覺 AI 入門套件上的部署進行了優(yōu)化。結(jié)果證明,將 Uncanny Vision 算法在 Kria SOM 上進行部署后,打破了每流 100 美元的價格壁壘,而且性能是 Uncanny Vision 以前使用的商品化同類 SOM 產(chǎn)品的 2-3 倍。盡管賽靈思沒有專門為運行在英偉達 SOM 上的 Uncanny Vision 算法進行基準測試,但表4 體現(xiàn)的是將 Uncanny Vision 行業(yè)領(lǐng)先的 ANPR 算法部署在 Kria SOM 上后,與英偉達用 Deepstream-SDK[參考資料13]完成的“車牌識別”的公開數(shù)據(jù)的比較。

表4 ANPR 應(yīng)用的性能比較

硬件(模塊)

英偉達 Jetson Nano

英偉達 Jetson TX2 4GB

英偉達 Jetson TX2 NX

賽靈思 Kria K26C SOM

價格

129 美元

299 美元

199 美元

250 美元

Fps

8(1)

23(1)

未公布,預(yù)計是TX2

33

流數(shù)量

(假定每流10fps)

 

~1

 

2

 

未公布,預(yù)計是TX2

 

3

每流價格

129 美元

150 美元

100 美元

83 美元

最大功耗(僅SOM)

10W(2)

15W(2)

未公布,預(yù)計是TX2

15W(3)

每流功耗

10

7.5

7.5

5

說明:

1.來源:https://developer.nvidia.com/deepstream-sdk

2.英偉達的功耗值是其 SOM 的最大額定功耗。來源:https://developer.nvidia.com/embedded/jetson-modules

3.僅 K26 SOM 的最大額定功耗。

這些數(shù)據(jù)說明,Uncanny Vision 的 ANPR 流水線在針對 KV260 入門套件進行優(yōu)化后,實現(xiàn)了超過 33fps 的吞吐量,顯著優(yōu)于英偉達基準測試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為ANPR 集成商和 OEM 廠商提供了優(yōu)于競爭對手的開發(fā)靈活性。每多安裝一個 AI 盒都會直接影響安裝成本,還不考慮相關(guān)的布線和導管成本。根據(jù)安裝的具體情況,設(shè)計師可以犧牲幀率來換取更大的每盒處理流數(shù)。對于停車場安裝(如停停走走、攔車桿和自由通行),推斷和捕獲幀率通常要達到 10fps 才可滿足要求,還能可靠地采集車牌元數(shù)據(jù)。這便于設(shè)計師將多個攝像頭流聚合到單個 AI 盒,從而節(jié)省

每個閘門的總體資本支出 (CAPEX) 和運營成本 (OPEX)。在高速應(yīng)用中,如高速公路收費和執(zhí)法,較高的幀率確保能夠準確可靠地檢測和識別高速行駛中的車輛。在 33fps 的吞吐量下,與當今市場上有可比性的競爭解決方案相比,K26 SOM 能夠更加可靠地為識別和證據(jù)搜集提供支持。

大多數(shù) ANPR 系統(tǒng)都需要在環(huán)境嚴苛的條件下高可靠性運行。I 級的 K26 SOM 專為嚴酷環(huán)境開發(fā),

支持 –40°C 至 100°C 的工作溫度范圍和行業(yè)領(lǐng)先的三年質(zhì)保。在采用 K26I SOM 后,與市場上原有解決方案相比,ANPR 系統(tǒng)的總體擁有成本顯著降低。

Uncanny Vision 的 ANPR 應(yīng)用說明,K26 SOM 不僅在標準性能比較中表現(xiàn)極其優(yōu)異,并且在為開發(fā)者提供加速整體 AI 和視覺流水線所需的原始性能時,效率也更高。通過對比,在標準的基準測試領(lǐng)域之外,競爭解決方案傾向于提供較低效率水平,而且功耗較高。




關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉