運(yùn)用FP-AI-VISION1的影像分類器
意法半導(dǎo)體(ST)持續(xù)積極參與高速發(fā)展的嵌入式人工智能領(lǐng)域。為了在具成本效益和低功耗的微控制器上加快運(yùn)用機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),ST開發(fā)全方位的邊緣人工智能生態(tài)系統(tǒng),嵌入式開發(fā)人員可以在各種STM32微控制器產(chǎn)品組合中,輕松新增利用人工智能的新功能和強(qiáng)大的解決方案。
圖一顯示ST AI解決方案之于整個(gè)STM32產(chǎn)品組合,而且已經(jīng)擁有預(yù)先訓(xùn)練神經(jīng)網(wǎng)絡(luò)的嵌入式開發(fā)人員,可以在任何采用Cortex M4、M33和M7的STM32上移植、優(yōu)化和驗(yàn)證這整個(gè)產(chǎn)品組合。STM32Cube.AI是 STM32CubeMX的AI擴(kuò)充套件,讓客戶能以更高效率開發(fā)其AI產(chǎn)品。
利用深度學(xué)習(xí)的強(qiáng)大功能可以增強(qiáng)訊號(hào)處理效能,并提升STM32 應(yīng)用的工作效率。
本文概述FP-AI-VISION1,此為用于計(jì)算機(jī)視覺開發(fā)的架構(gòu),提供工程師在STM32H7上執(zhí)行視覺應(yīng)用的程序代碼范例。
圖一 : 執(zhí)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的STM32產(chǎn)品組合
從FP-AI-VISION1程序代碼范例開始,簡(jiǎn)易達(dá)成在邊緣執(zhí)行的各種計(jì)算機(jī)視覺使用案例,例如
? 生產(chǎn)在線的物體分類,藉以根據(jù)物體的類型調(diào)整輸送帶速度;
? 偵測(cè)產(chǎn)品的一般瑕疵;
? 區(qū)分不同類型的對(duì)象,例如:螺絲、意大利面、樂高零件,并分揀到不同的容器中;
? 對(duì)設(shè)備或機(jī)器人操作的材料類型進(jìn)行分類,并隨之調(diào)整行為;
? 對(duì)食品類型進(jìn)行分類以調(diào)整烹調(diào)/燒烤/沖泡或重新訂購(gòu)貨架上的新產(chǎn)品。
FP-AI-VISION1
概述
FP-AI-VISION1是STM32Cube功能套件(FP),提供采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算機(jī)視覺應(yīng)用范例。其由STM32Cube.AI產(chǎn)生的軟件組件和AI計(jì)算機(jī)視覺應(yīng)用專用的應(yīng)用軟件組件組成。
功能套件中提供的應(yīng)用范例,包含:
? 食品識(shí)別:辨識(shí)18類常見食品;
? 人體感測(cè):識(shí)別影像中是否有人;
? 人數(shù)統(tǒng)計(jì):依照物體偵測(cè)模型計(jì)算情境中的人數(shù)。
主要特色
FP-AI-VISION1在與STM32F4DIS-CAM攝影機(jī)子板,或是B-CAMS-OMV攝影機(jī)模塊搭配連接的STM32H747I-DISCO板上運(yùn)作,包括用于攝影機(jī)擷取、畫格影像預(yù)處理、推斷執(zhí)行的完整應(yīng)用韌體和輸出后處理。這也提供浮點(diǎn)和 8 位量化 C 模型的整合范例,并支持多種數(shù)據(jù)存儲(chǔ)器設(shè)定,滿足各種應(yīng)用需求。
此功能套件最重要的其中一項(xiàng)關(guān)鍵優(yōu)勢(shì)是提供范例,描述如何將不同類型的數(shù)據(jù)有效地放置在芯片上的內(nèi)存和外部?jī)?nèi)存中。用戶因此能夠輕松了解最符合需求的內(nèi)存分配,并有助建立適用于STM32系列的自定義神經(jīng)網(wǎng)絡(luò)模型,特別是在STM32H747-Disco板上。
圖二 : FP-AI-VISION1評(píng)估裝置范例
FP-AI-VISION1 包括三個(gè)采用 CNN 的影像分類應(yīng)用范例:
? 一種對(duì)彩色(RGB 24位)畫格影像執(zhí)行的食品識(shí)別應(yīng)用;
? 一種對(duì)彩色(RGB 24位)畫格影像執(zhí)行的人體感測(cè)應(yīng)用;
? 一種對(duì)灰階(8位)畫格影像執(zhí)行的人體感測(cè)應(yīng)用。
本文將重點(diǎn)介紹食品識(shí)別和人體感測(cè)之兩種范例。
首先討論食品識(shí)別應(yīng)用。食品識(shí)別CNN是MobileNet模型的衍生模型。MobileNet是適用于行動(dòng)和嵌入式視覺應(yīng)用的高效率模型架構(gòu),此模型架構(gòu)由Google[1]提出。
MobileNet模型架構(gòu)包括兩個(gè)簡(jiǎn)單的全局超參數(shù),可以高效在延遲和準(zhǔn)確度之間進(jìn)行權(quán)衡。原則上,這些超參數(shù)可讓模型建構(gòu)者根據(jù)問題的限制條件,決定應(yīng)用大小適合的模型??紤]STM32H747的目標(biāo)限制條件,此軟件套件中使用的食品識(shí)別模型是透過調(diào)整這些超參數(shù)建構(gòu)而成,以便在準(zhǔn)確度、運(yùn)算成本和內(nèi)存占用之間進(jìn)行最佳權(quán)衡。
圖三為食品識(shí)別模型的簡(jiǎn)單執(zhí)行流程。這在STM32H747上執(zhí)行,大約需要150毫秒才能完成推斷。
圖三 : 食品識(shí)別模型的執(zhí)行流程
其次,將說明人體感測(cè)應(yīng)用。FP-AI-VISION1 提供兩個(gè)人體感測(cè)的范例應(yīng)用:
? 一種采用低復(fù)雜度CNN 模型(所謂的Google_Model),用于處理分辨率為96×96像素的灰階影像(每像素 8 位)。這個(gè)模型可從:storage.googleapis.com下載。
? 一種采用更高復(fù)雜度的CNN模型(所謂的 MobileNetv2_Model),用于處理分辨率為 128×128像素的彩色影像(每像素 24 位)。
在此觀察前一個(gè)模型,人體感測(cè)應(yīng)用程序可識(shí)別影像中是否有人。在與STM32F4DIS-CAM連接的STM32L4R上執(zhí)行這個(gè)應(yīng)用程序時(shí),大約需要270毫秒來推斷。而閃存和 RAM 的大小足以在微控制器上執(zhí)行神經(jīng)網(wǎng)絡(luò) (NN),如圖四所示。
圖四 : 人體感測(cè)概覽
人體感測(cè)可利用從低功率喚醒,使用案例包括開燈、開門或其他任何自定義方法。一般用途通常采用被動(dòng)紅外線傳感器,藉以在偵測(cè)到移動(dòng)的時(shí)間和地點(diǎn)觸發(fā)事件。不過,這種PIR 系統(tǒng)的問題是可能發(fā)生誤報(bào)。如果有貓經(jīng)過或在風(fēng)中飛舞的樹葉,可能會(huì)觸發(fā)這個(gè)系統(tǒng)。人體感測(cè)應(yīng)用只會(huì)偵測(cè)人類,并且有助于輕松開發(fā)更智能的偵測(cè)系統(tǒng)。
系統(tǒng)架構(gòu)
FP-AI-VISION1的頂層架構(gòu),如圖五所示。
圖五 : FP-AI-VISION1架構(gòu)
應(yīng)用建構(gòu)流程
從浮點(diǎn) CNN 模型(使用 Keras 等架構(gòu)設(shè)計(jì)和訓(xùn)練)開始,使用者產(chǎn)生優(yōu)化的C程序代碼(使用STM32Cube.AI 工具)并整合到計(jì)算機(jī)視覺架構(gòu)中(FP-AI-VISION1 提供),以便在 STM32H7上建構(gòu)計(jì)算機(jī)視覺應(yīng)用。
產(chǎn)生C程序代碼時(shí),使用者可從下列兩個(gè)選項(xiàng)中擇一:
? 直接從CNN模型以浮點(diǎn)方式產(chǎn)生浮點(diǎn)C程序代碼;
? 或者對(duì)浮點(diǎn)CNN模型進(jìn)行量化,得到8位模型,隨后產(chǎn)生對(duì)應(yīng)之量化后的C程序代碼;
對(duì)于大多數(shù) CNN 模型,第二個(gè)選項(xiàng)可以減少內(nèi)存占用(閃存和RAM)以及推斷時(shí)間。對(duì)最終輸出準(zhǔn)確度的影響則取決于CNN模型以及量化過程(主要是測(cè)試數(shù)據(jù)集和量化算法)。
圖六 : FP-AI-VISION1架構(gòu)
應(yīng)用執(zhí)行流程
對(duì)于計(jì)算機(jī)視覺應(yīng)用,整合需要一些數(shù)據(jù)緩沖區(qū),如圖七所示。
圖七 : 執(zhí)行流程中的數(shù)據(jù)緩沖區(qū)
應(yīng)用過程依序執(zhí)行下列操作:
1. 在 camera_capture buffer中擷取攝影機(jī)畫格(透過DCMI數(shù)據(jù)緩存器中的DMA引擎)。
2. 此時(shí),根據(jù)選擇的內(nèi)存分配配置,將camera_capture buffer內(nèi)容復(fù)制到 camera_frame buffer,并啟動(dòng)后續(xù)畫格的擷取。
3. camera_frame buffer中包含的影像將重新縮放到Resize_Dst_Img buffer中,藉以配合預(yù)期的CNN輸入張量尺寸。例如,食品識(shí)別NN模型需要輸入張量,例如 Height × Width = 224 × 224像素。
4. 執(zhí)行Resize_Dst_Img buffer到Pfc_Dst_Img buffer的像素色彩格式轉(zhuǎn)換。
5. 將Pfc_Dst_Img buffer內(nèi)容中包含的各像素格式調(diào)整到nn_input緩沖區(qū)中。
6. 執(zhí)行NN模型的推斷:這個(gè)nn_input buffer以及activation buffer提供給NN作為輸入。分類結(jié)果將儲(chǔ)存在 nn_output buffer中。
7. 對(duì)nn_output buffer內(nèi)容進(jìn)行后處理,并顯示結(jié)果于屏幕上。
圖表八詳細(xì)說明了食品識(shí)別應(yīng)用在整合量化C模型或浮點(diǎn)C模型時(shí)所需的RAM。
圖八 : 用于食品識(shí)別應(yīng)用的SRAM內(nèi)存緩沖器
參考數(shù)據(jù)
[1] 食品識(shí)別 CNN 是 MobileNet 模型的衍生模型。MobileNet:用于行動(dòng)視覺應(yīng)用的高效率卷積神經(jīng)網(wǎng)絡(luò)
[2]UM2611:FP-AI-VISION1手冊(cè)
[3]UM2526:STM32Cube.AI手冊(cè)
[4]FP-AI-VISION1 視訊應(yīng)用影片
評(píng)論