嵌入式實時面部檢測應(yīng)用設(shè)計指南

作者：時間：2013-01-15 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文引用地址：http://2s4d.com/article/148138.htm

　　單指令多數(shù)據(jù)（SIMD）架構(gòu)能夠在多數(shù)據(jù)元上運行單指令，從而縮短代碼長度并提高性能。使用向量處理器架構(gòu)，可通過加法器/減法器并行數(shù)量因子，加速這些積分和的計算。如果向量寄存器可以加載16像素，而且這些像素可同時加到下一向量，加速因子是16.顯然，為處理器增加類似的向量處理單元可以使這一因子翻倍。

　　在下一面部檢測階段，在多個位置及按多種尺度掃描圖像。采用Adaboost強大的區(qū)分器（以矩形特征為基礎(chǔ)的區(qū)分器），以決定搜索窗口是否包含面部。再一次，向量處理器具有明顯的優(yōu)勢 - 具有同時將多個位置數(shù)據(jù)與閾值進行對比的能力。

　　假設(shè)在一個圖像中，大多數(shù)子圖像都不是面部例，可以提供的并行比較器越多，加速越快。

　　例如，如果架構(gòu)設(shè)計具有在1個循環(huán)中比較8個要素中的2個向量的能力，則排除16個位置的子圖像僅需1個循環(huán)。為了簡化數(shù)據(jù)加載，并且高效率地利用向量處理器加載/儲存，各個位置可以在空間上彼此接近。

　　為了獲得高度并行的代碼，架構(gòu)應(yīng)支持指令預測。這樣可以使如果-則-否則（if-then-else）構(gòu)造導致的分支用順序碼來代替，從而減少循環(huán)數(shù)和縮短代碼長度。允許條件執(zhí)行，有能力綜合各種條件，在控制代碼中實現(xiàn)更高的效率。此外，非順序碼，如分支和回路，經(jīng)設(shè)計具有零循環(huán)損失，而不需要煩瑣的技術(shù)，如動態(tài)分支預測和增加RISC處理器功率損耗的推理執(zhí)行。

　　一個關(guān)鍵的應(yīng)用挑戰(zhàn)是存儲器帶寬，該應(yīng)用需要對每幀視頻流進行掃描，以執(zhí)行面部檢測。由于其數(shù)據(jù)量較大，視頻流無法儲存在緊耦合存儲器（TCM）中。例如，一個YUV 4:2:0格式的高清幀占用了3MB數(shù)據(jù)存儲器。這種高存儲器帶寬導致功率損耗更高，并需要更昂貴的DDR存儲器，從而使材料清單成本更高。一個完美的解決方案是采用數(shù)據(jù)分塊（data tiling）來儲存像素，其中2維數(shù)據(jù)塊在單次突發(fā)中由DDR存取，極大地改善了DDR的效率。直接存儲器存取（DMA）可以在外部存儲器和核心存儲器子系統(tǒng)之間傳輸數(shù)據(jù)。在最終面部檢測 應(yīng)用階段，包含檢測面部的子圖像尺寸重新調(diào)整到固定尺寸輸出窗口。

　　當圖像在多個比例掃描時，還在檢測階段使用圖像尺寸調(diào)整過程。尺寸調(diào)整算法廣泛應(yīng)用于圖像處理，用于視頻放大和縮小。面部檢測應(yīng)用中執(zhí)行的算法是雙三次算法。三次卷積插值根據(jù)離規(guī)定輸入坐標最近的16個像素的加權(quán)平均值來確定灰度值，并將該值分配給輸出坐標。首先，在一個方向（水平方向）上執(zhí)行四個一維三次卷積，然后，在垂直方向執(zhí)行更多個一維三次卷積。這意味著要執(zhí)行一個二維三次卷積，而所需的是一個一維三次卷積。

　　向量處理器內(nèi)核具有強大的加載-儲存能力，能夠快速、有效地存取數(shù)據(jù)是此類應(yīng)用的關(guān)鍵特征，其中算法在數(shù)據(jù)塊上運行?？赏ㄟ^在單循環(huán)中從存儲器訪問2維存儲器塊來滿足尺寸調(diào)整算法優(yōu)化。

　　這一特點使處理器能夠有效地實現(xiàn)較高的存儲器帶寬，不需要載入不必要的數(shù)據(jù)或執(zhí)行數(shù)據(jù)操作的負荷計算單元。此外，能夠在數(shù)據(jù)存取期間轉(zhuǎn)置數(shù)據(jù)且不存在任何循環(huán)損失，這使得轉(zhuǎn)置的數(shù)據(jù)塊能夠在單一循環(huán)中存取，對于執(zhí)行水平過濾和垂直過濾非常切實可行。處理器的功率是其執(zhí)行強大卷積能力的結(jié)果，可以在單一循環(huán)中執(zhí)行并行的過濾器。

　　這里是一個有效解決方案的實例。在一個循環(huán)中加載4x8字節(jié)塊，然后每個迭代利用4個像素，在垂直方向執(zhí)行三次卷積。這4個像素預先安排在4個獨立的向量寄存器中，因此，我們能夠同時獲得8個結(jié)果。然后，同時對這些中間結(jié)果進行準確處理，但是，以轉(zhuǎn)置格式加載這些數(shù)據(jù)，從而完成水平過濾。為了保持結(jié)果準確度，需要用結(jié)果四舍五入值（rounding value）和后移（post-shift）初始化。過濾器配置應(yīng)當在不要求專門指令的條件下實現(xiàn)這些特征。

　　總之，這種并行向量處理解決方案核心可在加載/儲存單元操作和處理單元之間實現(xiàn)平衡。一般說來，數(shù)據(jù)帶寬限制及就功耗和晶片面積而言的處理單元的成本限制了執(zhí)行效率；不過，顯然，可以實現(xiàn)標量處理器架構(gòu)的重要加速。

　　多媒體器件的多用途可編程HD視頻和圖像平臺

　　CEVA-MM3000是可以集成到SoC中的可擴展的完全可編程多媒體平臺，以全軟件形式提供1080p 60fps視頻解碼和編碼、ISP功能和視覺應(yīng)用。該平臺由兩個專用處理器，即流處理器和向量處理器組成，集成到一個完整的多核系統(tǒng)中，包括本地存儲器和共享存儲器、外設(shè)、DMA和與外部總線的標準橋接。這款全面的多內(nèi)核平臺專為滿足移動產(chǎn)品和其它消費者電子產(chǎn)品的低功耗要求而設(shè)計。

　　向量處理器包括兩個獨立的向量處理單元（VPU）。VPU負責所有的向量計算，包括向量間運算（利用單指令多數(shù)據(jù)流）和向量內(nèi)部運算。向量間指令可在16個8位（字節(jié)）或8個16位（字）元上運行，可以使用向量寄存器對，形成32位（雙字）元。VPU具有在單循環(huán)中完成6個線路（taps）中8個并行濾波器（taps）的能力。

　　雖然VPU是作為向量處理器的計算主力，但是，向量加載和儲存單元（VLSU）作為從數(shù)據(jù)存儲器子系統(tǒng)向向量處理器及從向量處理器向數(shù)據(jù)存儲器子系統(tǒng)傳輸數(shù)據(jù)的工具。VLSU具有適用于加載和儲存操作的256位帶寬，并支持不對齊（non-aligned）存取。VLSU備有在單循環(huán)中存取二維數(shù)據(jù)塊的能力，并支持不同的數(shù)據(jù)塊尺寸。

加載4x4像素塊

　　圖4:加載4x4像素塊

　　為了簡化VPU任務(wù)，在讀/寫向量寄存器時，VLSU可以靈活地操作數(shù)據(jù)結(jié)構(gòu)。在數(shù)據(jù)存取期間，數(shù)據(jù)塊可以轉(zhuǎn)置，而不存在任何循環(huán)損失，能夠在單循環(huán)中實現(xiàn)轉(zhuǎn)置數(shù)據(jù)塊的存取。轉(zhuǎn)置功能可以動態(tài)設(shè)定或清除。采用這種方式，水平過濾器和垂直過濾器可以重復使用相同的功能，從而節(jié)省每個過濾器的開發(fā)和調(diào)試時間，同時縮小程序存儲器的占位面積。

　　結(jié)論

　　對于采用CEVA-MM3000平臺的消費產(chǎn)品來說，嵌入式視覺應(yīng)用是有效地執(zhí)行算法多樣性的一個實例，例如具備裁剪和尺寸調(diào)整功能的面部檢測。根據(jù)預測，將來類似的和更復雜的應(yīng)用需求將會增長，所有這些應(yīng)用都可以利用CEVA-MM3000架構(gòu)的可編程性和可擴展性。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）
光電開關(guān)相關(guān)文章:光電開關(guān)原理

新聞中心

嵌入式實時面部檢測應(yīng)用設(shè)計指南

評論

相關(guān)推薦

技術(shù)專區(qū)