Xilinx Zynq使用HLS實(shí)現(xiàn)OpenCV的開(kāi)發(fā)流程

作者：郭豐收時(shí)間：2014-03-13 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　摘要：首先介紹OpenCV中圖像類型和函數(shù)處理方法，之后通過(guò)設(shè)計(jì)實(shí)例描述在VivadoHLS中調(diào)用OpenCV庫(kù)函數(shù)實(shí)現(xiàn)圖像處理的幾個(gè)基本步驟，闡述從OpenCV設(shè)計(jì)到RTL轉(zhuǎn)換綜合的開(kāi)發(fā)流程。

本文引用地址：http://2s4d.com/article/234670.htm

　　關(guān)鍵詞：可編程;處理器;VivadoHLS;OpenCV;Zynq AP SOC

　　開(kāi)源計(jì)算機(jī)視覺(jué) (OpenCV) 被廣泛用于開(kāi)發(fā)計(jì)算機(jī)視覺(jué)應(yīng)用，它包含2500多個(gè)優(yōu)化的視頻函數(shù)的函數(shù)庫(kù)并且專門針對(duì)臺(tái)式機(jī)處理器和GPU進(jìn)行優(yōu)化。Xilinx VivadoHLS高層次綜合工具能夠使用C/C++ 編寫的代碼直接創(chuàng)建RTL硬件，顯著提高設(shè)計(jì)生產(chǎn)力，同時(shí)，Xilinx Zynq全可編程SOC系列器件嵌入雙核ARM Cortex-A9處理器將軟件可編程能力與FPGA的硬件可編程能力實(shí)現(xiàn)完美結(jié)合，以低功耗和低成本等系統(tǒng)優(yōu)勢(shì)實(shí)現(xiàn)單芯片無(wú)以倫比的系統(tǒng)性能、靈活性、可擴(kuò)展性，加速圖形處理產(chǎn)品設(shè)計(jì)上市時(shí)間。OpenCV擁有成千上萬(wàn)的用戶，而且OpenCV的設(shè)計(jì)無(wú)需修改即可在 Zynq器件的ARM處理器上運(yùn)行，但是利用OpenCV實(shí)現(xiàn)的高清處理經(jīng)常受外部存儲(chǔ)器的限制，尤其是存儲(chǔ)帶寬會(huì)成為性能瓶頸，存儲(chǔ)訪問(wèn)也限制了功耗效率。使用Xilinx公司的VivadoHLS高級(jí)語(yǔ)言綜合工具，可以輕松實(shí)現(xiàn)OpenCV C++視頻處理設(shè)計(jì)到RTL代碼的轉(zhuǎn)換，輸出Zynq的硬件加速器或者直接在FPGA上實(shí)現(xiàn)實(shí)時(shí)硬件視頻處理功能。同時(shí)，Xiinx公司的Zynq All-programmable SoC是實(shí)現(xiàn)嵌入式計(jì)算機(jī)視覺(jué)應(yīng)用的好方法，解決了在單一處理器上實(shí)現(xiàn)視頻處理性能低功耗高的限制，Zynq高性能可編程邏輯和嵌入式ARM內(nèi)核，是一款性能功耗最優(yōu)化的圖像處理集成式解決方案。

　　1 OpenCV中圖像IplImage, CvMat, Mat 類型的關(guān)系和VivadoHLS中圖像hls::Mat類型

　　OpenCV中常見(jiàn)的與圖像操作有關(guān)的數(shù)據(jù)容器有Mat，cvMat和IplImage，這三種類型都可以代表和顯示圖像，但是，Mat類型側(cè)重于計(jì)算，數(shù)學(xué)性較高。而CvMat和IplImage類型更側(cè)重于“圖像”，OpenCV對(duì)其中的圖像操作(縮放、單通道提取、圖像閾值操作等)進(jìn)行了優(yōu)化。

　　1.1 OpenCV中的Mat矩陣類型

　　在OpenCV中，Mat是一個(gè)多維的密集數(shù)據(jù)數(shù)組?？梢杂脕?lái)處理向量和矩陣、圖像、直方圖等等常見(jiàn)的多維數(shù)據(jù)。

　　Mat類型較CvMat與IplImage類型來(lái)說(shuō)，有更強(qiáng)的矩陣運(yùn)算能力，支持常見(jiàn)的矩陣運(yùn)算。在計(jì)算密集型的應(yīng)用當(dāng)中，將CvMat與IplImage類型轉(zhuǎn)化為Mat類型將大大減少計(jì)算時(shí)間花費(fèi)。

　　1.2 OpenCV中的CvMat與IplImage類型

　　在openCV中，CvMat和IplImage類型更側(cè)重于“圖像”，尤其是對(duì)其中的圖像操作進(jìn)行一定程度的優(yōu)化。OpenCV沒(méi)有向量(vector)的數(shù)據(jù)結(jié)構(gòu)，但當(dāng)我們要表示向量時(shí)，需要用矩陣數(shù)據(jù)表示。但是，CvMat更抽象,它的元素?cái)?shù)據(jù)類型并不僅限于基礎(chǔ)數(shù)據(jù)類型，而且可以是任意的預(yù)定義數(shù)據(jù)類型，比如RGB或者別的多通道數(shù)據(jù)。、

　　在OpenCV類型關(guān)系上，我們可以說(shuō)IplImage類型繼承自CvMat類型，當(dāng)然還包括其他的變量將之解析成圖像數(shù)據(jù)。IplImage類型較之CvMat多了很多參數(shù)，比如depth和nChannels。IplImage對(duì)圖像的另一種優(yōu)化是變量origin原點(diǎn)，為了彌補(bǔ)這一點(diǎn)，OpenCV允許用戶定義自己的原點(diǎn)設(shè)置。

　　1.3 VivadoHLS中圖像數(shù)據(jù)類型hls::Mat<>

　　VivadoHLS視頻處理函數(shù)庫(kù)使用hls::Mat<>數(shù)據(jù)類型，這種類型用于模型化視頻像素流處理，實(shí)質(zhì)等同于hls::steam<>流的類型，而不是OpenCV中在外部memory中存儲(chǔ)的matrix矩陣類型。因此，在用vivadoHLS實(shí)現(xiàn)OpenCV的設(shè)計(jì)中，需要將輸入和輸出HLS可綜合的視頻設(shè)計(jì)接口，修改為Video stream接口，也就是采用HLS提供的video接口可綜合函數(shù)，實(shí)現(xiàn)AXI4 video stream到VivadoHLS中hls::Mat<>類型的轉(zhuǎn)換。

　　2 使用VivadoHLS實(shí)現(xiàn)OpenCV到RTL代碼轉(zhuǎn)換的流程

　　2.1 OpenCV設(shè)計(jì)中的權(quán)衡

　　OpenCV圖像處理是基于存儲(chǔ)器幀緩存而構(gòu)建的，它總是假設(shè)視頻frame數(shù)據(jù)存放在外部DDR 存儲(chǔ)器中，因此，OpenCV對(duì)于訪問(wèn)局部圖像性能較差，因?yàn)樘幚砥鞯男∪萘扛咚倬彺嫘阅懿蛔阋酝瓿蛇@個(gè)任務(wù)。而且出于性能考慮，基于OpenCV設(shè)計(jì)的架構(gòu)比較復(fù)雜，功耗更高。在對(duì)分辨率或幀速率要求低，或者在更大的圖像中對(duì)需要的特征或區(qū)域進(jìn)行處理是，OpenCV似乎足以滿足很多應(yīng)用的要求，但對(duì)于高分辨率高幀率實(shí)時(shí)處理的場(chǎng)景下，OpenCV很難滿足高性能和低功耗的需求。

　　基于視頻流的架構(gòu)能提供高性能和低功耗，鏈條化的圖像處理函數(shù)減少了外部存儲(chǔ)器訪問(wèn)，針對(duì)視頻優(yōu)化的行緩存和窗口緩存比處理器高速緩存更簡(jiǎn)單高效，更易于使用VivadoHLS 在FPGA部件中采用數(shù)據(jù)流優(yōu)化來(lái)實(shí)現(xiàn)。

　　VivadoHLS對(duì)OpenCV的支持，不是指可以將OpenCV的函數(shù)庫(kù)直接綜合成RTL代碼，而是需要將代碼轉(zhuǎn)換為可綜合的代碼，這些可綜合的視頻庫(kù)稱為HLS視頻庫(kù)，由VivadoHLS提供。

　　OpenCV函數(shù)不能直接通過(guò)HLS進(jìn)行綜合，因?yàn)镺penCV函數(shù)一般都包含動(dòng)態(tài)的內(nèi)存分配、浮點(diǎn)以及假設(shè)圖像在外部存儲(chǔ)器中存放或者修改。

　　VivadoHLS視頻庫(kù)用于替換很多基本的 OpenCV函數(shù)，它與OpenCV具有相似的接口和算法，主要針對(duì)在FPGA架構(gòu)中實(shí)現(xiàn)的圖像處理函數(shù)，包含了專門面向FPGA的優(yōu)化，比如定點(diǎn)運(yùn)算而非浮點(diǎn)運(yùn)算(不必精確到比特位)，片上的行緩存(line buffer)和窗口緩存(window buffer)。圖2.1展示了在Xilinx Zynq AP SOC器件上實(shí)現(xiàn)視頻處理的系統(tǒng)結(jié)構(gòu)。

　　圖2.1 Zynq視頻處理系統(tǒng)結(jié)構(gòu)

　　2.2 在FPGA/Zynq開(kāi)發(fā)中使用VivadoHLS實(shí)現(xiàn)OpenCV的設(shè)計(jì)流程

　　設(shè)計(jì)開(kāi)發(fā)流程主要有如圖2.2三個(gè)步驟。

　　1. 在計(jì)算機(jī)上開(kāi)發(fā)OpenCV應(yīng)用，由于是開(kāi)源的設(shè)計(jì)，采用C++的編譯器對(duì)其進(jìn)行編譯，仿真和debug，最后產(chǎn)生可執(zhí)行文件。這些設(shè)計(jì)無(wú)需修改即可在 ARM內(nèi)核上運(yùn)行OpenCV應(yīng)用。

　　2. 使用I/O函數(shù)抽取FPGA實(shí)現(xiàn)的部分，并且使用可綜合的VivadoHLS Video庫(kù)函數(shù)代碼代替OpenCV函數(shù)的調(diào)用。

　　3. 運(yùn)行HLS生成RTL代碼，在VivadoHLS工程中啟動(dòng)co-sim，HLS工具自動(dòng)重用OpenCV的測(cè)試激勵(lì)驗(yàn)證產(chǎn)生的RTL代碼。在Xilinx的ISE或者Vivado開(kāi)發(fā)環(huán)境中做RTL的集成和SoC/FPGA實(shí)現(xiàn)。

　　圖2.2 在FPGA/Zynq設(shè)計(jì)中使用OpenCV的開(kāi)發(fā)流程

　　2.2.1 VivadoHLS視頻庫(kù)函數(shù)

　　HLS視頻庫(kù)是包含在hls命名空間內(nèi)的C++代碼。#include “hls_video.h”

　　HLS視頻庫(kù)與OpenCV等具有相似的接口和等效的行為，例如：

　　OpenCV庫(kù)：cvScale(src, dst, scale, shift);

　　HLS視頻庫(kù)：hls::Scale<...>(src, dst, scale, shift);

　　HLS視頻庫(kù)的一些構(gòu)造函數(shù)具有類似的或替代性的模板參數(shù)，例如：

　　OpenCV庫(kù)：cv::Mat mat(rows, cols, CV_8UC3);

　　HLS視頻庫(kù)：hls::Mat mat(rows, cols);

　　ROWS和COLS指定處理的最大圖像尺寸。

　　表1 VivadoHLS視頻處理函數(shù)庫(kù)

　　2.2.2 VivadHLS實(shí)現(xiàn)OpenCV設(shè)計(jì)的局限性

　　首先，必須用HLS視頻庫(kù)函數(shù)代替OpenCV調(diào)用。

　　其次，不支持OpenCV通過(guò)指針訪問(wèn)幀緩存,可以在HLS中使用VDMA和 AXI Stream adpater函數(shù)代替。

　　再者，不支持OpenCV的隨機(jī)訪問(wèn)。HLS對(duì)于讀取超過(guò)一次的數(shù)據(jù)必須進(jìn)行復(fù)制，更多的例子可以參見(jiàn)見(jiàn)hls::Duplicate()函數(shù)。

　　最后，不支持OpenCVS的In-place更新，比如 cvRectangle (img, point1, point2)。

　　下表2列舉了OpenCV中隨機(jī)訪問(wèn)一幀圖像處理對(duì)應(yīng)HLS視頻庫(kù)的實(shí)現(xiàn)方法。

　　表2 OpenCV和HLS中對(duì)一幀圖像像素訪問(wèn)對(duì)應(yīng)方法

OpenCV

HLS視頻庫(kù)

讀操作

pix = cv_mat.at(i,j)

pix = cvGet2D(cv_img,i,j)

hls_img>> pix

寫操作

cv_mat.at(i,j) = pix

cvSet2D(cv_img,i,j,pix)

hls_img<< pix

　　2.3 用HLS實(shí)現(xiàn)OpenCV應(yīng)用的實(shí)例(快速角點(diǎn)濾波器image_filter)

　　我們通過(guò)快速角點(diǎn)的例子，說(shuō)明通常用VivadoHLS實(shí)現(xiàn)OpenCV的流程。首先，開(kāi)發(fā)基于OpenCV的快速角點(diǎn)算法設(shè)計(jì)，并使用基于OpenCV的測(cè)試激勵(lì)仿真驗(yàn)證這個(gè)算法。接著，建立基于視頻數(shù)據(jù)流鏈的OpenCV處理算法，改寫前面OpenCV的通常設(shè)計(jì)，這樣的改寫是為了與HLS視頻庫(kù)處理機(jī)制相同，方便后面步驟的函數(shù)替換。最后，將改寫的OpenCV設(shè)計(jì)中的函數(shù)，替換為HLS提供的相應(yīng)功能的視頻函數(shù)，并使用VivadoHLS綜合，在Xilinx開(kāi)發(fā)環(huán)境下在FPGA可編程邏輯或作為Zynq SOC硬件加速器實(shí)現(xiàn)。當(dāng)然，這些可綜合代碼也可在處理器或ARM上運(yùn)行。

　　2.3.1 設(shè)計(jì)基于OpenCV的視頻濾波器設(shè)計(jì)和測(cè)試激勵(lì)

　　在這個(gè)例子中，首先設(shè)計(jì)開(kāi)發(fā)完全調(diào)用OpenCV庫(kù)函數(shù)的快速角點(diǎn)濾波器設(shè)計(jì)opencv_image_filter.cpp和這個(gè)濾波器的測(cè)試激勵(lì)(不在本例中展示)，測(cè)試激勵(lì)用于仿真驗(yàn)證opencv_image_filter算法功能。OpenCV算法實(shí)現(xiàn)的設(shè)計(jì)代碼如下：

　　void opencv_image_filter(IplImage* src, IplImage* dst)

　　{

　　IplImage* gray = cvCreateImage( cvGetSize(src), 8, 1 );

　　std::vectorkeypoints;

　　cv::Mat gray_mat(gray,0);

　　cvCvtColor(src, gray, CV_BGR2GRAY );

　　cv::FAST( gray_mat, keypoints, 20, true);

　　cvCopy( src,dst);

　　for (inti=0;i

　　{

　　cvRectangle(dst, cvPoint(keypoints[i].pt.x-1,keypoints[i].pt.y-1),

　　cvPoint(keypoints[i].pt.x+1,keypoints[i].pt.y+1), cvScalar(255,0,0),CV_FILLED);

　　}

　　cvReleaseImage( &gray );

　　}

　　例子2.3.1 通常的OpenCV視頻處理代碼opencv_image_filter.cpp

　　上面的例子是直接調(diào)用OpenCV在處理器上軟件應(yīng)用實(shí)現(xiàn)的例子，可以看到在算法設(shè)計(jì)中直接調(diào)用opencV庫(kù)函數(shù)，測(cè)試激勵(lì)讀入圖像，經(jīng)過(guò)濾波器處理輸出的圖像保存分析。可以看到，算法的處理基于IPIimage類型，輸入和輸出圖像都使用此類型。

　　2.3.2 使用IO函數(shù)和Vivado HLS視頻庫(kù)替換OpenCV函數(shù)庫(kù)

　　需要特別說(shuō)明的是，Xilinx公司通常使用的視頻處理模塊是基于AXI4 streaming協(xié)議進(jìn)行不同模式見(jiàn)像素?cái)?shù)據(jù)的交互，也就是我們所說(shuō)的AXI4 video接口協(xié)議格式。為了和Xilinx視頻庫(kù)接口協(xié)議統(tǒng)一，VivadoHLS提供了視頻接口函數(shù)庫(kù)，用于從OpenCV程序中抽取需要進(jìn)行RTL綜合轉(zhuǎn)換的頂層函數(shù)，并把這些可綜合的代碼和OpenCV不可綜合轉(zhuǎn)換的代碼進(jìn)行隔離。然后，對(duì)需要綜合轉(zhuǎn)換為RTL代碼的OpenCV函數(shù)，用Xilinx VivadoHLS提供相應(yīng)功能的可綜合video函數(shù)進(jìn)行替換。最后在C/C++編譯環(huán)境下仿真驗(yàn)證OpenCV代碼和替換video函數(shù)后功能的一致性，并在VivadoHLS開(kāi)發(fā)環(huán)境中做代碼綜合和產(chǎn)生RTL代碼的co-sim混合仿真驗(yàn)證。

　　VivadoHLS可綜合的視頻接口函數(shù)：

　　Hls:：AXIvideo2Mat 轉(zhuǎn)換AXI4 video stream到hls::Mat表示格式

　　Hls:：Mat2AXIvideo 轉(zhuǎn)換hls::Mat數(shù)據(jù)格式到AXI4 video stream

　　首先，我們對(duì)2.3.1中OpenCV的設(shè)計(jì)進(jìn)行改寫，改寫的代碼還是完全基于OpenCV的函數(shù)，目的是為了對(duì)視頻的處理機(jī)制基于視頻流的方式，與VivadoHLS視頻庫(kù)提供函數(shù)的處理機(jī)制一致。

　　其次，使用Vivado HLS視頻庫(kù)替代標(biāo)準(zhǔn)OpenCV函數(shù)，并使用可綜合的視頻接口函數(shù)，采用video stream的方式交互視頻數(shù)據(jù)。用于FPGA的硬件可綜合模塊由VivadoHLS視頻庫(kù)函數(shù)與接口組成，我們用hls命名空間中的相似函數(shù)代替OpenCV函數(shù)，增加接口函數(shù)構(gòu)建AXI4 stream類型的接口。

　　void image_filter(AXI_STREAM& input, AXI_STREAM& output, int rows, int cols)

　　{

　　hls::Mat _src(rows,cols);

　　hls::Mat _dst(rows,cols);

　　hls::AXIvideo2Mat(input, _src);

　　hls::Mat src0(rows,cols);

　　hls::Mat src1(rows,cols);

　　hls::Mat mask(rows,cols);

　　hls::Matdmask(rows,cols);

　　hls::Scalar<3,unsigned char> color(255,0,0);

　　hls::Duplicate(_src,src0,src1);

　　hls::Mat gray(rows,cols);

　　hls::CvtColor(src0,gray);

　　hls::FASTX(gray,mask,20,true);

　　hls::Dilate(mask,dmask);

　　hls::PaintMask(src1,dmask,_dst,color);

　　hls::Mat2AXIvideo(_dst, output);

　　}

　　例子2.3.2 采用VivadoHLS視頻庫(kù)替換后可綜合的設(shè)計(jì)opencv_image_filter.cpp

　　最后，在vivadoHLS開(kāi)發(fā)環(huán)境下綜合例子2.3.2.2的設(shè)計(jì)，產(chǎn)生RTL代碼并重用OpenCV的測(cè)試激勵(lì)驗(yàn)證RTL代碼功能。

　　3 VHLS實(shí)現(xiàn)OpenCV設(shè)計(jì)流程總結(jié)

　　OpenCV函數(shù)可實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)算法的快速原型設(shè)計(jì)，并使用VivadoHLS工具轉(zhuǎn)換為RTL代碼，在FPGA可編程邏輯上或者Zynq SoC邏輯上作為硬件加速器，實(shí)現(xiàn)高分辨率高幀率的實(shí)時(shí)視頻處理。計(jì)算機(jī)視覺(jué)應(yīng)用與生俱來(lái)的異構(gòu)特性，使其需要軟硬件相結(jié)合的實(shí)現(xiàn)方案，采用Vivado HLS視頻庫(kù)能加快OpenCV函數(shù)向FPGA或Zynq SOC全可編程架構(gòu)的映射。

　　參考文獻(xiàn)：

　　[1]Vivado Design Suite User Guide: High-LevelSynthesis(UG902).

　　[2]Accelerating OpenCV applications with Zynq using VivadoHLS video libraries(XAPP1167)

　　[3]Bradski G,Kaebler “A.Learning OpenCV”.ISBN 978-7-302-20993-5

　　[4]Implementing Memory structure for video processing in the vivadoHLStool(XAPP793)

　　[5] Rafael C.Gonzalez,Richard E.Wood “Digital Image Processing, Third Edition”ISBN 978-7-121-11008-5