淺析智能視頻監(jiān)控技術(shù)

作者：時(shí)間：2014-03-03 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

視頻監(jiān)控是視頻工程中重要的技術(shù)和應(yīng)用領(lǐng)域，支撐其發(fā)展的視頻技術(shù)在不到一個(gè)世紀(jì)的發(fā)展過程中，大致經(jīng)歷了3個(gè)跨越式的發(fā)展階段。20世紀(jì)30年代，以電視廣播為代表的視頻技術(shù)走出了實(shí)驗(yàn)室，進(jìn)入廣播電視臺和千萬家庭，實(shí)現(xiàn)了從靜止圖像傳輸?shù)交顒訄D像傳輸?shù)目缭?20世紀(jì)80年代末，以會議電視、視頻監(jiān)控等為代表的視頻技術(shù)走出了實(shí)驗(yàn)室，進(jìn)入眾多的電視會議室、安防系統(tǒng)，實(shí)現(xiàn)了從模擬視頻通信到數(shù)字視頻通信的跨越;如今，以智能視頻監(jiān)控(IVS)為代表的視頻技術(shù)，正處在走出實(shí)驗(yàn)室、進(jìn)入到各行各業(yè)的應(yīng)用階段，將要實(shí)現(xiàn)從“機(jī)械”的視頻信息處理向智能化視頻信息處理的跨越。當(dāng)前中國正處在這一跨越的關(guān)鍵時(shí)段。智能視頻監(jiān)控只是智能視頻技術(shù)的一個(gè)部分，一個(gè)將視頻技術(shù)引入智能時(shí)代的部分。

智能視頻監(jiān)控技術(shù)兩種構(gòu)架方式

視頻監(jiān)控的智能化表現(xiàn)為計(jì)算機(jī)視覺算法在視頻分析中的應(yīng)用。智能視頻監(jiān)控區(qū)別于傳統(tǒng)意義上的監(jiān)控系統(tǒng)在于變被動監(jiān)控為主動監(jiān)控(自動檢測、識別潛在入侵者、可疑目標(biāo)和突發(fā)事件)，即它的智能性。簡單而言，不僅用攝像機(jī)代替人眼，而且用計(jì)算機(jī)代替人、協(xié)助人，來完成監(jiān)視或控制的任務(wù)，從而減輕人的負(fù)擔(dān)。智能視頻監(jiān)控系統(tǒng)的結(jié)構(gòu)通常有如下兩種：

主動智能監(jiān)視系統(tǒng)，這類系統(tǒng)的特點(diǎn)是主動攝像機(jī)不僅可以理解視場內(nèi)的場景，還可以有選擇性專注于特定的活動或感興趣的事件。主動智能監(jiān)視系統(tǒng)需要額外完成兩個(gè)任務(wù)：管理主動攝像機(jī)資源，即確定哪些攝像機(jī)用于監(jiān)視全景，哪些攝像機(jī)用于監(jiān)視特定行為或事件;利用視頻分析算法提供的信息控制攝像機(jī)的運(yùn)動和變焦。

分布式智能視頻監(jiān)視系統(tǒng)，通過無線視頻通信網(wǎng)絡(luò)將各點(diǎn)智能攝像機(jī)與中心站連接起來，智能監(jiān)視服務(wù)器不僅可以生成圖像還可以分析視頻，根據(jù)視頻分析的信息控制攝像機(jī)以及確定使用恰當(dāng)?shù)拇鎯Y源和帶寬傳送高質(zhì)量視頻給終端用戶。智能攝像機(jī)最大程度減小了系統(tǒng)結(jié)構(gòu)的成本。

智能視頻監(jiān)控技術(shù)特性

智能視頻監(jiān)控技術(shù)一直在發(fā)展，然而，環(huán)境的復(fù)雜性以及目標(biāo)行為的多樣性等原因使得智能監(jiān)控算法變得復(fù)雜，且算法通常是針對具體的應(yīng)用而設(shè)計(jì)的。盡管已經(jīng)提出許多被證明是有效的智能分析算法，但是受計(jì)算機(jī)數(shù)據(jù)處理能力的限制，難以適合實(shí)時(shí)計(jì)算，自適應(yīng)性也較差，應(yīng)用場合受限。目前，對于以目標(biāo)整體的運(yùn)動軌跡作為研究目標(biāo)，提取運(yùn)動目標(biāo)的運(yùn)動特征或者其本身所具有的特性這種類型的視頻智能分析已經(jīng)取得了一定的成果。這一類研究目標(biāo)不一定是人，也可以是車輛、動物或飛機(jī)、坦克等軍事目標(biāo)。以目標(biāo)的局部部分運(yùn)動為研究目標(biāo)，提取其局部的“肢體語言”特征分析判斷目標(biāo)的行為，比如視頻的手語識別、步態(tài)識別、表情識別或者動作識別等。此類監(jiān)視問題的困難在于運(yùn)動模式的提取以及高效可靠的識別算法。智能視頻監(jiān)控系統(tǒng)可以解決兩個(gè)主要問題：一個(gè)是將安防操作人員從繁雜而枯燥的“盯屏幕”任務(wù)中解脫出來。由機(jī)器來完成這部分工作，對異常情況能夠及時(shí)處理等，比如報(bào)警等;另外一個(gè)是為在海量的視頻數(shù)據(jù)中快速搜索到想要找的圖像。對于上述兩個(gè)問題，視頻分析廠家經(jīng)常提到的案例是：操作人員盯著屏幕超過1O分鐘后將漏掉90%的視頻信息而使這項(xiàng)工作失去意義;倫敦地鐵案中，安保人員花了70個(gè)工時(shí)才在大量磁帶中找到需要的信息。智能視頻監(jiān)控的核心內(nèi)容是對特定目標(biāo)的自動檢測、跟蹤與行為識別，包括運(yùn)動檢測、目標(biāo)分類、目標(biāo)跟蹤、行為識別等4個(gè)方面內(nèi)容。例如對人體的跟蹤：首先從實(shí)時(shí)圖像序列中檢測出運(yùn)動物體，再判定運(yùn)動物體中的人體，然后跟蹤人體的運(yùn)動軌跡，并分析和選定有異常行為的人，如在車站，機(jī)場等遺留包裹的人。最后對行為異常的人進(jìn)行持續(xù)跟蹤。

移動目標(biāo)提取

運(yùn)動檢測是從圖像序列中將變化區(qū)域從背景圖像中提取出來。運(yùn)動區(qū)域的有效分割將大大減少后續(xù)過程的運(yùn)算量。然而，背景圖像的不穩(wěn)定性，如陰影、光照、慢移動、靜移動(樹葉的擺動)等等，也使得運(yùn)動檢測非常困難。目前較為實(shí)用的視頻分析方法主要有兩類：一類是背景減除方法，另一類是時(shí)間差分方法。背景減除方法是利用當(dāng)前圖像和背景圖象的差分來檢測出運(yùn)動區(qū)域的一種方法，可以提供比較完整的運(yùn)動目標(biāo)特征數(shù)據(jù)，精確度和靈敏度比較高，具有良好的性能表現(xiàn)。時(shí)間差分法利用視頻圖像特征，從連續(xù)得到的視頻流中提取所需要的動態(tài)目標(biāo)信息。時(shí)間差分實(shí)質(zhì)是利用相鄰幀圖像相減來提取前景目標(biāo)移動的信息，此方法不能完全提取所有相關(guān)特征像素點(diǎn)，在運(yùn)動實(shí)體內(nèi)部可能產(chǎn)生空洞，能檢測出目標(biāo)的邊緣。

移動目標(biāo)跟蹤

移動目標(biāo)跟蹤等價(jià)于在連續(xù)的圖像幀間，創(chuàng)建基于位置、速度、形狀、紋理、色彩等有關(guān)特征的對應(yīng)匹配問題。常用的數(shù)學(xué)工具有卡爾曼濾波、Condensation算法及動態(tài)貝葉斯網(wǎng)絡(luò)等。其中Kalman濾波是基于高斯分布的狀態(tài)預(yù)測方法。不能有效地處理多峰模式的分布情況;Condensation算法是以因子抽樣為基礎(chǔ)的條件密度傳播方法，結(jié)合可學(xué)習(xí)的動態(tài)模型，可完成魯棒的運(yùn)動跟蹤。就跟蹤對象而言，跟蹤如手、臉、頭、腿等身體部分與跟蹤整個(gè)目標(biāo);就跟蹤視角而言，有對應(yīng)于單攝像機(jī)的單一視角、對應(yīng)于多攝像機(jī)的多視角和全方位視角;當(dāng)然還可以通過跟蹤空間(二維或三維)、跟蹤環(huán)境(室內(nèi)或戶外)、跟蹤人數(shù)(單人、多人、人群)、攝像機(jī)狀態(tài)(運(yùn)動或固定)等方面進(jìn)行分類。從跟蹤方法的不同討論跟蹤算法。

1、基于模型的跟蹤

傳統(tǒng)的人體表達(dá)方法有如下三種：①線圖法：人運(yùn)動的實(shí)質(zhì)是骨骼的運(yùn)動，因此該表達(dá)方法將身體的各個(gè)部分以直線來近似。②二維輪廓(2D Contour)：該人體表達(dá)方法的使用直接與人體在圖像中的投影有關(guān)，如Ju等提出的紙板人模型，它將人的肢體用一組連接的平面區(qū)域塊所表達(dá)，該區(qū)域塊的參數(shù)化運(yùn)動受關(guān)節(jié)運(yùn)動(Articulated Movement)的約束，該模型被用于關(guān)節(jié)運(yùn)動圖像的分析。③立體模型(Volumetric Model)：它是利用廣義錐臺、橢圓柱、球等三維模型來描述人體的結(jié)構(gòu)細(xì)節(jié)，因此要求更多的計(jì)算參數(shù)和匹配過程中更大的計(jì)算量。例如Rohr使用14個(gè)橢圓柱體模型來表達(dá)人體結(jié)構(gòu)，坐標(biāo)系統(tǒng)的原點(diǎn)被定位在軀干的中心，目的是想利用該模型來產(chǎn)生人的行走的三維描述;Wachter與Nagel利用橢圓錐臺建立三維人體模型，通過在連續(xù)的圖像幀問匹配三維人體模型的投影來獲得人運(yùn)動的定量描述，其中，它利用了迭代的擴(kuò)展卡爾曼濾波方法，結(jié)合邊緣、區(qū)域信息及身體解析約束確定的身體關(guān)節(jié)運(yùn)動的自由度，實(shí)現(xiàn)單目圖像序列中人的跟蹤。

2、基于區(qū)域的跟蹤

基于區(qū)域的跟蹤方法目前已有較多的應(yīng)用，例如Wren等利用小區(qū)域特征進(jìn)行室內(nèi)單人的跟蹤，文中將人體看作由頭、軀干、四肢等身體部分所對應(yīng)的小區(qū)域塊所組成，利用高斯分布建立人體和場景的模型，屬于人體的像素被規(guī)劃于不同的身體部分。通過跟蹤各個(gè)小區(qū)域塊來完成整個(gè)人的跟蹤?；趨^(qū)域跟蹤的難點(diǎn)是處理運(yùn)動目標(biāo)的影子和遮擋，這或許可利用彩色信息以及陰影區(qū)域缺乏紋理的性質(zhì)來加以解決，如McKenna等首先利用色彩和梯度信息建立自適應(yīng)的背景模型，并且利用背景減除方法提取運(yùn)動區(qū)域，有效地消除了影子的影響;然后，跟蹤過程在區(qū)域、目標(biāo)、目標(biāo)群三個(gè)抽象級別上執(zhí)行，區(qū)域可以合并和分離，而人是由許多身體部分區(qū)域在滿足幾何約束的條件下組成的，同時(shí)人群又是由單個(gè)的人組成的，因此利用區(qū)域跟蹤器并結(jié)合人的表面顏色模型，在遮擋情況下也能夠較好地完成多人的跟蹤。

3、基于活動輪廓的跟蹤

基于活動輪廓的跟蹤思想是利用封閉的曲線輪廓來表達(dá)運(yùn)動目標(biāo)，并且該輪廓能夠自動連續(xù)地更新。例如Paragios與Deriche利用短程線的活動輪廓、結(jié)合Level Set理論在圖像序列中檢測和跟蹤多個(gè)運(yùn)動目標(biāo);采用基于卡爾曼濾波的活動輪廓來跟蹤非剛性的運(yùn)動物體;利用隨機(jī)微分方程去描述復(fù)雜的運(yùn)動模型，并與可變形模板相結(jié)合應(yīng)用于人的跟蹤。相對于基于區(qū)域的跟蹤方法，輪廓表達(dá)有減少計(jì)算復(fù)雜度的優(yōu)點(diǎn)。如果開始能夠合理地分開每個(gè)運(yùn)動目標(biāo)并實(shí)現(xiàn)輪廓初始化的話，既使在有部分遮擋存在的情況下也能連續(xù)地進(jìn)行跟蹤，然而初始化通常是很困難的。

4、基于特征的跟蹤

基于特征的跟蹤包括特征的提取和特征的匹配兩個(gè)過程。一個(gè)很好的例子是點(diǎn)特征跟蹤，將每個(gè)目標(biāo)用一個(gè)矩形框封閉起來，封閉框的質(zhì)心被選擇作為跟蹤的特征;在跟蹤過程中若兩人出現(xiàn)相互遮擋時(shí)。只要質(zhì)心的速度能被區(qū)分開來，跟蹤仍能被成功地執(zhí)行;該方法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡單，并能利用人體運(yùn)動來解決遮擋問題，但是它僅僅考慮了平移運(yùn)動。如果結(jié)合紋理、彩色及形狀等特征可能會進(jìn)一步提高跟蹤的魯棒性。另外，Segen與Pingali的跟蹤系統(tǒng)使用了運(yùn)動輪廓的角點(diǎn)作為對應(yīng)特征，這些特征點(diǎn)采用基于位置和點(diǎn)的曲率值的距離度量在連續(xù)幀間進(jìn)行匹配。

目標(biāo)分類

目標(biāo)分類的目的是從檢測到的運(yùn)動區(qū)域中將特定類型物體的運(yùn)動區(qū)域提取出來，例如分類場景中的人、車輛、人群等不同的目標(biāo)。根據(jù)可利用信息的不同，目標(biāo)分類可以分為基于運(yùn)動特性的分類和基于形狀信息的分類兩種方法。基于運(yùn)動特性的識別利用目標(biāo)運(yùn)動的周期性進(jìn)行識別。受顏色、光照的影響較小。基于形狀信息的識別利用檢測出的運(yùn)動區(qū)域的形狀特征與模板或者統(tǒng)計(jì)量進(jìn)行匹配。

1、基于形狀信息的分類

基于形狀信息的分類是利用檢測出的運(yùn)動區(qū)域的形狀特征進(jìn)行目標(biāo)分類的方法。例如VSAM采用區(qū)域的分散度、面積、寬高比等作為特征。利用三層神經(jīng)網(wǎng)絡(luò)方法將運(yùn)動目標(biāo)劃分為人、人群、車和背景干擾;Lipton等利用分散度和面積信息對二維運(yùn)動區(qū)域進(jìn)行分類，主要是區(qū)分人、車及混亂擾動，時(shí)間一致性約束使其分類更加準(zhǔn)確;Kuno與Watanabe使用簡單的人體輪廓模式的形狀參數(shù)從圖像中檢測運(yùn)動的人。

2、基于運(yùn)動特性的分類

基于運(yùn)動特性的分類是利用人體運(yùn)動的周期性進(jìn)行目標(biāo)分類的方法。例如Cutler與Davis通過跟蹤感興趣的運(yùn)動目標(biāo)，計(jì)算出目標(biāo)隨著時(shí)間變化的自相關(guān)特性，而人的周期性運(yùn)動使得其自相關(guān)也是周期性的，因此通過時(shí)頻化方法分析目標(biāo)是否存在周期性的運(yùn)動特性而將人識別出來;Lipton通過計(jì)算運(yùn)動區(qū)域的殘余光流來分析運(yùn)動實(shí)體的剛性和周期性，非剛性的人的運(yùn)動相比于剛性的車輛運(yùn)動而言具有較高的平均殘余光流，同時(shí)它也呈現(xiàn)了周期性的運(yùn)動特征，據(jù)此可以將人區(qū)分出來。目標(biāo)識別是系統(tǒng)對之前提取并跟蹤的目標(biāo)進(jìn)行識別和辨識。要想讓系統(tǒng)具有目標(biāo)識別和辨識能力，需要對系統(tǒng)進(jìn)行模型訓(xùn)練。就是利用已知的目標(biāo)特征(如車輛、人員、動物等)，對系統(tǒng)進(jìn)行訓(xùn)練，系統(tǒng)將會在大量已知的樣本信息上了解、學(xué)習(xí)不同目標(biāo)的特征(大小、顏色、速度、行為方式等)，這樣當(dāng)系統(tǒng)發(fā)現(xiàn)一個(gè)目標(biāo)時(shí)，系統(tǒng)將自動與已經(jīng)建立好的模型進(jìn)行比對或匹配特征，從而對目標(biāo)進(jìn)行識別和分類。

行為識別

目標(biāo)的行為識別是近年來被廣泛關(guān)注的研究熱點(diǎn)，它是指對目標(biāo)的運(yùn)動模式進(jìn)行分析和識別。行為識別可以簡單地被認(rèn)為是時(shí)變數(shù)據(jù)的分類問題，即將測試序列與預(yù)先標(biāo)定的代表典型行為的參考序列進(jìn)行匹配。通過在跟蹤過程中檢測目標(biāo)的行為以及行為變化，根據(jù)用戶的自定義行為規(guī)則，判斷被跟蹤目標(biāo)的行為是否存在威脅。

1、模板匹配方法

采用模板匹配技術(shù)的行為識別方法首先將圖像序列轉(zhuǎn)換為一組靜態(tài)形狀模式，然后在識別過程中和預(yù)先存儲的行為標(biāo)本相比較。模板匹配技術(shù)的優(yōu)點(diǎn)是計(jì)算復(fù)雜度低、實(shí)現(xiàn)簡單，然而它對于噪聲和運(yùn)動時(shí)間間隔的變化是敏感的。

2、狀態(tài)空間方法

基于狀態(tài)空間模型的方法定義每個(gè)靜態(tài)姿勢作為一個(gè)狀態(tài)，這些狀態(tài)之間通過某種概率聯(lián)系起來。任何運(yùn)動序列可以看作為這些靜態(tài)姿勢的不同狀態(tài)之間的一次遍歷過程，在這些遍歷期間計(jì)算聯(lián)合概率。其最大值被選擇作為分類行為的標(biāo)準(zhǔn)。目前，狀態(tài)空間模型已經(jīng)被廣泛地應(yīng)用于時(shí)間序列的預(yù)測、估計(jì)和檢測，最有代表性的是HMMS。每個(gè)狀態(tài)中可用于識別的特征包括點(diǎn)、線或二維小區(qū)域。狀態(tài)空間方法雖然能克服模板匹配的缺點(diǎn)，但通常涉及到復(fù)雜的迭代運(yùn)算。

結(jié)束語

視頻監(jiān)控系統(tǒng)的核心價(jià)值在于智能視頻分析技術(shù)，由運(yùn)動目標(biāo)檢測、分類、跟蹤和行為識別等幾個(gè)基本節(jié)組成，還包括智能視頻檢索技術(shù)，其中行為識別又包括異常行為檢測、異常事件檢測以及視頻內(nèi)容理解描述等。近年來，智能視頻監(jiān)控技術(shù)取得長足發(fā)展，應(yīng)用領(lǐng)域不斷擴(kuò)大，從自動目標(biāo)檢測到現(xiàn)在的事件檢測、自動目標(biāo)識別，其監(jiān)控產(chǎn)品也逐漸由模擬化向數(shù)字化、網(wǎng)絡(luò)化與智能化方向發(fā)展。

新聞中心

淺析智能視頻監(jiān)控技術(shù)

評論

相關(guān)推薦

技術(shù)專區(qū)