基于上下文感知的智能視覺分析系統
前言
智能視頻監(jiān)控屬于第四代視頻安防監(jiān)控技術,它是新技術發(fā)展推動下的必然結果。在這一歷史性的技術演進中,計算機視覺技術扮演著核心的角色。從內涵上看,現代計算機視覺技術已經不再僅僅停留在光學幾何(如2D和3D建模)和基于數字圖像處理學的特征提取方面,它更建立在連同傳統人工智能在內的建模、學習和推理等機器學習理論之上。從外延上看,傳統的計算機視覺技術被稱為機器視覺,主要應用在需要精密光學測量定位的自動化生產線等工業(yè)領域,而現代計算機視覺技術則已拓展到了更加廣闊的應用領域,智能視頻監(jiān)控就是一個典型的實例。
視頻監(jiān)控智能化的核心問題
2013年3月中國國內報道了吉林省長春市嬰兒被偷車賊殘害的案例,有媒體質疑:“平安城市”這樣的大范圍安防監(jiān)控項目為什么沒有發(fā)揮應有的聯動預警作用?類似的反思也針對同年4月在美國馬薩諸塞州波士頓馬拉松比賽中發(fā)生的爆炸案,犯罪嫌疑人不是被通過視頻監(jiān)控系統主動發(fā)現其異常行為鎖定的,而是警方基于犯罪現場物證的反向推演在監(jiān)控錄像中圈定的。這些例證都說明了一個核心問題,即在提升智能視頻監(jiān)控的有效性方面,如何讓系統在廣域范圍內產生針對同一個視頻場景事件或特定行為的主動感知,并建立起一條高度關聯的邏輯推理鏈條。
基于計算機網絡技術和人工智能技術的最新成果,我們認為完全可以從技術上考慮實現一種有效的信息處理系統,用以滿足上述來自實際應用領域對智能視頻監(jiān)控系統的需求。系統總體的架構是:分區(qū)域設立分布式的視頻監(jiān)控中心,采用智能前端設備和監(jiān)控中心聯合對本地化的視頻數據進行存儲及智能分析,這一層的功能主要是面向實時過程,發(fā)現局部和區(qū)域分布范圍內整體的視頻場景事件;在更廣域的范圍內(如市縣級“智慧城市”工程的監(jiān)控范圍),由更高層的數據管理中心對來自分布式監(jiān)控的視頻數據進行存儲、分析和集中管理,這一層主要是面向信息服務,同時非實時地兼顧個別沒有智能視覺分析功能部署的區(qū)域過程,統籌全局的視頻場景事件。
從單點到區(qū)域范圍的智能化
智能視覺監(jiān)控系統的“單點智能化”指的是使監(jiān)控點的前端設備(也可能包括高清一體化攝像機)具備智能視覺分析和識別的能力。各個前端設備(包括前端的智能終端,如DVR、NVR、IPC等)的智能化功能根據監(jiān)控業(yè)務的不同可能會有差別,但總的歸納起來應該包括:移動目標的檢測和跟蹤、目標的分類、人臉檢測、跟蹤和識別、車牌檢測和牌號識別、場景事件檢測、目標的特定行為識別。智能前端設備分析輸出的結果是以元數據的形式存儲和傳遞的。
當監(jiān)控場景內的目標從一個視場中移出并進入另外一個部分重疊的視場時,為了實現連續(xù)的目標跟蹤,通常需要在攝像機之間進行接力。對于一個完整意義上的智能視覺監(jiān)控系統來說,能夠通過前端設備的單點智能化分析單一場景內發(fā)生的事件和目標的行為是基本的要求,此外還必須在監(jiān)控中心依靠攝像機傳感網絡內鄰近的其他攝像機,從多通道、多區(qū)域中獲取連續(xù)的視頻序列,并對其進行視覺綜合分析,這就是“區(qū)域范圍的智能化”的含義。這是一種把單點智能通過元數據連接在一起構成的系統智能的能力。
分布式智能視覺監(jiān)控系統基于大規(guī)模攝像機傳感網絡,為了提高系統在整體性能上對事件檢測和行為識別的準確率,有必要把部署在監(jiān)控中心的智能分析系統與各個監(jiān)控現場獨立通道上的智能分析結果進行集成,以構成一個自底向上和頂向下結構的反饋系統。系統在收集和記錄海量視頻數據的同時,也在時刻傳遞著、計算著描述場景內容特征的元數據。這種以元數據為中心的網絡計算環(huán)境被稱為“上下文環(huán)境”,簡稱上下文。
智能視覺監(jiān)控系統中的元數據
元數據是一種特殊的二次信息,用來描述原始信息本身的內容、質量、狀況和其它特性,通常用對于數據的自動檢索和數據挖掘。分布式智能視覺監(jiān)控系統中的元數據由兩個層次組成,即基本屬性信息,以及描述場景內容的信息。分布式智能視覺監(jiān)控系統追求的目標就是構造一個完整的W6(發(fā)生了什么事?發(fā)生在哪里?發(fā)生在什么時間?發(fā)生時場景內都有誰?為什么會發(fā)生?怎么發(fā)生的?)系統,其中“時間和地點”是在非智能化系統中就固有的功能。對這些問題的回答就蘊藏在描述場景內容特征的元數據當中。元數據在系統中傳遞和進一步深層利用的過程就是所謂“上下文感知”的過程。其目的是:通過對元數據進行分層融合的處理,實現一個有效的分布式智能視覺分析系統。
元數據——基本的屬性信息?;緦哟蔚脑獢祿o需經過智能視覺分析算法的輸出即可得到。為了對場景事件和目標的行為有一個完備的屬性記錄,主要包括基本的屬性信息,如:錄像時間、地點信息、攝像機的參數、設備制造商、安裝者、用戶信息。
元數據——描述場景內容的信息。這部分元數據來自于對場景視頻進行實時分析的結果,按照其描述的范圍分類,主要有局部場景內的元數據(來自于智能前端設備的分析輸出)和全局場景內的元數據(由分布式視頻監(jiān)控中心的上下文感知算法產生)。
上下文感知環(huán)境的建立
為了實現分布式智能視覺分析系統的“上下文感知”功能,首先需要構建一個強大的視覺信息傳感網絡,此外還需要一個支持元數據分層融合的邏輯路由。
視覺信息傳感網絡
在基于視覺信息傳感網絡的分布式視頻監(jiān)控系統中,監(jiān)控攝像機獲取足夠清晰的視頻輸入可以提高監(jiān)控系統對智能事件檢測和行為識別的可靠性。視頻數據(圖像)的質量體現在如下三個方面的技術指標:圖像的品質和高清效果;對視場環(huán)境中干擾因素的抑制;對攝像機視覺功能異常的檢測和緊急處理。
攝像機成像的品質和高清效果一般通過攝像機前端鏡頭和傳感器部分保證。對視場內干擾因素的抑制也是衡量攝像機性能高低的重要條件,這些因素主要包括:低照度條件、寬動態(tài)響應、景物色彩溫度的改變和大氣中的霧霾等。在這些因素條件下都需要攝像機對場景的視頻質量進行增強。
在視覺監(jiān)控系統中,攝像機的視覺功能異常通常意味著整個系統的原始視頻輸入受到嚴重干擾。無論是人為蓄意還是由設備或環(huán)境因素所致,視覺功能異常對系統的效能都有很大的影響,甚至隱含著對攝像機設備的安全威脅。產生所謂“攝像機視覺功能異?!钡目赡茉蛴校喝擞檬种劣跀z像機前、在攝像機上噴漆或移動攝像機使其指向其他方向。這些行為一定會超過數秒,因此如何判斷真正的攝影機異常而不是因為人群移動或是車輛震動或其他正常的原因是真正技術所在。圖1所示是為一種因人為惡意遮擋導致的攝像機視覺功能異常。
對攝像機視覺功能異常的檢測一旦實現,便可立即在視覺信息傳感網絡內部觸發(fā)“傳感器安全威脅”緊急事件管理,在監(jiān)控中心端重新優(yōu)化分布式系統的視覺跟蹤進程圖。
元數據的邏輯路由
在圖2所示的分布式智能視頻監(jiān)控系統拓撲圖中,黑色箭頭表示元數據在系統網絡上的流動情況。流動方向可以是雙向的,即智能前端設備的元數據為監(jiān)控中心提供全局場景分析所用的局部描述特征,而監(jiān)控中心根據自己的計算結果補充前端智能結點在觀測信息上的局限性。
描述本地場景特征的元數據在分布式智能視頻監(jiān)控系統的前端設備上計算生成后,需要先在視覺信息傳感網絡內部傳遞,然后在監(jiān)控中心端被深度利用以生成描述廣域監(jiān)控范圍場景的元數據。元數據的邏輯路由通常采用與海量視頻數據相對獨立的信息層,按照 “數據的分層傳輸方法”,在TCP/IP協議集中實現。
作為傳輸和利用元數據的另一種方案,在新一代面向智能視頻監(jiān)控的視頻編碼標準中,描述場景特征的元數據被封裝在兩個新型的信息層(對象層和分析層)中,不僅進一步在編碼標準的基本層實現基于感興趣區(qū)域的空域分辨率可調整編碼,也為智能視覺分析算法提供了一個完整的元數據邏輯路由。
上下文感知算法
分布式智能視頻監(jiān)控系統的有效性是以具備上下文感知能力的視覺分析系統為前提的。上下文感知算法在分布式智能視頻監(jiān)控系統中扮演著重要角色,它關注的是對智能前端設備內產生的元數據的深度利用,而不關心局部場景的元數據在前端設備上如何產生。
傳感網絡環(huán)境下的攝像機定標
攝像機所處理的原始視頻(圖像)數據都可看作是3D世界坐標系下的真實數據在以該攝像機焦點為中心的2D圖像坐標系中的投影。由于每臺攝像機都有各自的2D圖像坐標系,因此要正確地關聯和融合來自傳感網絡中不同攝像機的元數據,必須先對各個攝像機進行定標。由于不同的攝像機之間可能存在色彩敏感度和空間分辨率上的差異,或者工作在不同的光照條件下,因此定標工作應不僅僅針對空域進行,還應當包括時域和顏色空間。嚴格地說,攝像機的定標不屬于上下文感知算法的一部分,但是它是非常必要的,可為上下文感知算法提供前置的預處理。
對攝像機進行空域定標后,將會導出兩個變換矩陣和,分別用于把不同視場內的元數據變換到統一的世界坐標系中以及把世界坐標系下的數據投影到2D圖像坐標系中,這實際上為元數據在更廣監(jiān)控范圍內的深度利用提供了可能。對攝像機進行時域定標時,需要針對不同攝像機觀測到的同一個運動目標進行軌跡的匹配,以求出針對不同攝像機時鐘的時間彎折曲線,在實際應用中比較復雜。對攝像機進行顏色空間上的定標還要考慮不同光照條件下的實驗數據收集,應用操作起來更加繁瑣。
在實際工程項目中,如果定標不準確或是略去對攝像機在時域和顏色空間的定標,必然會降低不同的視覺信息通道向監(jiān)控中心提供元數據的可靠性,比如對場景內同一個目標的特征描述出現不一致甚至沖突的問題。這時為了得到可靠的元數據以描述全局監(jiān)控場景的實時狀態(tài),可對元數據進行融合。有兩種方法可以采用:其一,通過網絡,在監(jiān)控中心對元數據進行狀態(tài)估計;其二,選擇合適的場景事件模型,在監(jiān)控中心對由元數據組成的事件進行推理。
全局場景的視覺跟蹤
在基于攝像機傳感網絡的分布式視頻監(jiān)控系統中,監(jiān)控中心收到來自各個前端設備的視頻流及相關的元數據通常描述的是有限時空范圍的視覺信息,由于攝像機定標不準確(詳見前述內容)、場景的噪聲和目標被遮擋等原因,分析得出的元數據存在不確定性的特點。為了實現在監(jiān)控中心對全局區(qū)域內感興趣目標可靠的視覺跟蹤,可以采用一種分層式點對點的多攝像機元數據融合算法。
該數據融合算法基于一種策略,以監(jiān)控中心的世界坐標系為參考,把來自不同智能攝像機或是智能視頻分析通道的元數據合并為一個大的向量,使用分層Kalman預測器對場景內被智能前端設備鎖定的多個視覺目標進行可靠跟蹤,并從這個大向量的分量重發(fā)現場景中的異常事件。算法的底層指的是各個智能前端設備的監(jiān)控層,上層指的是監(jiān)控中心層。
全局場景的事件融合
在不同領域知識的背景下,元數據的組合可以構成事件;另一方面,事件具備多種由元數據表征的屬性。元數據本身只是屬性或特征的度量,而事件才能表達場景內的語義,事件具備原子性,由它可進一步構造對場景語義的句法描述。
多種原因,如:攝像機定標不準確(詳見前述內容)、視頻場景的噪聲和目標被遮擋等,常會降低各個智能前端通道分析得出的元數據可靠性,這時為了依然保證監(jiān)控中心對全局場景事件檢測的準確性,可以在事件模型中對其屬性(元數據)進行融合,然后得出優(yōu)化的推理結果。圖3 所示為在基于多攝像機傳感網絡的環(huán)境下,全局場景事件的檢測和識別可以通過對多臺攝像機傳遞的本地元數據進行融合而得到。
結語
本文提出了一種具備上下文感知功能的分布式智能視覺分析系統。對上下文和上下文感知給出了具體的物理意義和實現手段。
以元數據為中心設計的分布式系統,能夠保證場景異常事件或特定行為發(fā)生時,在多臺攝像機構成的多通道傳感器網絡內實現元數據的傳遞和數據融合,從而提高在監(jiān)控中心全局意義上對場景事件識別的準確率。元數據的融合在監(jiān)控中心進行,因而可在全局意義上得到所監(jiān)控區(qū)域的場景視圖。
一個典型的上下文感知智能視覺分析系統能夠在場景內事件觸發(fā)時,把元數據送入監(jiān)控中心的事件隊列,然后依據上下文感知算法對元數據進行融合,使事件隊列優(yōu)化,最終得出高可靠性的對全局事件的識別。
評論