三維視覺系統(tǒng)能提升復(fù)雜場(chǎng)景下視頻監(jiān)控的準(zhǔn)確率
文/趙勇本文引用地址:http://2s4d.com/article/201612/332924.htm
基于三維深度視覺信號(hào)處理技術(shù)的視覺傳感器網(wǎng)絡(luò),對(duì)于智能分析在場(chǎng)景應(yīng)用中的準(zhǔn)確率將從本質(zhì)上得到提升,并解決用戶從場(chǎng)景監(jiān)控環(huán)境中獲得人的軌跡行為的迫切需求。
三維攝像機(jī)的基本性能介紹
芯片處理
三維攝像機(jī)的智能分析的核心是在前端進(jìn)行人的軌跡跟蹤分析,同時(shí)在后端也開放了SDK,將SDK里面的內(nèi)容傳到后臺(tái)的服務(wù)器,客戶可以根據(jù)業(yè)務(wù)需求在SDK的基礎(chǔ)上進(jìn)行二次開發(fā)。
建模
三維攝像機(jī)產(chǎn)品模型是三維模型,一種是三維的背景模型,在使用的場(chǎng)景中,熱點(diǎn)和熱區(qū)都是屬于三維的。二維只能是在平面上畫一個(gè)禁區(qū),缺陷在于有時(shí)候人根本沒有進(jìn)入禁區(qū),但是當(dāng)人遮擋禁區(qū)的時(shí)候就會(huì)產(chǎn)生誤報(bào),而三維的背景模型可以設(shè)一個(gè)球形、立方形,只要物體沒有進(jìn)入這個(gè)立方形的幾何邊界,它就不會(huì)報(bào)警。另一種是前景建模,就是對(duì)所看到的物體進(jìn)行形態(tài)的分析,比如一個(gè)人拉著一個(gè)箱子或者推著一輛車,三維攝像機(jī)看到的每個(gè)物體都會(huì)用深度學(xué)習(xí)判斷這個(gè)東西到底是不是人。
數(shù)據(jù)結(jié)構(gòu)化和云計(jì)算
三維攝像機(jī)未來將是一個(gè)數(shù)據(jù)結(jié)構(gòu)化的產(chǎn)品,在錄像中每個(gè)人從影像出來的軌跡,都會(huì)變成結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)到后臺(tái)的服務(wù)器,而后臺(tái)服務(wù)器的架構(gòu)是標(biāo)準(zhǔn)的云計(jì)算的架構(gòu)。每個(gè)攝像機(jī)自身就是一個(gè)云的Docker,三維攝像機(jī)安裝在銀行時(shí),由于銀行都使用了標(biāo)準(zhǔn)的服務(wù)器結(jié)構(gòu),運(yùn)營起來不會(huì)有問題。而對(duì)于零售機(jī)構(gòu)的后臺(tái)服務(wù)器,因?yàn)橹苯涌梢圆渴鹪谠贫?,所以在開始設(shè)計(jì)時(shí),就是按照兼容云的結(jié)構(gòu)去研發(fā)。
三維PK二維 智能分析算法優(yōu)劣勢(shì)對(duì)比
要從根本上、光學(xué)上徹底解決二維智能算法準(zhǔn)確率不高的難題,可以從三維計(jì)算機(jī)視覺去尋求突破。三維計(jì)算機(jī)視覺是采用了革命性的三維視覺傳感器和三維視覺算法,實(shí)時(shí)捕捉和分析場(chǎng)景的三維信息,解決了傳統(tǒng)二維圖像中的相互遮擋、影隨人動(dòng)、比例混淆等問題,使得更高精確度和復(fù)雜度的智能分析成為現(xiàn)實(shí)。
相互遮擋的問題
我們知道,現(xiàn)在行業(yè)用的攝像機(jī)是二維的,成像原理是通過鏡頭實(shí)現(xiàn)小孔成像(如圖1),然后投影到一個(gè)二維的平面上,以前的平面是膠卷,現(xiàn)在是半導(dǎo)體芯片的數(shù)碼相機(jī)。成像的過程本質(zhì)是沒有改變的,一個(gè)三維的世界,壓扁之后放在一個(gè)平面上,從智能算法的角度分析,這個(gè)過程是造成準(zhǔn)確度下降的核心。比如當(dāng)兩個(gè)人前后有遮擋時(shí),那么在二維圖形里面要把這兩個(gè)人分開來,難度比較大。而三維的攝像機(jī),首先傳感器是不一樣的,它捕捉的是三維圖像,每一個(gè)像素都是有顏色的,還有像素代表了物體到相機(jī)的絕對(duì)距離。目前市場(chǎng)的某些攝像機(jī)像雷達(dá),除了被動(dòng)的成像,還向外主動(dòng)的發(fā)射微波的微觀紅外圖像,相當(dāng)于在場(chǎng)景里發(fā)射出一束激光,打在物體上,返回時(shí)攜帶了物體的幾何信息。攝像機(jī)通過這種方式得到了立體的圖像,知道什么東西在什么地方,它的結(jié)構(gòu)是怎么樣的。這種數(shù)據(jù)從本質(zhì)上講,給出了更豐富的信息,可以讓攝像機(jī)去處理更復(fù)雜的場(chǎng)景,比如擁擠的場(chǎng)所(如圖2),即使一個(gè)人被擋住了,他露出的部分,還是可以非常清晰地在圖像里分析出來,這也是為什么在復(fù)雜的場(chǎng)景中,三維的智能分析對(duì)人的跟蹤遠(yuǎn)遠(yuǎn)比二維的要好。
影隨人動(dòng)的問題
其實(shí),三維對(duì)光影變化的處理抗噪性特別的好,在視覺領(lǐng)域,有一個(gè)現(xiàn)象叫“影隨人動(dòng)”,當(dāng)物體的影子比較強(qiáng)烈時(shí),在二維的圖像里面,影子會(huì)隨著人的移動(dòng)而跟著移動(dòng),所以要把影子與人分開很難,影子容易被誤當(dāng)做人。但是這個(gè)過程有一點(diǎn)是確定的,那就是影子始終是投影在背景上的,三維的傳感器既然可以捕捉到物體的深度信息,所以即使有一個(gè)影子在背景上,攝像機(jī)也可以通過計(jì)算該影子與到相機(jī)的距離來分辨其是否在背景上,對(duì)整體的分析沒有造成干擾。
比例混淆的問題
在圖像里面,物體的大小與其實(shí)際大小并沒有關(guān)系,因?yàn)樗€取決于這個(gè)物體到攝像機(jī)的距離(如圖3)。但是在三維圖像里面,可以很精確地知道,這個(gè)物體在什么地方,它有多大多小。三維的攝像機(jī)有一個(gè)絕對(duì)尺度的計(jì)算,有了絕對(duì)尺度之后,就可以做到大小、距離、加速度的測(cè)量等。但在二維攝像機(jī)里,沒有絕對(duì)的尺度,所有的都是相對(duì)尺度,所以所有的測(cè)量都是相對(duì)的。因此三維攝像機(jī)對(duì)人的行為可以進(jìn)行更精確的測(cè)量,比如人走了多少距離、速度多快、身高多少,在三維分析里面都有非常準(zhǔn)確的測(cè)量。
困難重重 三維攝像機(jī)在研發(fā)和應(yīng)用上的難題
研發(fā)過程
首先從硬件上講,這是一個(gè)更復(fù)雜的產(chǎn)品,一些產(chǎn)品表面上看是有三個(gè)攝像機(jī),其實(shí)是兩個(gè)攝像機(jī)加一個(gè)投影儀,投影儀是把紅外激光的影像進(jìn)行投影。而另外兩個(gè)攝像機(jī),一個(gè)是色彩攝像頭,一個(gè)是紅外攝像頭,紅外攝像頭就與投影儀相互配合,進(jìn)行深度算法分析。
其次,從軟件上分析,相比二維更為復(fù)雜,表現(xiàn)在對(duì)人的暴力程度、跌倒行為需要有更深度、精確的算法分析。運(yùn)算量越大,消耗的就越多。
另外,當(dāng)前的產(chǎn)品應(yīng)用,主要在室內(nèi),室外的產(chǎn)品也在研發(fā)當(dāng)中。室內(nèi)與室外最大的差別在于成像原理,而第一代產(chǎn)品是基于紅外結(jié)構(gòu)光譜基礎(chǔ)成像,發(fā)出的紅外光如果在室外,就容易被太陽光沖淡。現(xiàn)在的產(chǎn)品在陰晴的氣候環(huán)境下也可以工作,但在強(qiáng)光下就無法工作,所以要在室外工作,必須要在成像原理上做突破。
場(chǎng)景應(yīng)用
安防監(jiān)控在過去的發(fā)展歷程中主要是鋪設(shè)備和提升攝像機(jī)的分辨率,但是這個(gè)過程給用戶帶來了巨大的痛苦——大多數(shù)安防監(jiān)控的數(shù)據(jù)量更大了,而行為分析的能力沒有得到提升。很多客戶需要更智能的產(chǎn)品,那就是不需要人去監(jiān)看,或者需要人去看的數(shù)據(jù)很少,所以這里蘊(yùn)藏著非常大的市場(chǎng)需求,就是對(duì)人的行為的分析。我們知道,安防監(jiān)控有很多目標(biāo),但最重要的目標(biāo)是人,很多客戶希望行為分析里能把人的行為看得很清楚。
人的行為分很多層次,有些是微觀行為,比如人有沒有在桌上拿走一張錢,或者他的眉毛有沒有皺一下,這種非常細(xì)微的行為,這樣的行為分析目前還不能做到。當(dāng)前行業(yè)做的行為分析是基于人的軌跡進(jìn)行分析,比如在銀行里,有兩種需求:第一種需求是在銀行的營業(yè)廳里,客戶想知道秩序怎么樣,每個(gè)人在干什么,有沒有排隊(duì),有沒有移動(dòng)過快,有沒有異常的接近、跌倒或其他激烈的動(dòng)作。實(shí)踐證明,如果在人群比較擁擠,人與人有遮擋等復(fù)雜的情況下,用二維的智能算法去做分析,精度非常差。
第二種需求是在銀行內(nèi)部的操作空間——敏感的現(xiàn)金區(qū)、ATM加鈔間和金庫。在這些地方客戶有非常強(qiáng)的業(yè)務(wù)需求,比如在加鈔間的款箱被打開的時(shí)候,監(jiān)控畫面要確保有兩名工作人員來完成操作;在金庫里面,人去了哪些地方,停留了多久……這些業(yè)務(wù)要求需要對(duì)人的行為進(jìn)行檢查和跟蹤,再者如果人蹲了下去,或者人被遮擋了,攝像機(jī)還能精確檢測(cè)到這個(gè)人是誰,那就對(duì)智能分析算法的精度的要求比較高。而當(dāng)前傳統(tǒng)的基于二維的智能算法,還不能滿足這些具體的業(yè)務(wù)需求。
未來發(fā)展
平安城市或者智慧城市建設(shè),就是希望把單個(gè)攝像機(jī)所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行鏈接。三維攝像機(jī)有一個(gè)功能“活地圖”,比如一個(gè)地方有一百個(gè)攝像機(jī),擁有一百個(gè)畫面,但我們不是給客戶看一百個(gè)畫面,而是給他看一個(gè)畫面。里面每一個(gè)人的存在和移動(dòng)都變成了一個(gè)小點(diǎn),客戶只要看一張圖就可以知道這個(gè)場(chǎng)所發(fā)生了什么事情——人都在哪些地方,哪些地方人多、人少。白天的時(shí)候,客戶就可以利用這些信息對(duì)流量進(jìn)行精確的控制;夜晚的時(shí)候,就是安全需求,當(dāng)有任何人闖進(jìn)空間時(shí),客戶就可以對(duì)闖入者的位置、行為進(jìn)行監(jiān)控。這就是行業(yè)近期追求的目標(biāo),把海量的視頻數(shù)據(jù)查閱轉(zhuǎn)變成看一張圖,而更長遠(yuǎn)的目標(biāo)是進(jìn)行人的識(shí)別——身份識(shí)別和人臉識(shí)別。
三維攝像機(jī)的身份識(shí)別,要做到當(dāng)一個(gè)人離開一個(gè)攝像機(jī)進(jìn)入另外一個(gè)攝像機(jī)時(shí),三維攝像機(jī)能把他識(shí)別出來,也就是要判斷和確定兩個(gè)攝像機(jī)里面出現(xiàn)的是同一個(gè)人。而在人臉識(shí)別方面,雖然當(dāng)前的安防監(jiān)控行業(yè)在人臉識(shí)別中有了初級(jí)的應(yīng)用,但是深度的識(shí)別還沒有成功。
(本文作者現(xiàn)任北京格靈深瞳信息技術(shù)有限公司聯(lián)合創(chuàng)始人兼CTO)
評(píng)論