基于統(tǒng)一特征模型的體育視頻鏡頭轉(zhuǎn)換檢測(cè)
1 引言
廣播體育視頻的自動(dòng)分析是視頻檢索技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域。體育視頻是鏡頭轉(zhuǎn)換檢測(cè)最具挑戰(zhàn)性的應(yīng)用領(lǐng)域。本文的體育視頻鏡頭轉(zhuǎn)換檢測(cè)圍繞廣受歡迎的足球視頻展開,且容易擴(kuò)展到其他體育視頻的分析中。
在已有的研究中,局部顏色直方圖(Region ColorHistograms,RCH)距離特征(記作DRCH)是切變檢測(cè)中最受推薦的特征,且此特征在漸變鏡頭轉(zhuǎn)換檢測(cè)中依然有效。文獻(xiàn)[7]提出了一種在鏡頭轉(zhuǎn)換檢測(cè)中使用直方圖特征的統(tǒng)一模型,并在較大的數(shù)據(jù)集上取得了很好的效果。筆者在實(shí)驗(yàn)中首先采用文獻(xiàn)[7]中的RCH特征模型和決策樹方案進(jìn)行鏡頭轉(zhuǎn)換檢測(cè),發(fā)現(xiàn)即使采用訓(xùn)練得到的最優(yōu)分類器,切變檢測(cè)的查全率和查準(zhǔn)率也僅能同時(shí)達(dá)到96%,而漸變檢測(cè)的查全率和查準(zhǔn)率則很難同時(shí)達(dá)到60%。這樣的檢測(cè)水平(尤其對(duì)于漸變)必然會(huì)給下一步視頻分析帶來負(fù)面影響?,F(xiàn)有算法在體育視頻鏡頭轉(zhuǎn)換檢測(cè)中遇到的主要問題有:
1) 當(dāng)鏡頭轉(zhuǎn)換前的最后一幀與轉(zhuǎn)換后的第一幀都以大面積比賽場(chǎng)地為背景時(shí),它們的RCH特征非常相似,容易造成漏檢。
2) 當(dāng)攝像機(jī)以特寫鏡頭跟蹤奔跑的球員時(shí),將發(fā)生快速搖移。這一過程中的RCH特征變化速度與漸變過程中的速度相當(dāng),容易造成誤檢。
3) 當(dāng)前體育視頻中的漸變對(duì)應(yīng)的DRCH序列多數(shù)不再具有簡(jiǎn)單的尖峰形狀,而是更復(fù)雜的模式,容易造成大部分動(dòng)畫劃變被漏檢。
2 中層特征
特征提取是提高鏡頭轉(zhuǎn)換檢測(cè)算法性能的關(guān)鍵所在。由于鏡頭轉(zhuǎn)換的本質(zhì)是圖像序列的特征在語(yǔ)義層次上的不連續(xù),現(xiàn)有算法使用的底層特征不足以解決體育視頻中的問題。盡管能理想表達(dá)語(yǔ)義的是目標(biāo)級(jí)特征(高層特征),然而對(duì)視頻進(jìn)行目標(biāo)級(jí)分析在今天仍然是一項(xiàng)極具挑戰(zhàn)性的工作。本文提出兩種新型的中層特征來充分反映體育視頻中的目標(biāo)層特征,如場(chǎng)地的相對(duì)位置、球員的運(yùn)動(dòng)等。其中一種特征基于對(duì)賽場(chǎng)主顏色的分割;另一種特征基于對(duì)運(yùn)動(dòng)矢量可信度的評(píng)價(jià)。
2.1 主顏色(Dominant Color,DC)中層特征
由于在體育視頻的多數(shù)幀中,具有某種特定顏色的場(chǎng)地在畫面中占據(jù)很大的比例,DC分割成為一種在鏡頭轉(zhuǎn)換檢測(cè)、鏡頭視角分類以及目標(biāo)檢測(cè)中的有效工具。本文算法基于DC分割提取的3個(gè)特征(FDC1,F(xiàn)DC2和FDC3)能夠有效地反映畫面中的目標(biāo)級(jí)特征。
由于廣播足球視頻中的場(chǎng)地通常呈現(xiàn)出綠色(實(shí)際上也可能偏青色或偏黃色),DC在HSV(Hue-Satura-tion-Value)或HIS(Hue-Saturation-Intensity)色彩空間的H通道中緊密地分布于一個(gè)小范圍內(nèi)。本文通過訓(xùn)練得到DC的HSV直方圖模型,模型的具體參數(shù)在視頻分析過程中逐幀自適應(yīng)地學(xué)習(xí)。這種DC分割算法有效、魯棒,其根基如下:
1) 在一幀以場(chǎng)地為主要背景的視頻圖像中,大比例的DC像素足以用來進(jìn)行估計(jì)DC分布并進(jìn)行分割。
2) 本文的DC模型是從大量足球視頻片段(“04-05賽季歐洲冠軍杯最佳進(jìn)球”和“2006世界百大進(jìn)球”)中得到的統(tǒng)計(jì)結(jié)果。
圖1給出了一些足球比賽視頻幀的DC分割結(jié)果。其中從左至右3列分別對(duì)應(yīng)于特寫、中景和遠(yuǎn)景鏡頭。
將DC像素標(biāo)為1、非DC像素標(biāo)為0得到二值的DC掩膜矩陣MDC(t)。FDC1(t)定義為MDC(t)中的DC像素比例特征。如果FDC1(t)>0,將從二值掩膜矩陣MDC(t)中提取2個(gè)中層特征FDC2(t)和FDC3(t)。FDC2(t)主要反映攝像機(jī)是否拍攝到足球場(chǎng)地的邊界;FDC3(t)主要反映圖像中球員的相對(duì)大小。
為使算法更為魯棒和實(shí)用,F(xiàn)DC2(t)和FDC3(t)的提取是通過對(duì)MDC(t)的歸一化投影向量進(jìn)行中值濾波下采樣、直線擬合、聚類(為計(jì)算FDC2聚為球場(chǎng)和場(chǎng)外兩類,為計(jì)算FDC3聚為球員和非球員兩類)等步驟實(shí)現(xiàn)的。
為說明本文DC特征反映的目標(biāo)級(jí)特性,以比賽場(chǎng)地作為主要背景,采用特寫、中景和遠(yuǎn)景3個(gè)視角,從不同序列中采集了70個(gè)樣本,它們?cè)谔卣骺臻g中的分布見圖2。圖像中球員的相對(duì)大小(橫坐標(biāo))按照遠(yuǎn)景、中景、特寫的順序依次增大,特寫鏡頭拍攝區(qū)域十分有限,一般不會(huì)拍攝到場(chǎng)地的邊界,因此縱坐標(biāo)都較小。本文特征能夠反映對(duì)視角分類最有價(jià)值的目標(biāo)級(jí)信息,可以較清晰地區(qū)分3種不同的鏡頭視角類型(圖2中黑色虛線)。
因?yàn)轶w育視頻相鄰鏡頭中的視頻幀極有可能屬于不同的鏡頭視角類型,所以其DC特征往往存在較大的差別,這一特性有助于檢測(cè)鏡頭轉(zhuǎn)換。
2.2 運(yùn)動(dòng)矢量(Motion Vector,MV)中層特征
通過分析MV這一有效的底層特征,同樣可提取出中層特征來反映目標(biāo)級(jí)的特性。在本文中,這種中層特征主要用來反映體育視頻中的紋理和運(yùn)動(dòng)信息。
視頻壓縮過程中計(jì)算得到的MV并不能代表所對(duì)應(yīng)圖像塊的真正運(yùn)動(dòng)信息,在體育視頻中尤其如此。例如,快速變化的圖像內(nèi)容、大面積弱紋理區(qū)域以及由于攝像機(jī)運(yùn)動(dòng)引起的畫面模糊都有可能導(dǎo)致MV雜亂且不可信。因此,為了消除這些不可信MV的影響,提出了一種MV過濾的方法。此方法判斷一個(gè)MV有效的準(zhǔn)則是它所對(duì)應(yīng)的塊匹配殘差小且塊匹配殘差隨它的改變而較快地增大。圖3給出了這種算法得到的一些實(shí)驗(yàn)結(jié)果,其中非可信MV的塊被白色覆蓋。
基于這種MV可信度分析算法,本文定義3個(gè)特征:FMV1,F(xiàn)MV2和FMV3,它們分別表示可信MV的比例、集中程度和平均值。其中FMV1在鏡頭切變時(shí)比在鏡頭內(nèi)部小很多;而FMV2和FMV3可以鑒別鏡頭漸變(如溶解和動(dòng)畫劃變)過程中的一些特性。
3 統(tǒng)一的特征模型
文獻(xiàn)[1]在使用全局閾值情況下提出對(duì)主顏色比例較大的兩幀進(jìn)行比較時(shí)應(yīng)降低直方圖距離的閾值,從而提高了其算法在體育視頻鏡頭轉(zhuǎn)換檢測(cè)中的表現(xiàn)。筆者結(jié)合了這種想法,形成了一個(gè)將RCH特征與上述中層特征集成在一起的統(tǒng)一特征模型如圖4所示。最后,采用訓(xùn)練得到的支持向量機(jī)(Support Vector Machine,SVM)分類器完成對(duì)切變和漸變的檢測(cè)。
3.1 切變檢測(cè)方案
本文特征模型首先判斷進(jìn)行比較的兩幀圖像是否滿足條件CDC(t,s):(FDC1(t)>0)∧(FDC1(t-s)>0),s表示兩幀圖像間的采樣間隔。
如果條件滿足,則兩幀很可能非常相似。因此本文模型中分別訓(xùn)練兩個(gè)SVM分類器進(jìn)行分類(如圖4)。對(duì)于隔行掃描的電視廣播視頻,切變可能包含一個(gè)混合幀,為檢測(cè)切變,考察s為2的情況。當(dāng)且僅當(dāng)CDC(t,2)為真時(shí),才可將這兩幀圖像的FDC2差和FDC3差作為2個(gè)DC特征輸入圖4中的SVMAY。
為檢測(cè)切變,模型中同時(shí)采用DRCH(t,2)和min{FMV1(t),F(xiàn)MV1(t-1))。為了自適應(yīng)地確定它們相應(yīng)的閾值(特征空間中的分類界面),鄰近幀的特征也作為分類器的輸入。一個(gè)鄰域特征表示左、右鄰域的DRCH平均值中較大者,另一個(gè)鄰域特征表示左、右鄰域的FMV1平均值中較小者。為了防止過訓(xùn)練現(xiàn)象的發(fā)生,本文的模型沒有使用文獻(xiàn)[7]中多而細(xì)致的鄰域特征。
3.2 漸變檢測(cè)方案
與切變檢測(cè)相似,2個(gè)DC特征當(dāng)且僅當(dāng)CDC(t,s)為真時(shí)被使用。如圖4所示,本文的特征模型對(duì)于漸變檢測(cè)同樣分別訓(xùn)練兩個(gè)不同的SVM分類器。本文還采用3個(gè)基于MV的漸變檢測(cè)特征,分別代表平均的可信MV比例,平均的可信MV集中度以及平均的可信MV大小。
漸變檢測(cè)中還利用DRCH值在時(shí)間軸上構(gòu)成的波形。例如,長(zhǎng)度為s的漸變檢測(cè)可以通過在寬度為2s+1的滑動(dòng)時(shí)間窗口中搜索符合特定規(guī)律的DRCH(t,s)波形來實(shí)現(xiàn)。為了完整地描述不同漸變過程所對(duì)應(yīng)的DRCH波形,本文提取了5個(gè)特征,包括峰、谷的值和位置,以及峰谷間變化的單調(diào)性等。假設(shè)要確定第(t-s)幀至第t幀是否是一個(gè)漸變,這5個(gè)特征將從序列{DRCH(t-s,s),…,DRCH(t+s,s)}中提取。在實(shí)際計(jì)算中,一般只使用幾個(gè)步長(zhǎng)作為漸變長(zhǎng)度s的可能值,例如當(dāng)幀率是29.97時(shí)使用步長(zhǎng)12,18,24,30,36。
4 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)在由12個(gè)視頻序列組成的數(shù)據(jù)集上進(jìn)行,每個(gè)視頻序列對(duì)應(yīng)半場(chǎng)足球比賽。前6個(gè)序列用于SVM訓(xùn)練,后6個(gè)序列用于測(cè)試本文的算法。所有視頻序列的分辨率均為704
評(píng)論