基于多特征SVMs分類器的手語(yǔ)識(shí)別的研究
引言
手語(yǔ)識(shí)別的目的就是通過(guò)計(jì)算機(jī)提供一種有效的、準(zhǔn)確的機(jī)制將聾啞人常用的手語(yǔ)手勢(shì)識(shí)別出來(lái),使得他們與健全人之間的交互變得更方便、快捷。同時(shí),手語(yǔ)識(shí)別的應(yīng)用還可以提供更自然的人機(jī)交互方式,方便聾啞人對(duì)計(jì)算機(jī)等常用信息設(shè)備的使用。目前手語(yǔ)識(shí)別可以分為基于視覺(jué)(圖像)的識(shí)別系統(tǒng)和基于數(shù)據(jù)手套(佩戴式設(shè)備)的識(shí)別系統(tǒng)。基于視覺(jué)的手勢(shì)識(shí)別系統(tǒng)采用常見(jiàn)的視頻采集設(shè)備作為手勢(shì)感知輸入設(shè)備,價(jià)格便宜、便于安裝。鑒于基于視覺(jué)的手勢(shì)識(shí)別方法交互自然便利,適于普及應(yīng)用,且更能反映機(jī)器模擬人類視覺(jué)的功能,所以目前是手勢(shì)識(shí)別的研究重點(diǎn)。
手語(yǔ)識(shí)別的研究開(kāi)始于1982年,Shantz和Poizner實(shí)現(xiàn)了一個(gè)合成美國(guó)手語(yǔ)的計(jì)算機(jī)程序。之后,中國(guó)、美國(guó)、日本、德國(guó)等許多國(guó)家都進(jìn)行了自己國(guó)家的手語(yǔ)識(shí)別與合成研究,并取得了許多重要的研究成果。Triesch和Malsburg開(kāi)發(fā)了一種彈性圖模板匹配技術(shù)對(duì)復(fù)雜背景下的手形進(jìn)行分類[1],在相對(duì)復(fù)雜的背景下的識(shí)別率達(dá)到86.2%。Davis和Shah將戴上指間具有高亮標(biāo)記的視覺(jué)手套的手勢(shì)作為系統(tǒng)的輸入,可識(shí)別7種手勢(shì)[2]。Starner[3]等在對(duì)美國(guó)手語(yǔ)中帶有詞性的40個(gè)詞匯隨機(jī)組成的短句子識(shí)別率達(dá)到99.2%。Yang等人采用7Hu不變矩特征量進(jìn)行手語(yǔ)字母識(shí)別,最好識(shí)別率為90%[4]。
本文采用SVMs (Support Vector Machines,支持向量機(jī))作為手語(yǔ)識(shí)別的分類器,提出了一種基于視覺(jué)的手語(yǔ)字母識(shí)別方法。SVMs在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。采用SVMs作為圖像分類器首先要解決的問(wèn)題是:如何用典型視覺(jué)特征來(lái)表征圖像的不同視覺(jué)特性[5]。
在圖像特征提取方面,為了能夠同時(shí)表征圖像的全局特性和局部特性,需要同時(shí)提取圖像的全局特征和局部特征,并且這些特征中用以描述圖像整體形狀的特征應(yīng)當(dāng)具備平移、旋轉(zhuǎn)和尺度不變性。SIFT(Scale Invariant Feature Transform)是一種對(duì)尺度空間、圖像縮放、旋轉(zhuǎn)甚至仿射不變的圖像局部特征描述算子[6];而7Hu不變矩特征量具有平移、旋轉(zhuǎn)和尺度不變性的特點(diǎn),具有很好的穩(wěn)定性,適合描述目標(biāo)整體形狀。
手語(yǔ)簡(jiǎn)介
手語(yǔ)是一種聾人使用的語(yǔ)言,是一種靠動(dòng)作/視覺(jué)交際的特殊語(yǔ)言[7]。中國(guó)手語(yǔ)包括30個(gè)手指字母,大約5500個(gè)基本手勢(shì)詞。手指語(yǔ)是從字母語(yǔ)言發(fā)展起來(lái)的,是漢語(yǔ)手語(yǔ)的一種,用一個(gè)指式代表一個(gè)漢語(yǔ)拼音字母,按照漢語(yǔ)拼音方案拼成普通話。而手勢(shì)語(yǔ)則是由象形語(yǔ)言發(fā)展起來(lái)的。它充分利用人的手勢(shì)、表情和身體動(dòng)作形象地表達(dá)物體和行動(dòng)的最基本特征。
中國(guó)文字改革委員會(huì)、教育部等單位于1963年聯(lián)合公布實(shí)施漢語(yǔ)手指字母方案[7]。方案中包括漢語(yǔ)拼音中26個(gè)單字母(A~ Z)和4個(gè)雙字母(ZH、CH、SH、NG)如圖1所示。
圖1 中國(guó)手語(yǔ)字母表
SVMs
SVMs的主要思想是建立一個(gè)超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。對(duì)于二維線性可分情況,令 H為把兩類訓(xùn)練樣本沒(méi)有錯(cuò)誤地分開(kāi)的分類線,H1,H2分別為過(guò)各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開(kāi),而且使分類間隔最大。在高維空間,最優(yōu)分類線就成為最優(yōu)分類面[8,9]。
設(shè)線性可分樣本集為(xi,yi)),i=1,2,…,n,x∈Rd,即x是d維特征向量,y∈{+1,-1}是類別標(biāo)號(hào),d維空間線性判斷函數(shù)的一般形式為g(x)=w×x+b,分類面方程為:w×x+b=0 (1)
式中w為權(quán)向量,b為分類閾值。要求分類面對(duì)所有樣本正確分類,就是要求它滿足:
Yi[w×xi+b]-1≥0,i=1,2,…,n (2)
滿足上述條件且使||w||2最小的分類面就叫做最優(yōu)分類面, H1,H2上的訓(xùn)練樣本點(diǎn),也就是使式(2)中等號(hào)成立的樣本點(diǎn),稱作支持向量。解這個(gè)最優(yōu)化問(wèn)題后得到的最優(yōu)分類函數(shù)是:
在學(xué)習(xí)樣本是線性不可分,但卻是非線性可分的情況下,可以通過(guò)非線性變換把學(xué)習(xí)樣本變換到高維空間,使其在高維空間里是線性可分的。用核函數(shù) K(x,y)代替原來(lái)的點(diǎn)積(x·y),Mercer定理指出,核函數(shù) K(x,y)通過(guò)與其相聯(lián)系的非線性變換Φ隱含地把特征向量映射到高維特征空間,使得學(xué)習(xí)樣本成為線性可分的。常用的核函數(shù)有:
圖像特征選取
手語(yǔ)圖像特征的選取,會(huì)直接影響到識(shí)別的效果,因此在表示圖像的不同視覺(jué)特征時(shí)本文同時(shí)提取全局視覺(jué)特征和局部視覺(jué)特征。為了避免圖像分割工具可能帶來(lái)的問(wèn)題,在特征提取時(shí)不進(jìn)行圖像分割。在研究中,將提取圖像的以下特征:(1)7維不變矩特征量,作為圖像整體形狀描述的特征向量(2)用Gabor小波提取48維的紋理特征,以表示圖像的整體結(jié)構(gòu)屬性[10];(3)提取一定數(shù)量的興趣點(diǎn)及它們的SIFT特征[11],以表示圖像的局部結(jié)構(gòu)特征與所包含目標(biāo)的大致形狀。實(shí)驗(yàn)表明,全局和局部視覺(jué)特征可以有效的表示出圖像的主要視覺(jué)特征。
Hu不變矩特征量
利用矩不變量進(jìn)行形體識(shí)別是模式識(shí)別中的一種重要的方法, Hu在1961年首先提出了矩不變量的概念。Hu首先提出代數(shù)不變矩的概念,并給出了一組基于通用矩組合的代數(shù)矩不變量。這些矩具有平移、尺度和旋轉(zhuǎn)不變性,被稱為Hu’s矩。
對(duì)于連續(xù)灰度函數(shù) f(x, y),它的(p + q)階二維原點(diǎn)矩Mpq 的定義為:
假設(shè) f(x, y)為分段連續(xù)的有界函數(shù),并且在x,y平面上有限區(qū)域內(nèi)有非零值。根據(jù)唯一性定理,它的各階矩存在且唯一地被 f(x, y)確定,反過(guò)來(lái),f(x, y)也唯一地被它的各階矩確定。
此外,還可以定義 f(x, y)的(p + q)階中心矩μpq 為:
Hu首先提出了不變矩,他給出了連續(xù)函數(shù)矩的定義和關(guān)于矩的基本性質(zhì),證明了有關(guān)矩的平移不變性、旋轉(zhuǎn)不變性以及比例不變性等性質(zhì),具體給出了具有平移不變性、旋轉(zhuǎn)不變性和比例不變性的七個(gè)不變矩的表達(dá)式。
評(píng)論