DSP嵌入式說(shuō)話人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
MFCC著眼于人耳的聽覺機(jī)理,依據(jù)聽覺的結(jié)果來(lái)分析語(yǔ)音的頻譜,獲得了很好的識(shí)別率和很好的噪聲魯棒性,它利用了聽覺系統(tǒng)的臨界效應(yīng),描述人耳對(duì)感知的非線性特性。在DSP硬件資源配置中,MFCC在識(shí)別性能和DSP內(nèi)部空間占用方面也取得了很好的平衡。在該系統(tǒng)中使用16個(gè)濾波器(M=16)構(gòu)成的濾波器組。圖4所示是MFCC的提取過(guò)程。本文引用地址:http://2s4d.com/article/152184.htm
2.3 識(shí)別方法選擇與實(shí)現(xiàn)
基于該系統(tǒng)對(duì)速度、識(shí)別效率、存儲(chǔ)空間的要求,這里的識(shí)別方法選為高斯混合模型。高斯混合模型(GMM)可以看成是狀態(tài)數(shù)為1的連續(xù)分布隱馬可夫模型CDHMM。一個(gè)M階混合高斯模型的概率密度函數(shù)是由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到,所示如下:
式中:X是一個(gè)D維隨機(jī)向量;bi(Xi)是子分布,i=1,2,…,M是子分布;ωi是混合權(quán)重,i=1,2,…,M。對(duì)GMM模型參數(shù)的估計(jì)方法該系統(tǒng)采用最大似然估計(jì)。對(duì)于一組長(zhǎng)度為T的訓(xùn)練矢量序列X={X1,X2,…,XT},GMM的似然度可表示為:
由于式(5)是參數(shù)λ的非線性函數(shù),很難直接求出其最大值。因此,該系統(tǒng)采用EM算法估計(jì)參數(shù)λ。
2.4 算法實(shí)現(xiàn)過(guò)程中的具體考慮.
(1)FFT變換點(diǎn)數(shù)的選擇。FFT變換點(diǎn)數(shù)選擇很重要,如果選擇太大,則運(yùn)算復(fù)雜度變大,使系統(tǒng)響應(yīng)時(shí)間變長(zhǎng),如果選擇太小則可能造成頻率分辨率過(guò)低,提取參數(shù)誤差過(guò)大。該系統(tǒng)中選取的點(diǎn)數(shù)為240點(diǎn)。
(2)模型參數(shù)的選擇。首先模型階數(shù)M必須適中,必須足夠大,可以充分表示出空間的分布。然而,階數(shù)也不能太大,否則數(shù)據(jù)數(shù)量不足,也無(wú)法準(zhǔn)確描述特征空間分布。考慮該系統(tǒng)對(duì)參數(shù)的存儲(chǔ)空間要求,并綜合以上考慮,該系統(tǒng)選用的階數(shù)為32階。
(3)協(xié)方差矩陣類型??紤]到減少計(jì)算量,這里采用對(duì)角陣。在高維特征空間中,對(duì)角陣比全矩陣優(yōu)勢(shì)更為明顯。
(4)方差限定。當(dāng)訓(xùn)練數(shù)據(jù)不足或者是存在噪聲干擾時(shí),方差幅度會(huì)很小,這樣會(huì)導(dǎo)致模型概率函數(shù)的奇異性,所以每次EM迭代時(shí),都需要對(duì)方差進(jìn)行限定。即:
根據(jù)實(shí)驗(yàn)結(jié)果,該系統(tǒng)選取S2 min為0.025
(4)模型初值的設(shè)定:EM算法是尋找局部最大概率的模型。不同的初值會(huì)導(dǎo)致不同的局部極值。該系統(tǒng)中采用的是K均值法。
2.5 K均值法應(yīng)注意的幾個(gè)問題
(1)聚類中心的初始化。對(duì)于聚類中心數(shù)目由GMM模型決定,假設(shè)是N。對(duì)于聚類中心的初始化,一般取前N個(gè)矢量作為聚類中心,但在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),這種方法不具有針對(duì)性,往往設(shè)立的初始的聚類中心不具有很好的聚類效果。所以這里采用取質(zhì)心法。具體方法為:
第一步先求出訓(xùn)練集S中全體矢量X的質(zhì)心,然后在S中找出一個(gè)與此質(zhì)心的畸變量最大的矢量Xj,再在S中找到一個(gè)與Xj的畸變量最大的矢量Xk。以Xj和Xk為基準(zhǔn)進(jìn)行胞腔劃分,得到Sk和Sj兩個(gè)子集。對(duì)這兩個(gè)子集分別按照同樣的方法劃分得到4個(gè)子集。依次類推,得到N個(gè)子集。這N個(gè)子集的質(zhì)心即為初始的聚類中心。
(2)聚類中心改進(jìn)量δ的選擇。對(duì)于聚類中心改進(jìn)量δ的選擇,若選擇太大,則聚類不充分,影響訓(xùn)練效果;若太小,則會(huì)導(dǎo)致訓(xùn)練無(wú)法完成,該系統(tǒng)通過(guò)試驗(yàn),取比較適中的數(shù)0.01。
(3)最大迭代次數(shù)的選擇。對(duì)于最大迭代次數(shù)的選擇,太小會(huì)導(dǎo)致誤判,太大導(dǎo)致訓(xùn)練不成功時(shí)過(guò)多的占用系統(tǒng)時(shí)間。該系統(tǒng)迭代次數(shù)設(shè)為100,比較適中。
3 實(shí)驗(yàn)結(jié)果及改進(jìn)點(diǎn)
通過(guò)系統(tǒng)調(diào)試及改進(jìn),該系統(tǒng)最終實(shí)現(xiàn)10個(gè)說(shuō)話人的身份識(shí)別,并自舉運(yùn)行。運(yùn)行時(shí)通過(guò)Switch組合可方便的選擇訓(xùn)練或識(shí)別的功能,并可更新說(shuō)話人。訓(xùn)練,識(shí)別的進(jìn)度及結(jié)果通過(guò)LED組合顯示。利用該系統(tǒng)對(duì)5男5女10個(gè)人進(jìn)行訓(xùn)練,每人500次測(cè)試,結(jié)果正確識(shí)別率為98%,識(shí)別時(shí)間為3 s左右。說(shuō)明該系統(tǒng)可以有效的識(shí)別說(shuō)話人的身份。對(duì)于該系統(tǒng),識(shí)別時(shí)間及識(shí)別率上還有改進(jìn)空間,以后工作可圍繞識(shí)別時(shí)間上改進(jìn)。
評(píng)論