基于TMS320C6416的語音凈化系統(tǒng)
目前針對語音識別提出了很多算法,但是這些研究基本上都是基于較為純凈的語音環(huán)境,一旦待識別的環(huán)境中有噪聲和干擾,語音識別就會受到嚴重影響.如果能實現(xiàn)噪聲和語音的自動分離,即在識別前就獲得較為純凈的語音,可以徹底解決噪聲環(huán)境下的識別問題.近年來取得很大進展的盲源分離為噪聲和語音的分離提供了可能.盲源分離(Blind Source Separation)的算法眾多且運算復(fù)雜,經(jīng)比較,其中T.Nishikawa等人提出的分階段ICA方法(MSICA)適合有混響的噪聲環(huán)境中的語音分離問題.經(jīng)過計算機仿真,MSICA算法分離一段7s的語音要用時10ms以上,計算機和低速的DSPs很難滿足實時要求.
本文引用地址:http://2s4d.com/article/150249.htm針對這一算法,設(shè)計了一套以TI的TMS320C6416 DSP(簡稱6416)芯片為內(nèi)核的語音凈化系統(tǒng).6416的時鐘速度高達720MHz,經(jīng)過使用MSICA算法的測試,該系統(tǒng)可以實時地對語音識別的信號進行凈化處理,有效地提高語音識別系統(tǒng)的抗噪性和魯棒性.
1 算法描述
1.1 語音識別信號的混合模型
1.1.1 卷積混合一般模型
語音信號的混合模型已從瞬時模型發(fā)展到卷積模型,相比瞬時模型而言卷積模型更接近真實環(huán)境.麥克風(fēng)所測是卷積混迭信號,即源信號及其濾波與延遲的混迭信號的線性組合再加上其它噪聲,如(1)式所示.
式(1)中,sj(t),j=1,…,N為信號源,且各源信號相互獨立;xi(t),i=1,…,N為N個觀測數(shù)據(jù)向量,其元素是各個麥克鳳得到的輸入.所以觀測信號xi(t)是每個源信號sj(t)經(jīng)過延時tij,并乘以因子aij(t)(沖擊響應(yīng))后疊加,最后加上噪聲ni(t).
1.1.2 針對語音識別的簡化混合模型
一般的語音識別只有一個麥克風(fēng),根據(jù)盲源分離理論,麥克鳳數(shù)應(yīng)不少于信源數(shù),所以采用主副兩個麥克風(fēng)輸入待識別語音,為簡化處理假定只有主講話者聲音s1和背景噪聲s2(此背景噪聲包括經(jīng)過延遲的回聲)兩個聲源.可得如圖1的混合模型.
信號源s1到達兩個麥克風(fēng)的時間間隔為t21,且幅度值不同;s2到達兩個麥克風(fēng)的時間間隔為t12,幅度值也不同.又因為主信號源s1非??拷鼉蓚€麥克風(fēng),所以認為T21比T12小很多,且趨于零.于是得到相應(yīng)的模型表達式的簡化形式:
x1(t)=s1(t)+a12s2(t-t12)+n1(t) (2)
x2(t)=a21s1(t-t21)+s2(t)+n2(t)
1.2 MSICA算法及其實現(xiàn)步驟
傳統(tǒng)采用頻域ICA(FDICA)或者時域ICA(TDICA)方法,單一的方法在真實環(huán)境中缺點很明顯,分離效果在混響環(huán)境中受到很大影響.然而一種時頻域結(jié)合多級分離的混合型ICA算法——MSICA算法可以有效解決這一問題.
該算法主要由三個步驟組成:首先,利用FDICA的高穩(wěn)態(tài)性的優(yōu)點在一定程度上分離源信號;為了簡化后續(xù)計算,白化FDICA分離出來的信號;接著,把白化后的FDICA輸出信號當(dāng)作TDICA的輸入信號,并用TDICA分離線留的交叉干擾分量;最后,TDICA的輸出信號即為分離信號.算法框圖如圖2所示.
2 DSP硬件系統(tǒng)設(shè)計
2.1 硬件結(jié)構(gòu)
為實現(xiàn)上述算法設(shè)計了DSP語音分離系統(tǒng),該系統(tǒng)主要參數(shù)如下:
·TMS320C6416 DSP;
·16M words FLASH ROM;
·兩個EMIF:64-Bit EMIFA和16-Bit EMIFB;
·133MHz的16MB SDRAM;
·兩個16-bit立體聲CODEC:TLV320AD50.
TMS320C6416有很高的信號處理能力以及豐富的片內(nèi)存儲咕嘟和片內(nèi)外設(shè),且有兩級內(nèi)部存儲結(jié)構(gòu).第一級L1緩存包含各為16KB的程序和數(shù)據(jù)存儲器,第二級L2包含1024KB的存儲空間.第一級只能作為緩存而第二級可以被設(shè)置為部分靜態(tài)RAM和部分緩存.在語音凈化系統(tǒng)中,設(shè)置L2為4通道256KB緩存和768KB靜態(tài)RAM.這種配置使用了最大允許的緩存,是因為MSICA算法將處理大量的數(shù)據(jù),訪問外部存儲器會有瓶頸,而大緩存可以將諸如中斷服務(wù)程序、常用函數(shù)的代碼、軟件堆棧等關(guān)鍵數(shù)據(jù)段和反復(fù)使用的系數(shù)存儲于片內(nèi)存儲器中,從而大大提高內(nèi)部存儲空間的使用效率.6416的兩個多通道緩沖串口(McBSP)用作數(shù)據(jù)的輸入輸出端口.模擬接口芯片TLV320AD50可以提供16bit的數(shù)/模、模/數(shù)轉(zhuǎn)換,最大轉(zhuǎn)換率是22.5kHz.采樣率為8kHz,兩個TLV320AD50分別通過McBSP與TMS320C6416相連.兩路混合語音信號通過模擬接口電路轉(zhuǎn)化為數(shù)字信號,兩路數(shù)字信號通過TMS320C6416的兩個McBSP輸入,根據(jù)語音特征存儲中存儲的語音特征進行語音分離,分離出純凈的特識別語音,進行語音識別,最后輸出識別結(jié)果.系統(tǒng)框圖見圖3.
評論