新聞中心

EEPW首頁 > 模擬技術(shù) > 設(shè)計(jì)應(yīng)用 > 一種用于抗噪語音識別的動態(tài)參數(shù)補(bǔ)償新方法

一種用于抗噪語音識別的動態(tài)參數(shù)補(bǔ)償新方法

作者: 時間:2009-05-04 來源:網(wǎng)絡(luò) 收藏

對于Log-Normal PMC(見圖1-II),純凈語音模型同噪聲模型的合并是在線性譜域進(jìn)行。那么純凈語音和噪聲模型的參數(shù)先要從倒譜域變換到對數(shù)譜域,然后再映射到線性譜域。在線性譜域進(jìn)行模型的合并,然后進(jìn)行相反的操作把模型參數(shù)映射變換回倒譜域。另一方面,Log―Add PMC(見圖1一I)模型的是在對數(shù)譜域進(jìn)行。
通常的噪聲信號有兩類:卷積噪聲(信道的頻率響應(yīng))和加性噪聲。在本文中僅考慮加性噪聲情況。在文章中采用以下假設(shè):1)噪聲是平穩(wěn)加性噪聲,噪聲和語音信號是相互統(tǒng)計(jì)獨(dú)立的;2)每個子帶的對數(shù)頻譜域的特征(功率譜)分布被認(rèn)為是(混合)高斯分布,Mel線性譜域的特征分布被認(rèn)為是(混合)對數(shù)一正態(tài)分布。那么在Mel線性譜域第k個子帶帶噪語音特征Yk為:


其中Xk和Nk分別是線性頻譜域的純凈語音和噪聲子帶特征(“觀測”)。g是調(diào)節(jié)噪聲和語音的縮放比例因子,為了表達(dá)簡單起見,在后面的算法公式中省略此縮放比例因子g。那么對數(shù)頻譜域子帶的帶噪語音特征Ykl同純凈語音特征Xkl和噪聲特征Nkl的失配函數(shù)為:


2.1 靜態(tài)特征
對于Log-Normal PMC靜態(tài)模型特征的核心算法是對數(shù)譜域與線性譜域之間的非線性映射同線性譜域模型的合并,即:


其中k、l分別為第k、l個子帶。
對于Log―Add PMC靜態(tài)模型特征補(bǔ)償?shù)闹粚颠M(jìn)行補(bǔ)償:


2.2 動態(tài)特征補(bǔ)償
由于推導(dǎo)出嚴(yán)格的Log―Normal PMC動態(tài)特征補(bǔ)償算法非常困難,目前對Log―Normal PMC的動態(tài)特征補(bǔ)償一般采用粗略的補(bǔ)償,只對其均值進(jìn)行補(bǔ)償。


對于Log-Add PMC其動態(tài)特征補(bǔ)償算法為:


3 新的動態(tài)模型參數(shù)補(bǔ)償

在本文中,使用靜態(tài)“觀測”的時間導(dǎo)數(shù)作為動態(tài)的“觀測”。這樣,動態(tài)特征的失配函數(shù)就應(yīng)等于靜態(tài)特征的失配函數(shù)的一階導(dǎo)函數(shù)。根據(jù)(2),動態(tài)特征失配函數(shù)為:


定義一個附加的隨機(jī)變量Zkl,定義為Zkl=Nkl一Xkl。由于Nkl和Xkl均為正態(tài)分布,并且他們之間相互獨(dú)立,那么隨機(jī)變量Zkl也是一個正態(tài)分布。其的均值和方差分別可以表示為μZkl=μN(yùn)kl-μXkl和那么動態(tài)失配函數(shù)(9)就可以進(jìn)一步改寫成含Zkl的函數(shù)。


由于假設(shè)背景噪聲為平穩(wěn)加性噪聲,那么噪聲動態(tài)特征的均值就可以被近似為零。本文還假設(shè)附加的隨機(jī)變量同語音和噪聲的動態(tài)特征不相關(guān)。這個假設(shè)也是DPCM的核心本質(zhì)假設(shè)。由于靜態(tài)特征與其微分變換量之間是松相關(guān)的,所以這個假設(shè)是比較合理的。
3.1 均值補(bǔ)償
依據(jù)失配函數(shù)(10)和上述假設(shè),對數(shù)譜域的帶噪語音特征的統(tǒng)計(jì)均值為:


其中


參數(shù)ti和ωi(i=l~n)是Hermite多項(xiàng)式Hn(t)的橫坐標(biāo)和對應(yīng)的權(quán)值。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉