一種用于抗噪語音識別的動態(tài)參數(shù)補償新方法
對于Log-Normal PMC(見圖1-II),純凈語音模型同噪聲模型的合并是在線性譜域進行。那么純凈語音和噪聲模型的參數(shù)先要從倒譜域變換到對數(shù)譜域,然后再映射到線性譜域。在線性譜域進行模型的合并,然后進行相反的操作把模型參數(shù)映射變換回倒譜域。另一方面,Log―Add PMC(見圖1一I)模型的補償是在對數(shù)譜域進行。
通常的噪聲信號有兩類:卷積噪聲(信道的頻率響應)和加性噪聲。在本文中僅考慮加性噪聲情況。在文章中采用以下假設:1)噪聲是平穩(wěn)加性噪聲,噪聲和語音信號是相互統(tǒng)計獨立的;2)每個子帶的對數(shù)頻譜域的特征(功率譜)分布被認為是(混合)高斯分布,Mel線性譜域的特征分布被認為是(混合)對數(shù)一正態(tài)分布。那么在Mel線性譜域第k個子帶帶噪語音特征Yk為:
其中Xk和Nk分別是線性頻譜域的純凈語音和噪聲子帶特征(“觀測”)。g是調(diào)節(jié)噪聲和語音的縮放比例因子,為了表達簡單起見,在后面的算法公式中省略此縮放比例因子g。那么對數(shù)頻譜域子帶的帶噪語音特征Ykl同純凈語音特征Xkl和噪聲特征Nkl的失配函數(shù)為:
2.1 靜態(tài)特征補償
對于Log-Normal PMC靜態(tài)模型特征補償的核心算法是對數(shù)譜域與線性譜域之間的非線性映射同線性譜域模型的合并,即:
其中k、l分別為第k、l個子帶。
對于Log―Add PMC靜態(tài)模型特征補償?shù)闹粚颠M行補償:
2.2 動態(tài)特征補償
由于推導出嚴格的Log―Normal PMC動態(tài)特征補償算法非常困難,目前對Log―Normal PMC的動態(tài)特征補償一般采用粗略的補償方法,只對其均值進行補償。
對于Log-Add PMC其動態(tài)特征補償算法為:
3 新的動態(tài)模型參數(shù)補償方法
在本文中,使用靜態(tài)“觀測”的時間導數(shù)作為動態(tài)的“觀測”。這樣,動態(tài)特征的失配函數(shù)就應等于靜態(tài)特征的失配函數(shù)的一階導函數(shù)。根據(jù)(2),動態(tài)特征失配函數(shù)為:
定義一個附加的隨機變量Zkl,定義為Zkl=Nkl一Xkl。由于Nkl和Xkl均為正態(tài)分布,并且他們之間相互獨立,那么隨機變量Zkl也是一個正態(tài)分布。其的均值和方差分別可以表示為μZkl=μNkl-μXkl和那么動態(tài)失配函數(shù)(9)就可以進一步改寫成含Zkl的函數(shù)。
由于假設背景噪聲為平穩(wěn)加性噪聲,那么噪聲動態(tài)特征的均值就可以被近似為零。本文還假設附加的隨機變量同語音和噪聲的動態(tài)特征不相關。這個假設也是DPCM的核心本質(zhì)假設。由于靜態(tài)特征與其微分變換量之間是松相關的,所以這個假設是比較合理的。
3.1 均值補償
依據(jù)失配函數(shù)(10)和上述假設,對數(shù)譜域的帶噪語音特征的統(tǒng)計均值為:
其中
參數(shù)ti和ωi(i=l~n)是Hermite多項式Hn(t)的橫坐標和對應的權值。
評論