嵌入式實時音樂語音識別系統(tǒng)的實現(xiàn)
2.2端點檢測
端點檢測是語音識別中的的一個關鍵,也是一個難點,端點檢測的好壞直接影響后面的語音特征參數(shù)提取,影響語音識別的效果。其目的就是從帶有噪聲的語音中檢測出說話人的語音命令, 找出語音段開始和結(jié)束的時點。本系統(tǒng)使用語音信號的能量曲線結(jié)合過零率來進行端點檢測[5],整個過程如圖3所示。由于人聲的樂音信號范圍在50-1000HZ,首先對原語音信號進行不同頻段的信號濾波,得到六個頻段濾波后的能量曲線, E(1)為50-1000HZ段的語音信號,E(2)100-1000HZ段的語音信號,E(3)200-1000HZ段的語音信號 ,E(4)400-1000HZ段的語音信號,E(5)600-1000HZ段的語音信號,E(5)800-1000HZ段的語音信號。能量分割是依據(jù)峰谷點檢測來進行的,利用能量曲線峰谷點地變化,把能量曲線中的語音段分割出來,且把語音段的起點和終點作為我們要求得端點。但是由于語音信號變化情況復雜,尤其是語音連讀緊密的情況下,基于能量曲線的語音分割方法可能分割不開,所以,本系統(tǒng)采用了改進的能量曲線分割算法,通過對語音信號能像曲線分析,我們發(fā)現(xiàn),不同頻段的能量曲線反映的特征不同,對語音信號進行不同頻段的濾波最后得到的能量曲線放映的語音端點信息也不同,有些語音信號在高頻段的能量曲線中能很好的分割開,所以,對語音信號進行六個頻段的濾波得出的基于能量曲線分割的改進算法,在判決依據(jù)中,賦予E(1)的權(quán)值為1,而E(2)、E(3)、E(4)、E(5)、E(6)要求兩個以上相同才被視為端點?;谒心芰壳€的分割點都要看過零率的門限是否滿足要求,改進算法的用意是在盡可能準確的情況下盡量分割開語言信號, 盡量保證不錯分, 盡量提高分割的準確度,避免誤分。
圖3 端點檢測流程圖
2.3語音特征參數(shù)提取
語音識別參數(shù)的提取較多,由于噪聲的的存在,考慮音樂語音識別系統(tǒng)的對識別的精度要求較高,本系統(tǒng)采用了經(jīng)典的美爾頻標倒譜參數(shù)MFCC[4],MFCC參數(shù)建立在 Fourier 頻譜分析的基礎上,它的核心思想是利用人耳的感知特性,在語音的頻譜范圍內(nèi)設置若干個帶通濾波器,每個濾波器具備三角或者正弦的形濾波特性,計算相應濾波器組的信號能量,再通過 DCT 計算對應的倒譜系數(shù),
圖4 MFCC參數(shù)求取過程
2.4語音信號的訓練與識別
音樂語音識別系統(tǒng)是一個專業(yè)性很強的詞匯量較小的語音識別系統(tǒng),由于識別的速度要求較快,樂音中的詞匯量較少,通常情況下人聲能唱到的樂音的范圍只有幾十個(一般在4個八度以內(nèi))。本系統(tǒng)采用采用了計算相對簡單而有效的DTW算法來進行語音識別。該算法基于動態(tài)規(guī)劃的思想,將語音信號的每一幀信號的特征參數(shù)提取出來,就轉(zhuǎn)化成了一組特征向量。語音識別就是要將這個特征向量同模板庫中已存的語音特征向量(參考模板)進行模板匹配,尋找距離最短的模板。語音識別需要語音模板庫的建立,也就是語音模型的訓練。參照音樂語音音高頻率對照表,我們只對人聲范圍(60HZ-1000HZ即樂音中音名從C- )共四個八度32個音高進行訓練,針對每首曲子中音高的范圍都是在一定范圍以內(nèi)的,所以往往我們訓練訓練的樣本更少,較小的詞匯量使樂音識別的速度得到大大提高。
3實驗結(jié)果與分析
我們對系統(tǒng)的識別性能進行了測試。由6個測試者(3男3女音樂專業(yè)人士)在安靜室內(nèi)環(huán)境下,選擇方向性較好的麥克風,進行測試實驗。由于男生和女生一般能發(fā)音的音高不一樣,一般男生比女生偏低,首先讓6位測試者對照音名表把他(她)能發(fā)的音的全部錄音、訓練,再隨機選擇幾首曲子進行測試,實驗結(jié)果表明, 在對特定人的樂音識別中,由于女生發(fā)音口齒比較清晰,男生比較發(fā)音渾厚,男生的正確識別率在95%以上,女生的正確識別率在97%以上,平均正確識別率在96%以上,滿足實用化要求。
4結(jié) 論
本文介紹了一種基于DSP的嵌入式音樂語音識別系統(tǒng)的軟硬件系統(tǒng)。在傳統(tǒng)的語音識別方法上結(jié)合音樂語音的特點作了一些改進,敘述了音樂語音識別系統(tǒng)硬件結(jié)構(gòu)、軟件流程,采用了一種基于多頻段能量曲線分割結(jié)合過零率來檢測端點的新方法,簡化了運算量,進一步提高了識別性能,把語音識別技術很好的用在電子音樂方面,實現(xiàn)了嵌入式實時音樂語音識別,實驗結(jié)果表明,本系統(tǒng)精度高,基本能滿足實用化需求。
本文作者創(chuàng)新點:
(1)把語音識別方法應用于電子音樂方面,設計并實現(xiàn)專業(yè)的音樂語音識別軟硬件系統(tǒng),巧妙采用了濾波、消除毛刺等預處理方法,訓練了專業(yè)的音樂語音樣本,提高語音識別精度。
(2)建立了一種基于多頻段能量曲線分割結(jié)合過零率來檢測端點的新方法,在保證不錯分的情況下,提高了語音分割的正確率,同時結(jié)合過零率的門限,提高了端點檢測的精度。
評論