基于片上系統(tǒng)SoC的孤立詞語音識(shí)別算法設(shè)計(jì)
1. 引言
本文引用地址:http://2s4d.com/article/190560.htm目前,嵌入式語音識(shí)別系統(tǒng)的實(shí)現(xiàn)主要通過單片機(jī)MCU和數(shù)字信號(hào)處理器DSP來實(shí)現(xiàn)[1]。但是單片機(jī)運(yùn)算速度慢,處理能力不高;雖然DSP處理速度很快,但是產(chǎn)品的成本很高,電源能量消耗也很大。因此,為了滿足嵌入式交互系統(tǒng)的體積越來越小、功能越來越強(qiáng)的苛刻需求,語音識(shí)別片上系統(tǒng)SoC(System on Chip)應(yīng)運(yùn)而生。
語音識(shí)別片上系統(tǒng)SoC本身就是一塊芯片,在單一芯片上集成了模擬語音模數(shù)轉(zhuǎn)換器ADC、數(shù)模轉(zhuǎn)換器DAC、信號(hào)采集和轉(zhuǎn)換、處理器、存儲(chǔ)器和I/O接口等,只要加上極少的電源就可以具有語音識(shí)別的功能,集成了聲音信息的采集、取樣、處理、分析和記憶。SoC具有片內(nèi)處理器和片內(nèi)總線,有著更靈活的應(yīng)用方式。它具有速度快,體積小,成本低,可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn),有著廣泛的應(yīng)用前景,已經(jīng)成為語音識(shí)別技術(shù)應(yīng)用發(fā)展的一個(gè)重要方向[2-3]。研究和開發(fā)應(yīng)用于片上系統(tǒng)SoC芯片的語音識(shí)別算法有著非常重要的意義。
2. 孤立詞語音識(shí)別系統(tǒng)
孤立詞語音識(shí)別系統(tǒng)應(yīng)用于嵌入式控制領(lǐng)域,例如數(shù)字家庭控制、車載語音控制和智能語音可控玩具等。在訓(xùn)練階段,用戶將每一個(gè)詞依次說一遍,并將計(jì)算得到的每一個(gè)詞所對(duì)應(yīng)的特征矢量序列作為模板存入模板庫中。在識(shí)別階段,將輸入語音的特征矢量序列依次與模板庫中的每一模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。
3. 針對(duì)片上系統(tǒng)SOC的孤立詞語音識(shí)別算法設(shè)計(jì)
在SoC芯片中實(shí)現(xiàn)孤立詞語音識(shí)別系統(tǒng),就要根據(jù)語音識(shí)別片上系統(tǒng)的特點(diǎn),來進(jìn)行SoC的語音識(shí)別算法的選擇和設(shè)計(jì)。
首先是特征提取算法的選擇。MFCC算法考慮到了人的聽覺效果,能很好的表征語音信號(hào),而且在噪聲環(huán)境下能取得很好的識(shí)別效果。而LPC系數(shù)主要是模擬人的發(fā)聲模型,對(duì)元音有較好的的描述能力,對(duì)輔音描述能力較差,抗噪聲性能也相對(duì)差一些。但是從算法的計(jì)算量來考慮,MFCC提取特征參數(shù)是LPCC 的10倍左右,通常在嵌入式系統(tǒng)下較難實(shí)現(xiàn)實(shí)時(shí)性。因此,選用LPCC算法。
模式匹配技術(shù)的選擇。隱馬爾柯夫模型HMM方法是用概率及統(tǒng)計(jì)學(xué)理論來對(duì)語音信號(hào)進(jìn)行分析與處理的,適用于大詞匯量、非特定人的語音識(shí)別系統(tǒng)。該算法對(duì)系統(tǒng)資源的要求較多。而動(dòng)態(tài)時(shí)間規(guī)整技術(shù)DTW采用模板匹配法進(jìn)行相似度計(jì)算,是一個(gè)最為小巧的語音識(shí)別算法,系統(tǒng)開銷小,識(shí)別速度快,可有效節(jié)約系統(tǒng)資源,降低系統(tǒng)成本開支。由于嵌入式系統(tǒng)資源有限,語音命令識(shí)別系統(tǒng)所需要的詞匯量有限,所需識(shí)別的語音都是簡(jiǎn)短的命令,模式匹配算法選擇DTW。
3.1 端點(diǎn)檢測(cè)算法設(shè)計(jì)
一個(gè)好的端點(diǎn)檢測(cè)算法可以在一定程度上提高系統(tǒng)的識(shí)別率。在雙門限端點(diǎn)檢測(cè)原理的基礎(chǔ)上,進(jìn)行語音端點(diǎn)檢測(cè)算法的設(shè)計(jì)。為了提高端點(diǎn)檢測(cè)的精度,采用短時(shí)能量E和短時(shí)過零率ZCR。
語音采樣頻率為8KHz,量化精度為16位,數(shù)字PCM碼首先經(jīng)過預(yù)加重濾波器H(z)=2-0.95z-1,再進(jìn)行分幀和加窗處理,每幀30ms,240點(diǎn)為一幀,幀移為80,窗函數(shù)采用Hamming窗。然后對(duì)每幀語音進(jìn)行歸一化處理,即把每點(diǎn)的值都除以所有語音幀中數(shù)值絕對(duì)值的最大值,把值的范圍從[-32767,32767]轉(zhuǎn)換到[-1,1]。
在實(shí)驗(yàn)中發(fā)現(xiàn),雙門限端點(diǎn)檢測(cè)算法對(duì)于兩個(gè)漢字和三個(gè)漢字的語音命令端點(diǎn)檢測(cè)效果不好。以語音“開燈”為例,如圖1所示語音波形圖中,端點(diǎn)檢測(cè)只能檢測(cè)到第一個(gè)字。
圖1 改進(jìn)前對(duì)語音“開燈”的端點(diǎn)檢測(cè)
Fig2. the endpointing detection of speech “kaideng” before ameliorate
如果語音命令中兩個(gè)字的間隔過長(zhǎng),使用雙門限端點(diǎn)檢測(cè)方法會(huì)發(fā)生只檢測(cè)到第一個(gè)字的情況,在實(shí)際中“開燈”和“開門”等命令只提取了“開”字的語音,從而可能造成語音匹配的錯(cuò)誤。
為避免該錯(cuò)誤,采用的辦法是,把可容忍的靜音區(qū)間擴(kuò)大到15幀 (約150ms)。在雙門限的后一門限往后推遲15幀,如15幀內(nèi)一直沒有energy和ZCR超過最低門限,則認(rèn)為語音結(jié)束;如發(fā)現(xiàn)仍然有語音,則繼續(xù)算入在內(nèi)。
圖2 改進(jìn)后對(duì)語音“開燈”的端點(diǎn)檢測(cè)
Fig3. the endpointing detection of speech “kaideng” after ameliorate
改進(jìn)后,整個(gè)語音信號(hào)的端點(diǎn)檢測(cè)流程設(shè)計(jì)為四個(gè)階段:靜音、過渡段、語音段和語音結(jié)束。在靜音段,如果能量或過零率超越了低門限,就應(yīng)該開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果在過渡段中兩個(gè)參數(shù)中的任一個(gè)超過了高門限,就可以確信進(jìn)入語音段。在語音段,如果兩個(gè)參數(shù)的數(shù)值降低到低門限以下,并且一直持續(xù)15幀,那么語音進(jìn)入停止。如果兩個(gè)參數(shù)的數(shù)值降低到低門限以下,但是并沒有持續(xù)到 15幀,后續(xù)又有語音段越過低門限,那么認(rèn)為語音還沒有結(jié)束。最后,如果檢測(cè)出的這段語音總長(zhǎng)度小于可接受的最小的語音幀數(shù)(設(shè)為15幀),則認(rèn)為是一段噪音而放棄。
采用改進(jìn)后的端點(diǎn)檢測(cè)算法,對(duì)于單個(gè)漢字或多個(gè)漢字的語音命令均識(shí)別常。圖2為語音“開燈”的端點(diǎn)檢測(cè)圖(兩條紅線以內(nèi)的部分為檢測(cè)出來的語音部分)。
評(píng)論