新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 孤立詞語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)

孤立詞語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)

作者: 時(shí)間:2016-12-20 來源:網(wǎng)絡(luò) 收藏

引 言

  在孤立詞語(yǔ)音識(shí)別中,最為簡(jiǎn)單有效的方法是采用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法,該算法解決了發(fā)音長(zhǎng)短不一的模板匹配問題,是語(yǔ)音識(shí)別中出現(xiàn)最早、較為經(jīng)典的一種算法。用于孤立詞識(shí)別,該算法較現(xiàn)在比較流行的HMM算法在相同的環(huán)境條件下,識(shí)別效果相差不大,但HMM算法要復(fù)雜的多,這主要體現(xiàn)在HMM算法在訓(xùn)練階段需要提供大量的語(yǔ)音數(shù)據(jù),通過反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語(yǔ)音識(shí)別中,DTW算法仍得到廣泛的應(yīng)用。本系統(tǒng)就采用了該算法。

  系統(tǒng)概述

  語(yǔ)音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案如圖1所示。輸入的模擬語(yǔ)音信號(hào)首先要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、斷點(diǎn)檢測(cè)、預(yù)加重等。語(yǔ)音信號(hào)經(jīng)過預(yù)處理后,接下來重要的一環(huán)就是特征參數(shù)提取,其目的是從語(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。然后建立聲學(xué)模型,在識(shí)別的時(shí)候?qū)⑤斎氲恼Z(yǔ)音特征同聲學(xué)模型進(jìn)行比較,得到最佳的識(shí)別結(jié)果。

  硬件構(gòu)成

  系統(tǒng)構(gòu)成

  這里采用DSP芯片為核心(圖2),系統(tǒng)包括直接雙訪問快速SRAM、一路AlDC/一路DAC及相應(yīng)的模擬信號(hào)放大器和抗混疊濾波器。外部只需擴(kuò)展FLASH存儲(chǔ)器、電源模塊等少量電路即可構(gòu)成完整系統(tǒng)應(yīng)用。

  系統(tǒng)主要功能模塊構(gòu)成

  語(yǔ)音處理模塊采用TI TMS320VC5402,其主要特點(diǎn)包括:采用改進(jìn)的哈佛結(jié)構(gòu),一條程序總線(PB),三條數(shù)據(jù)總線(CB,DB,EB)和四條地址總線(PAB,CAB,DAB,EAB),帶有專用硬件邏輯CPU(40位算術(shù)邏輯單元(ALU),包括1個(gè)40位桶形移位器和二個(gè)40位累加器;一個(gè)17×17乘法器和一個(gè)40位專用加法器,允許16位帶或不帶符號(hào)的乘法),片內(nèi)存儲(chǔ)器(八個(gè)輔助寄存器及一個(gè)軟件棧),片內(nèi)外專用的指令集,允許使用業(yè)界最先進(jìn)的定點(diǎn)DSP C語(yǔ)言編譯器。TMS320VC5402含4 KB的片內(nèi)ROM和16 KB的雙存取RAM,一個(gè)HPI(HostPortInterface)接口,二個(gè)多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執(zhí)行時(shí)間10 ns,帶有符合IEEE1149.1標(biāo)準(zhǔn)的JTAG邊界掃描仿真邏輯。

  語(yǔ)音輸入、輸出的模擬前端采用TI公司的TLC320AD50C,它是一款集成ADC和DAC于一體的模擬接口電路,并且與DSP接口簡(jiǎn)單,性能高、功耗低,已成為當(dāng)前語(yǔ)音處理的主流產(chǎn)品。16位數(shù)據(jù)結(jié)構(gòu),音頻采樣頻率為2~22.05 kHz,內(nèi)含抗混疊濾波器和重構(gòu)濾波器的模擬接口芯片,還有一個(gè)能與許多DSP芯片相連的同步串行通信接口。

  片內(nèi)還包括一個(gè)定時(shí)器(調(diào)整采樣率和幀同步延時(shí))和控制器(調(diào)整編程放大增益、鎖相環(huán)PLL、主從模式)。TLCC320AD50C與TMS320VC5402的硬件連接,如圖3所示。

  語(yǔ)音識(shí)別算法實(shí)現(xiàn)

  語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)

  語(yǔ)音的端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別中最基本的模塊,在嵌入式語(yǔ)音識(shí)別系統(tǒng)中更是占有非常重要的地位:一方面端點(diǎn)檢測(cè)的結(jié)果不準(zhǔn)確,系統(tǒng)的識(shí)別性能就得不到保證;另一方面如果端點(diǎn)檢測(cè)的結(jié)果過于放松,雖然語(yǔ)音部分被很好地包含在處理的信號(hào)中,但是增加過多的靜音則會(huì)增加系統(tǒng)的運(yùn)算量,同時(shí)對(duì)識(shí)別性能也有負(fù)面影響。因此為能量和過零率兩個(gè)參數(shù)分別設(shè)定兩個(gè)門限,一個(gè)是比較低的門限,數(shù)值比較小,對(duì)信號(hào)的變化比較敏感,很容易就被超過。另一個(gè)是比較高的門限,數(shù)值比較大,信號(hào)必須達(dá)到一定的強(qiáng)度,該門限才可能被超過:低門限被超過未必就是語(yǔ)音的開始,有可能是時(shí)間很短的噪聲引起的。高門限被超過,則基本確信是由于語(yǔ)音信號(hào)引起的。


上一頁(yè) 1 2 下一頁(yè)

評(píng)論


技術(shù)專區(qū)

關(guān)閉