新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 基于ARM的非特定人語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)方案

基于ARM的非特定人語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)方案

作者: 時(shí)間:2014-01-08 來(lái)源:網(wǎng)絡(luò) 收藏

  0 引言

  語(yǔ)音交互是人類交流和交換信息中最便捷的手段和最重要的媒體,長(zhǎng)久以來(lái),人們都希望找尋一種新的途徑解決人類與機(jī)器的交互方式,希望機(jī)器設(shè)備能夠“聽(tīng)”懂人類的語(yǔ)音信息進(jìn)行交互,識(shí)別其含義并響應(yīng)、從而做出相應(yīng)動(dòng)作,這樣的交互方式更能被使用者接受,取代原有的鍵盤、按鈕、開(kāi)關(guān)等傳統(tǒng)交互方式,基于的語(yǔ)音識(shí)別技術(shù)已然成為人機(jī)交互新方式的一個(gè)重要發(fā)展方向和研究熱點(diǎn)。

  語(yǔ)音信號(hào)的識(shí)別涉及眾多學(xué)科知識(shí)體系,與計(jì)算機(jī)、語(yǔ)言學(xué)、通信、數(shù)理統(tǒng)計(jì)、信號(hào)處理和人工智能等學(xué)科都有著密切的關(guān)系,由于語(yǔ)音信號(hào)具有信息量大、不確定性、動(dòng)態(tài)性和連續(xù)性的特點(diǎn),在語(yǔ)音信號(hào)的預(yù)處理、特征提取等階段處理數(shù)據(jù)量非常大,對(duì)軟件的處理算法和硬件的處理能力都有較高的要求,傳統(tǒng)使用PC機(jī)或者工控機(jī)等高處理性能的平臺(tái)實(shí)現(xiàn)語(yǔ)音信號(hào)識(shí)別,但硬軟件開(kāi)發(fā)造價(jià)無(wú)疑是阻礙普及的重要因素,本系統(tǒng)采用 Cortex M3 內(nèi)核ST 公司的32 位高性能單片機(jī)STM32F103C8T6結(jié)合LD3320語(yǔ)音識(shí)別芯片,通過(guò)構(gòu)建SD卡文件系統(tǒng)實(shí)現(xiàn)語(yǔ)音識(shí)別關(guān)鍵詞動(dòng)態(tài)編輯功能,適用于嵌入式語(yǔ)音識(shí)別場(chǎng)合。系統(tǒng)電路簡(jiǎn)單,性價(jià)比高,識(shí)別距離和識(shí)別精度都可以滿足嵌入式應(yīng)用。

  1 語(yǔ)音識(shí)別技術(shù)原理

  非特定人語(yǔ)音識(shí)別技術(shù)研究的最終目的是讓計(jì)算機(jī)等設(shè)備能夠“聽(tīng)懂”人類語(yǔ)音,提取出語(yǔ)音中所包含的特定信息,成為人機(jī)通信和交互最便捷的手段。由于語(yǔ)音信號(hào)本身具有不確定性、動(dòng)態(tài)性和連續(xù)性,這就為準(zhǔn)確量化和處理該信號(hào)帶來(lái)非常大的困難,每個(gè)人的語(yǔ)音要建立不同的語(yǔ)音樣本也為識(shí)別的普及帶來(lái)瓶頸約束。目前的語(yǔ)音識(shí)別是先建立特征庫(kù)然后將待識(shí)別的信號(hào)經(jīng)處理與特征庫(kù)比對(duì)得到相似結(jié)果判定輸出。從本質(zhì)上屬于基于統(tǒng)計(jì)模式的基本理論,分語(yǔ)言模型訓(xùn)練、識(shí)別分析兩個(gè)大階段構(gòu)成和實(shí)現(xiàn),如圖1所示。

  

  聲學(xué)訓(xùn)練階段通常是離線完成的,由語(yǔ)言學(xué)家對(duì)預(yù)先收集好的海量語(yǔ)音樣本、語(yǔ)言數(shù)據(jù)庫(kù)、噪聲數(shù)據(jù)進(jìn)行信號(hào)處理和知識(shí)挖掘,通過(guò)語(yǔ)音信號(hào)處理理論及相應(yīng)數(shù)學(xué)算法模型建立所需要的“聲學(xué)模型”和“語(yǔ)言模型”.

  識(shí)別分析階段通常是在線完成的,對(duì)用戶實(shí)時(shí)的語(yǔ)音進(jìn)行自動(dòng)識(shí)別。識(shí)別過(guò)程通常又可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進(jìn)行端點(diǎn)檢測(cè)、降噪、特征提取等;“后端”模塊的作用是利用訓(xùn)練好的“聲學(xué)模型”和“語(yǔ)言模型”對(duì)用戶說(shuō)話的特征向量進(jìn)行統(tǒng)計(jì)模式識(shí)別,得到其包含的文字信息,此外,后端模塊還存在一個(gè)“自適應(yīng)”的反饋模塊,可以對(duì)用戶的語(yǔ)音進(jìn)行自學(xué)習(xí),從而對(duì)“聲學(xué)模型”和“語(yǔ)音模型”進(jìn)行必要的“校正”,進(jìn)一步提高識(shí)別的準(zhǔn)確率。

  2 系統(tǒng)設(shè)計(jì)的整體結(jié)構(gòu)

  本系統(tǒng)以STM32F103C8T6 微控制器為控制核心,搭配微控制器最小核心電路、LD3320語(yǔ)音識(shí)別電路、SD卡電路、電源電路、用戶按鍵輸入電路、串口數(shù)據(jù)輸出電路、狀態(tài)指示電路等綜合組成。該系統(tǒng)體積小巧,可以作為嵌入式組件單元融入用戶電路或者板卡中,上電后STM32F108C8T6內(nèi)部程序進(jìn)行程序初始化、SD 卡文件系統(tǒng)初始化、LD3320初始化、隨后等待識(shí)別音頻接收,識(shí)別完成后輸出響應(yīng)信息或者解碼音頻,系統(tǒng)整體結(jié)構(gòu)如圖2所示,最終實(shí)現(xiàn)積木式功能組件的全部功能。

  

  3 系統(tǒng)硬件電路設(shè)計(jì)

  3.1 微控制核心方案選型及電路

  系統(tǒng)采用 Cortex M3內(nèi)核ST公司的32位高性能單片機(jī)STM32F103C8T6 為控制核心,該芯片可以達(dá)到72 MHz的工作頻率,內(nèi)置高速存儲(chǔ)器(64 KB的閃存和20 KB的SRAM),擁有豐富的I/O口資源和鏈接到兩條APB 總線的外設(shè)。包括了12 b 的ADC、通用16 b 的定時(shí)器、還包括I2C、SPI、USART、USB、CAN等總線或串行通信接口,片內(nèi)資源和擴(kuò)展接口都十分豐富,該微控制核心是專門設(shè)計(jì)于滿足高穩(wěn)定性、低功耗、實(shí)時(shí)性、高性價(jià)比的嵌入式產(chǎn)品應(yīng)用。該內(nèi)核芯片可以滿足非特定人語(yǔ)音識(shí)別的功能要求,利用相關(guān)電路構(gòu)成STM32F103C8T6 的最小系統(tǒng),在硬件PCB 中還集成了功能引針輸出接口、SD卡接口、USB下載調(diào)試電路,用戶按鍵、電源電路等,核心系統(tǒng)電路圖如圖3所示,配合其他外圍擴(kuò)展達(dá)到功能要求。


上一頁(yè) 1 2 3 下一頁(yè)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉