DSP嵌入式說話人識別系統(tǒng)的設計與實現(xiàn)
0 引 言
說話人身份識別屬于生物認證技術的一種,是一項根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)來自動識別說話人身份的技術。近年來,說話人身份識別以其獨特的方便性、經(jīng)濟性和準確性等優(yōu)勢受到矚目,在信息安全等領域的應用逐漸增大,并成為人們日常生活和工作中重要且普及的安全驗證方式。目前,說話人身份識別在理論上和實驗室條件下已經(jīng)達到了比較高的識別精度,并開始走向實際應用階段。ATT、歐洲電信聯(lián)盟、ITT、Keyware、T-NETIX,Motorola和Vi-sa等公司相繼開展了相關實用化研究,國內這方面研究主要在中科聲學所,中科院自動化所,清華大學等研究所和大學中進行。
基于嵌入式的說話人身份識別系統(tǒng)具有高精度,適時性好,低功耗,低費用,體積小等優(yōu)勢,逐漸成為說話人身份識別面向實際應用的新熱點。而隨著DSP新技術的發(fā)展,DSP芯片無論在處理速度、精度、功耗或者體積等方面都取得了突破性的進展。DSP也越來越多的應用于說話人身份識別。但目前這方面研究主要局限于小數(shù)據(jù)量、與PC機配套使用上,沒有太大的實用價值。在此介紹一種基于TMS320C6713 DSP芯片設計的嵌入式,10個人范圍的說話人身份識別系統(tǒng)。該系統(tǒng)可以自舉運行,并可靈活的選擇訓練、識別或者更換訓練者、識別者,識別率達98%以上。
1 系統(tǒng)的架構及硬件構成
系統(tǒng)總體實現(xiàn)流程如圖1所示。系統(tǒng)主要分為訓練和識別兩部分,系統(tǒng)初始化后由操作者控制訓練或識別。訓練目的是提取說話人模型參數(shù)并將其存儲在FLASH ROM中。識別目的是讀取待識別者語音信息并將獲得的模型參數(shù)與訓練的模型參數(shù)比較,從而獲得識別結果。
1.1 系統(tǒng)的主要硬件構成
系統(tǒng)硬件構成如圖2所示,主要包含語音采集模塊、數(shù)據(jù)處理模塊(DSP)、程序數(shù)據(jù)存儲及自舉FLASH模塊、數(shù)據(jù)存儲器RAM模塊、系統(tǒng)時序邏輯控制CPLD模塊、JTAG接口模塊。
語音采集模塊主要由TLV320AIC23音頻編解碼器來完成,該芯片是TI公司的一款高性能的立體聲音頻Codec芯片,內置放大器,輸入/輸出增益可編程設置。模數(shù),數(shù)/模轉換集成在一塊芯片中。采樣率8~96 kHz可編程實現(xiàn)。另外還具有低功耗,連接電路簡單,性價比高的特點。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)
評論