利用MEMS麥克風陣列定位并識別音頻或語音信源的技
1.前言
本文引用地址:http://2s4d.com/article/201609/303815.htm自動語音識別、語音模式識別和說話人識別及確認等應用對噪聲十分敏感,信源定位識別是音頻和語音信號捕捉處理應用的一個關鍵的預處理功能。特別是基于微機電系統(MEMS) 的麥克風陣列出現后,麥克風陣列音頻定位方案引起科研企業(yè)和開發(fā)人員的廣泛關注。
目前業(yè)界正在使用MEMS麥克風陣列子系統開發(fā)嵌入式音頻定位、自動語音識別和自動說話人識別解決方案,聲音識別定位是我們識別確認他人身份的基本功能,當我們聽到有人講話時,會將頭轉向說話人,查看說話人。
音源定位是自動語音識別和自動說話人識別系統的一個重要環(huán)節(jié),對于提高語音識別系統的性能至關重要。麥克風陣列可捕捉從不同方向傳來的聲音,通過算法運算使麥克風指向某一個特定方向,放大從該方向捕捉到的音頻信號,同時衰減從其它方向捕捉的音頻信號,整個動作就像一個智能麥克風。
圖 1.綜合利用麥克風音源互相關性(CC)、相變(PHAT)和最大相似性處理(ML)技術的音源定位
2.系統框架
整個系統由以下幾個子系統組成:音源方向測定、數據融合、自動語音識別和自動說話人確認。其中,音頻方向測定子系統基于麥克風陣列,運行三個不同的音頻方向估算算法;數據融合子系統負責推斷方向,自動語音識別子系統利用傳入的音頻信號增強主音源信號強度,衰減主音源周圍的其它音頻信號。最后,自動說話人確認子系統識別某些關鍵詞匯,再利用相關特征與說話人匹配。
圖 2. 系統框架
如果語音識別任務沒有成功,則反饋給數據融合系統,估算新方向傳入的語音,然后驅動麥克風陣列指向該方向。
2.1 語音識別和說話人識別
語音特征提取(27 LPC-倒普系數)需要確定語音的端點,將語音分成數個短禎(每禎20 ms),通過一個DTW模式對準算法與一組參考語音(模板)匹配。然后,應用歐氏距離測量法進行相似性評估。
圖 3. 特征提取、模式匹配和評分是說話人語音識別確認任務的主要環(huán)節(jié)
說話人身份評分采用的是動態(tài)時間規(guī)整近鄰(DTW-KNN)算法的距離測量方法,即動態(tài)時間規(guī)整測量算法與近鄰決策算法的合并算法。這個算法需要使用均方根、過零率、自動相關和倒普線性預測系數。使用歐氏距離算法計算成本函數,使用KNN 算法計算最小距離匹配度 k。
3.MEMS麥克風陣列
我們采用STM32F4微控制器和MEMS麥克風開發(fā)一個硬件音頻信號同步采集處理子系統,其信號捕捉能力相當于8個采樣率高達48 KHz的麥克風 。
圖 4. 采用STM32F4微控制器和MEMS麥克風的硬件音頻信號同步采集處理子系統
3.1 MEMS技術
MEMS技術的主要特性是在能夠同一芯片表面集成微電子和微機械單元,在同一封裝內整合不同的功能。這樣,過去分別由傳感器、執(zhí)行器(例如,射流管理或機械交互)和邏輯、控制單元完成的不同功能,今天可以整合在同一個封裝內。從生化分析,到慣性系統,從機械傳感器,到音頻和聲波傳感器, MEMS產品覆蓋很多應用領域。
3.2 MEMS麥克風和音頻編碼
MEMS麥克風尺寸雖然比其它技術麥克風小,但是,從物理和機械角度看,卻具備標準駐極體麥克風的全部功能,其核心部件是一個振膜,振膜和固定框架共同組成一個可變電容器。當聲波引起振膜變形時,電容會發(fā)生變化,從而導致電壓變化。
被捕捉到的信號的后期處理,即功率放大和模數轉換過程,都是在同一芯片上完成,因此,麥克風輸出是高頻PDM信號。在脈沖密度調制過程,邏輯1對應一個正 (+A) 脈沖,而邏輯0對應一個負(-A)脈沖。因此,假設輸入一個周期的正弦音頻,當輸入電壓在最大正振幅時,輸出為一個由“1”組成的脈沖序列;當輸入電壓在最大負振幅時,輸出則是一個由“0”組成的序列。當穿過0振幅時,聲波在1和0序列之間快速變化。如果方法正確,PDM可通過數字方法給高品質音頻編碼,而且實現方法簡易,成本低廉。因此,PDM比特流是MEMS麥克風常用的數據輸出格式。
另一方面,PCM是一個非常著名的音頻編碼標準,以相同的間隔對信號振幅定期采樣,在數字步進范圍內,每個采樣被量化至最接近值。決定比特流是否忠實原模擬信號的是PCM比特流的兩個基本屬性:采樣率,即每秒采樣次數;位寬,即每個采樣包含的二進制數個數;通過降低采樣率(降低十分之一)和提高字長,可以將PDM編碼信號轉成PCM信號,PDM數據速率與降低十分之一的PCM采樣率的比值被稱為降采樣率。因此,對于N:1降采樣率,只要每N個間隔采樣一次 (不考慮剩余的N-1),即可完成降低十分之一的采樣過程。
3.3 麥克風陣列
從硬件角度看,這款產品基于STM32F407VGT6高性能微控制器,能夠通過8個MEMS麥克風采集信號。STM32F4微控制器基于工作頻率最高 168 MHz的高性能ARM® Cortex-M4 32 RISC處理器內核,集成高速嵌入式存儲器(閃存容量最高1 MB, SRAM容量最高192KB)以及標準和先進的通信接口,例如,I2S全雙工接口、SPI、 USB FS/HS和以太網。
STM32 F4系列是意法半導體首批基于支持FPv4-SP 浮點擴展運算的ARM Cortex-M4F內核的STM32微控制器,這使得該器件適用于重負荷算法,浮點單元完全支持單精度加法、減法、乘法、除法和累加以及均方根運算,還提供定點和浮點數據格式轉換和浮點常數指令,完全兼容ANSI/IEEE Std 754-1985二進制浮點算術標準。為提高ARM架構的數字信號處理和多媒體應用性能,指令集還增加了DSP指令集。新指令是數字信號處理架構常用指令,包括帶符號乘加變化(variations on signed multiply–accumulate)、飽和加減和前導零計數。
評論