麥克風陣列技術語音交互應該選用怎樣的方案？

作者：時間：2018-07-25 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

聲源測向：這里沒有用聲源定位，測向和定位是不太一樣的，而消費級麥克風陣列做到測向就可以了，沒必要在這方面投入太多成本。聲源測向的主要作用就是偵測到與之對話人類的聲音以便后續(xù)的波束形成。聲源測向可以基于能量方法，也可以基于譜估計，陣列也常用TDOA技術。聲源測向一般在語音喚醒階段實現(xiàn)，VAD技術其實就可以包含到這個范疇，也是未來功耗降低的關鍵研究內容。

本文引用地址：http://2s4d.com/article/201807/383792.htm

波束形成：波束形成是通用的信號處理方法，這里是指將一定幾何結構排列的麥克風陣列的各麥克風輸出信號經(jīng)過處理(例如加權、時延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾，這里也包括人聲，比如幾個人圍繞Echo談話的時候，Echo只會識別其中一個人的聲音。

陣列增益：這個比較容易理解，主要是解決拾音距離的問題，若信號較小，語音識別同樣不能保證，通過陣列處理可以適當加大語音信號的能量。

模型匹配：這個主要是和語音識別以及語義理解進行匹配，語音交互是一個完整的信號鏈，從麥克風陣列開始的語音流不可能割裂的存在，必然需要模型匹配在一起。實際上，效果較好的語音交互專用麥克風陣列，通常是兩套算法，一套內嵌于硬件實時處理，另外一套服務于云端匹配語音處理。

麥克風陣列的技術趨勢

語音信號其實是不好處理的，我們知道信號處理大多基于平穩(wěn)信號的假設，但是語音信號的特征參數(shù)均是隨時間而變化的，是典型的非平穩(wěn)態(tài)過程。幸運的是語音信號在一個較短時間內的特性相對穩(wěn)定(語音分幀)，因而可以將其看作是一個準穩(wěn)態(tài)過程，也就是說語音信號具有短時平穩(wěn)的特性，這才能用主流信號處理方法對其處理。從這點來看，麥克風陣列的基本原理和模型方面就存在較大的局限，也包括聲學的非線性處理(現(xiàn)在基本忽略非線性效應)，因此基礎研究的突破才是未來的根本。希望能有更多熱愛人工智能的學生關注聲學，報考我們中科院聲學所。

另外一個趨勢就是麥克風陣列的小型化，麥克風陣列受制于半波長理論的限制，現(xiàn)在的口徑還是較大，聲智科技現(xiàn)在可以做到2cm-8cm的間距，但是結構布局仍然還是限制了ID設計的自由性。很多產(chǎn)品采用2個麥克風其實并非成本問題，而是ID設計的考慮。實際上，借鑒雷達領域的合成孔徑方法，麥克風陣列可以做的更小，而且這種方法已經(jīng)在軍工領域成熟驗證，移植到消費領域只是時間問題。

還有一個趨勢是麥克風陣列的低成本化，當前無論是2個麥克風還是4、6個麥克風陣列，成本都是比較高的，這影響了麥克風陣列的普及。低成本化不是簡單的更換芯片器件，而是整個結構的重新設計，包括器件、芯片、算法和云端。這里要強調一下，并非2個麥克風的陣列成本就便宜，實際上2個和4個麥克風陣列的相差不大，2個麥克風陣列的成本也要在60元左右，但是這還不包含進行回聲抵消的硬件成本，若綜合比較，實際上成本相差不大。特別是今年由于新技術的應用，多麥克風陣列