麥克風陣列技術語音交互應該選用怎樣的方案?
聲源測向:這里沒有用聲源定位,測向和定位是不太一樣的,而消費級麥克風陣列做到測向就可以了,沒必要在這方面投入太多成本。聲源測向的主要作用就是偵測到與之對話人類的聲音以便后續(xù)的波束形成。聲源測向可以基于能量方法,也可以基于譜估計,陣列也常用TDOA技術。聲源測向一般在語音喚醒階段實現(xiàn),VAD技術其實就可以包含到這個范疇,也是未來功耗降低的關鍵研究內容。
本文引用地址:http://2s4d.com/article/201807/383792.htm波束形成:波束形成是通用的信號處理方法,這里是指將一定幾何結構排列的麥克風陣列的各麥克風輸出信號經(jīng)過處理(例如加權、時延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾,這里也包括人聲,比如幾個人圍繞Echo談話的時候,Echo只會識別其中一個人的聲音。
陣列增益:這個比較容易理解,主要是解決拾音距離的問題,若信號較小,語音識別同樣不能保證,通過陣列處理可以適當加大語音信號的能量。
模型匹配:這個主要是和語音識別以及語義理解進行匹配,語音交互是一個完整的信號鏈,從麥克風陣列開始的語音流不可能割裂的存在,必然需要模型匹配在一起。實際上,效果較好的語音交互專用麥克風陣列,通常是兩套算法,一套內嵌于硬件實時處理,另外一套服務于云端匹配語音處理。
麥克風陣列的技術趨勢
語音信號其實是不好處理的,我們知道信號處理大多基于平穩(wěn)信號的假設,但是語音信號的特征參數(shù)均是隨時間而變化的,是典型的非平穩(wěn)態(tài)過程。幸運的是語音信號在一個較短時間內的特性相對穩(wěn)定(語音分幀),因而可以將其看作是一個準穩(wěn)態(tài)過程,也就是說語音信號具有短時平穩(wěn)的特性,這才能用主流信號處理方法對其處理。從這點來看,麥克風陣列的基本原理和模型方面就存在較大的局限,也包括聲學的非線性處理(現(xiàn)在基本忽略非線性效應),因此基礎研究的突破才是未來的根本。希望能有更多熱愛人工智能的學生關注聲學,報考我們中科院聲學所。
另外一個趨勢就是麥克風陣列的小型化,麥克風陣列受制于半波長理論的限制,現(xiàn)在的口徑還是較大,聲智科技現(xiàn)在可以做到2cm-8cm的間距,但是結構布局仍然還是限制了ID設計的自由性。很多產(chǎn)品采用2個麥克風其實并非成本問題,而是ID設計的考慮。實際上,借鑒雷達領域的合成孔徑方法,麥克風陣列可以做的更小,而且這種方法已經(jīng)在軍工領域成熟驗證,移植到消費領域只是時間問題。
還有一個趨勢是麥克風陣列的低成本化,當前無論是2個麥克風還是4、6個麥克風陣列,成本都是比較高的,這影響了麥克風陣列的普及。低成本化不是簡單的更換芯片器件,而是整個結構的重新設計,包括器件、芯片、算法和云端。這里要強調一下,并非2個麥克風的陣列成本就便宜,實際上2個和4個麥克風陣列的相差不大,2個麥克風陣列的成本也要在60元左右,但是這還不包含進行回聲抵消的硬件成本,若綜合比較,實際上成本相差不大。特別是今年由于新技術的應用,多麥克風陣列
評論