生成式人工智能音頻快速發(fā)展：高信噪比MEMS麥克風功不可沒

作者：Sofia Cucalon，Julian Kornprobst 時間：2024-06-21 來源：英飛凌

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

最新一代人工智能或?qū)㈤_啟新一輪科技革命，全面提升各種人機交互體驗。

本文引用地址：http://2s4d.com/article/202406/460178.htm

人工智能日益融入人們的日常生活，在方方面面帶來深刻變化?；谌斯ぶ悄艿奈谋竞蛨D像生成工具可以創(chuàng)建出令人難以置信的內(nèi)容。不僅如此，人工智能的觸角已從視覺和文字媒介，伸向語音轉(zhuǎn)文字（STT）和自然語言處理（NLP）等音頻應用，展現(xiàn)出巨大潛力。然而，音頻應用質(zhì)量大幅提高是否僅僅歸功于最新一代基于大語言模型的生成式人工智能？還是說硬件依然功不可沒？就拿高信噪比（SNR）微機電系統(tǒng)（MEMS）麥克風來說，它為實現(xiàn)這種必將改變?nèi)藗內(nèi)粘Ｉ畹男沦|(zhì)人機交互做出了什么貢獻？本文將探討這些問題并深入分析高信噪比MEMS麥克風在文字轉(zhuǎn)語音（TTS）和自然語言處理（NLP）等前沿音頻應用的發(fā)展中所起的關鍵作用。

人們每天佩戴耳機的時間越來越長。隨著越來越多的人選擇在咖啡館等公共場所辦公，為了靜享安寧或是參加會議，人們紛紛使用耳機來隔絕外界喧囂。閑暇時，人們也愿意戴著耳機打游戲、聽音樂或有聲讀物或者與朋友交談。由于佩戴時間越來越長，除舒適度之外，音頻質(zhì)量也成為重要的選購標準。越來越多的人在選購耳機時對“高級音頻功能”感興趣，如空間音頻、清晰語音通話和低延遲等。

語音識別和語音生成是消費電子產(chǎn)品和汽車的重要音頻功能。近幾年來，包括Siri和Alexa在內(nèi)的語音助手一直在簡化操作并推出新的應用，如通過語音命令控制智能家居設備。如今，從智能手機（圖1）和耳機到智能電視、智能音箱、智能家居設備、筆記本電腦和平板電腦，各式各樣的設備都配備了集成語音助手。集成在設備中的語音助手（如智能手機、耳機、智能電視和智能音箱）依賴于這些麥克風捕捉到的高質(zhì)量音頻輸入。高信噪比（信號與噪聲比）麥克風在實現(xiàn)卓越音頻質(zhì)量方面起著關鍵作用；對于遠場應用，如智能音箱，高信噪比麥克風可以更好地捕捉音頻；真無線耳機（TWS）中的主動降噪（ANC）和透傳模式等功能也受益于高信噪比麥克風，提升了用戶體驗。汽車也廣泛使用語音助手來控制多種不同功能，以便駕駛員雙手不離開方向盤即可完成操作。

SAR預測，到2028年，帶集成語音助手的設備的市場總銷量將增至每年30億臺，復合年增長率達5%。1

人工智能在音頻領域的應用前景

另外目前的系統(tǒng)還不夠完美?？谝?、語病或簡單的背景噪聲等仍然會導致語音識別失敗。語音輸出聽起來也非常生硬，與真人發(fā)音有很大差別。

最新一代人工智能或?qū)㈤_啟新一輪科技革命，全面提升各種人機交互體驗。生成式人工智能音頻的優(yōu)勢不僅在于增強語音助手的功能，還在于它能夠更好地理解人類的意圖。例如，人工智能生成語音與真人發(fā)音幾乎難以分辨，從而可以為視障群體提供更好的幫助。各種數(shù)字平臺都可以利用人工智能音頻來提升用戶體驗，娛樂行業(yè)或客戶支持領域也可以探索人工智能音頻帶來的新的可能性。

生成式人工智能音頻的一個重要應用是語音轉(zhuǎn)文字，即將說的話轉(zhuǎn)換成文字。使用人工智能可以提高速度和準確率。語音轉(zhuǎn)文字（STT）結(jié)合文字轉(zhuǎn)語音（TTS），可以在諸如筆記本電腦或智能手機等消費電子產(chǎn)品中實現(xiàn)多種應用，包括集成語音助手以及自動轉(zhuǎn)錄會議。在會議中，基于人工智能的應用可以總結(jié)出，以把握討論的精神實質(zhì)。在會議進行過程中，您可以查看不同人提出的觀點，以確保全面考慮每個人的意見。

自然語言處理（NLP）和生成富有表現(xiàn)力的語音

自然語言處理（NLP）是生成式人工智能語音的基礎技術。它致力于理解口頭語言的含義，而不考慮口音、口語化表達、發(fā)音含糊不清以及口頭語言與書面語言之間的其他差異。自然語言處理還可以根據(jù)語速、語調(diào)和語氣，識別出觀點和情緒。人可以發(fā)出各種各樣的聲音，因此，自然語言處理的聲音采集必須盡可能準確地捕捉到純凈的語音信號，同時將背景噪聲、雜音和其他外部影響降至最低。換句話說，麥克風和信號處理有助于顯著提高自然語言處理質(zhì)量。

要實現(xiàn)出色的語音識別，必須用盡可能多的不同真人聲音對人工智能進行訓練。只有這樣，它才能處理語音的微妙之處并理解口語文字。

適用于人工智能音頻的MEMS麥克風

同自然語言處理的情況一樣，人工智能音頻必須借助的硬件才能高質(zhì)量地完成任務。首先是將人類語音產(chǎn)生的聲波轉(zhuǎn)換成電信號，轉(zhuǎn)換質(zhì)量直接關系到對所捕捉信號的理解。任何轉(zhuǎn)換損失或劣化都會降低語音轉(zhuǎn)文字的準確率。

麥克風是音頻鏈中的第一個環(huán)節(jié)，在人工智能音頻設備必須選擇合適的麥克風。MEMS麥克風可謂當仁不讓：它們不僅具備高性能和低功耗，而且外形小巧，可輕松集成到各式各樣的設備中。

MEMS麥克風主要由三個部分組成（圖2）。首先是用作傳感元件的微機電系統(tǒng)：膜片和背極板共同構成一個電容器，聲波使膜片振動，振動導致電容變化從而產(chǎn)生電信號。第二個組成部分是專用集成電路（ASIC），其中包含向膜片施加電壓的電荷泵、放大器、穩(wěn)定輸入電壓的穩(wěn)壓器（LDO）和校準邏輯電路。第三個組成部分是封裝，它將這些元件集于一體，提供保護和屏蔽并形成后腔室。

圖片.png

MEMS麥克風框圖

要在有背景噪聲、口音或講話人與麥克風之間的距離不理想等困難條件下，識別出語音的細微差別，麥克風的信噪比是關鍵特性。麥克風的所有元件（MEMS、ASIC、封裝和入聲孔）都會產(chǎn)生自噪聲。信噪比描述了麥克風固有的自噪聲相對于標準參考信號的強度。信噪比越高，能提供更穩(wěn)定、更清晰的語音和數(shù)據(jù)傳輸，減少噪聲干擾，提高設備性能和穩(wěn)定性。

XENSIV? MEMS麥克風帶給人工智能音頻的優(yōu)勢

如上所述，人工智能音頻設備需要采用高信噪比麥克風來實現(xiàn)準確的語音識別。英飛凌已經(jīng)成功地研發(fā)了許多高性能MEMS麥克風2，包括具有革命性意義的密封雙膜（SDM）MEMS麥克風技術。它使用兩個膜片和一個帶電定子來形成一個密封的低壓腔（圖3）和一個差分輸出信號，這種架構可實現(xiàn)超高信噪比（高達75 dB）和極低失真，并為麥克風提供防水防塵高防護（IP57）。

圖片.png

SDM技術使用兩個膜片和一個帶電定子來形成一個密封的低壓腔和一個差分輸出信號從而實現(xiàn)超高信噪比和極低失真

英飛凌XENSIV? IM73A135正是應用了這個技術，信噪比達到73 dB，處于行業(yè)內(nèi)領先地位特別適合人工智能音頻等要求嚴格的應用。其4×3 mm2封裝允許將聲音捕捉單元小型化，以便輕松將人工智能語音技術集成到各種設備中，包括筆記本電腦、會議電話以及智能音箱和智能手機等。

XENSIV? MEMS麥克風的另一個優(yōu)點是低能耗。它們提供多種不同工作模式，通過節(jié)能來幫除了性能領先助提高設備的功率效率。許多帶生成式人工智能語音功能的設備都是電池供電的便攜式設備，低能耗對于延長電池續(xù)航尤為重要。

得益于其尺寸小巧、經(jīng)濟劃算和低功耗，在一臺設備中配置多個麥克風。這樣可以檢測并降低背景噪聲，提高語音識別準確率。還可以采用波束成形算法，從背景噪聲中分離出并拾取特定講話人的語音。

如今人們很重視改善音頻質(zhì)量，市場數(shù)據(jù)也反映出MEMS麥克風的優(yōu)勢。高信噪比MEMS麥克風市場的增長速度明顯超過低信噪比麥克風市場。Omdia預計，信噪比高于64 dB的MEMS麥克風在消費領域的復合年增長率將達到8.7%，到2027年銷售量將接近30億個3。

英飛凌很早就預見到這一趨勢，我們一直在研發(fā)適用于人工智能音頻應用等的高性能MEMS麥克風。

除了性能領先的73-dB信噪比之外，具備更高信噪比、更低功耗的MEMS麥克風也即將相繼面市。

圖片.png

XENSIV? MEMS麥克風的主要價值指標

結(jié)語

在生成式人工智能音頻領域，高信噪比MEMS麥克風起到了至關重要的作用。隨著人工智能推動語音轉(zhuǎn)文字（STT）等音頻應用不斷發(fā)展，MEMS麥克風也通過捕捉細致入微的語音數(shù)據(jù)，為提高語音識別準確率發(fā)揮了積極作用，助力在消費電子產(chǎn)品和面向視障群體的無障礙功能等領域?qū)崿F(xiàn)更加自然而實用的人工智能音頻。充分利用優(yōu)質(zhì)MEMS麥克風的這些優(yōu)點，人工智能音頻將在未來幾年開辟更多應用領域，包括語音克隆、語音情緒識別等等。

英飛凌科技自主研發(fā)和生產(chǎn)MEMS麥克風的所有組件。英飛凌可以針對每種應用，確定MEMS、ASIC和封裝的最佳組合以實現(xiàn)最優(yōu)性能。這為改善用戶體驗和拓寬人工智能音頻應用領域鋪平了道路。

參考文獻

1 SAR Insight & Consulting發(fā)布的《語音助手平臺預測》，2023年。

2 英飛凌科技。

3 Omdia（2023年發(fā)布）《MEMS麥克風調(diào)研報告》。