將意圖轉(zhuǎn)化為行動:走進(jìn)嵌入式語音控制的新時代

作者：Chris Welsh 時間：2023-12-01 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文引用地址：http://2s4d.com/article/202312/453493.htm

恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎。在這篇博文中，我們將探討開發(fā)人員在嵌入式語音控制設(shè)計中面臨的挑戰(zhàn)、我們新的Speech to Intent引擎，以及您如何在應(yīng)用中使用它。

聽到您的聲音：嵌入式系統(tǒng)中語音命令的挑戰(zhàn)

隨著亞馬遜、谷歌和蘋果等公司推出了具有革命性意義的智能揚聲器，嵌入式語音控制的設(shè)備已經(jīng)成為了當(dāng)下的熱門趨勢，而這種技術(shù)其實已經(jīng)存在了很多年。通過這些智能揚聲器，終端用戶第一次體驗到了語音優(yōu)先設(shè)備的便捷性、實用性和直觀性。語音是這些設(shè)備的用戶界面（UI），也是它們最重要或唯一的交互方式。借助云端的自然語言理解技術(shù)，智能揚聲器可以讓語音優(yōu)先設(shè)備的終端用戶用自然語言與智能設(shè)備進(jìn)行溝通，無論是請求、查詢還是命令，都可以得到理解和響應(yīng)。

為了實現(xiàn)自然語言處理，設(shè)計人員和終端用戶需要面對一些挑戰(zhàn)，比如要求有穩(wěn)定、可靠的網(wǎng)絡(luò)連接，以及要承受始終在線、始終聆聽的設(shè)備的高耗電，更別提這種聯(lián)網(wǎng)設(shè)備可能帶來的隱私風(fēng)險了。

針對嵌入式設(shè)計中的語音引擎難題，恩智浦推出了其智能語音技術(shù)（VIT）產(chǎn)品組合的最新產(chǎn)品VIT Speech to Intent引擎。進(jìn)一步了解VIT S2I。

本地語音控制與基于云的語音控制比較

為了讓設(shè)備具備語音控制功能，工程師通常有三種選擇：本地處理、在云端處理或兩者的組合，我們稱之為“混合處理”。通過本地語音控制，終端設(shè)備在邊緣本地處理所有語音，而無需連接到云端或遠(yuǎn)程服務(wù)器進(jìn)行二次處理?；谠频奶幚砭褪抢迷贫说挠嬎隳芰硖幚碚Z音音頻，然后把云端生成的響應(yīng)通過網(wǎng)絡(luò)傳回設(shè)備。在混合處理的情況下，通常會使用本地喚醒詞引擎來喚醒設(shè)備（如“Hey NXP”），然后將該喚醒詞之后的所有語音命令流式傳輸?shù)皆贫嘶蜻h(yuǎn)程服務(wù)器進(jìn)行處理。

本地處理具有低延遲、低功耗和獨立于網(wǎng)絡(luò)等優(yōu)點，但它通常只支持需要精確措辭的基本關(guān)鍵詞和命令。例如，開燈可能需要準(zhǔn)確的短語“Hey，NXP（喚醒詞），開燈（語音命令）”，并且不能有任何變化。

對于云端處理和混合系統(tǒng)，云服務(wù)的使用增加了延遲，但提供了能夠運行極其復(fù)雜的算法的優(yōu)勢，包括自然語言理解模型。重溫剛才說的開燈示例，使用任何詞語組合，系統(tǒng)都可以理解所要求操作的環(huán)境，例如“這里很黑，請開燈”。

如前所述，基于云的自然語言處理的一個主要缺點是安全和隱私問題。簡單地說，這種方式的原理是把語音音頻流通過網(wǎng)絡(luò)傳送到遠(yuǎn)程服務(wù)器進(jìn)行處理，但是這也可能導(dǎo)致系統(tǒng)誤啟動并把無關(guān)的音頻流傳輸?shù)皆贫恕＿@些音頻流可能包括個人對話、憑證或其他敏感信息。

恩智浦智能語音技術(shù)（VIT） Speech to Intent （S2I）引擎介紹

針對嵌入式設(shè)計中的語音引擎難題，恩智浦推出了其智能語音技術(shù)（VIT）產(chǎn)品組合的最新產(chǎn)品VIT Speech to Intent引擎。S2I引擎是VIT產(chǎn)品組合的高端產(chǎn)品，其中還包括免費的喚醒詞引擎（WWE）和語音命令引擎（VCE）。

與依賴遠(yuǎn)程云服務(wù)的系統(tǒng)不同，VIT S2I能夠在本地確定自然語言的意圖。這一功能要歸功于恩智浦針對嵌入式系統(tǒng)設(shè)計的神經(jīng)網(wǎng)絡(luò)算法和機(jī)器學(xué)習(xí)模型的最新開發(fā)成果。因此，要實現(xiàn)“開燈”的目的，可以用很多不同的方式來表達(dá)，比如“開燈”、“太暗了”和“你能讓光線更亮嗎”等。

這種Speech to Intent功能使用戶能夠更自然地與嵌入式系統(tǒng)進(jìn)行交互，同時降低了系統(tǒng)延遲和云連接系統(tǒng)的功耗。此外，消除云服務(wù)也有助于提高安全性和隱私，因為所有語音都在設(shè)備上本地處理。此外，如果搭配恩智浦喚醒詞引擎，可以開發(fā)超低功耗設(shè)計，只有在聽到特定的喚醒詞后，才會啟動VIT S2I引擎來處理語音命令。

支持VIT S2I的恩智浦器件包括：Arm^?Cortex^?-M:i.MX RT跨界MCU和RW61x MCU，以及Cortex A i.MX 8M Mini、i.MX 8MPlus和i.MX 9x應(yīng)用處理器。VIT S2I目前支持英語、普通話和韓語，將于2023年底推出。用于創(chuàng)建自定義命令和訓(xùn)練模型的在線開發(fā)工具計劃于2024年發(fā)布。

VIT Speech to Intent框圖

VIT Speech to Intent如何為您的下一個設(shè)計增加語音功能

物聯(lián)網(wǎng)領(lǐng)域日新月異，VIT S2I能夠適應(yīng)各種應(yīng)用場景，無論是家居自動化、可穿戴電子產(chǎn)品，還是汽車遠(yuǎn)程信息處理和樓宇門禁等，都能發(fā)揮其優(yōu)勢。消費者喜歡用自然語言來免手動控制設(shè)備的基本功能，消除邊緣語音處理的云服務(wù)不僅減少了系統(tǒng)延遲，還減少了隱私和安全問題。

對于那些需要使用語音優(yōu)先用戶界面的設(shè)備，VIT S2I系統(tǒng)是一個不可或缺的部分，它可以應(yīng)用在智能恒溫器、智能電器、家居自動化、燈光控制、遮陽控制等領(lǐng)域。VIT S2I也適用于可穿戴設(shè)備和健身設(shè)備，一些用例包括設(shè)置提醒、控制藍(lán)牙設(shè)備和監(jiān)測健康狀況。

使用恩智浦的VIT產(chǎn)品組合增強(qiáng)您的應(yīng)用

如如果您想要使用恩智浦智能語音技術(shù)組合進(jìn)行開發(fā)，歡迎使用我們免費的VIT喚醒詞和語音命令引擎，通過MCUXpresso SDK和在線模型工具即可獲得。這些引擎可以讓您方便地定制喚醒詞和基本的語音控制，適用于那些不涉及自然語言理解的快速原型制作和開發(fā)周期。如果您的應(yīng)用需要更多自然語言理解功能，請聯(lián)系當(dāng)?shù)氐亩髦瞧执恚_始使用VIT Speech to Intent。

進(jìn)一步了解恩智浦的語音處理產(chǎn)品組合，并觀看我們的VIT Speech to Intent演示。

作者：

Chris Welsh

邊緣處理業(yè)務(wù)部物聯(lián)網(wǎng)語音和音頻業(yè)務(wù)發(fā)展總監(jiān)

Chris作為Retune DSP公司的合伙人，于2021公司并購時加入恩智浦。Chris專注于通過差異化的語音軟件技術(shù)和服務(wù)為客戶創(chuàng)造價值。Chris為恩智浦帶來了超過25年的嵌入式語音和音頻業(yè)務(wù)經(jīng)驗，他曾經(jīng)在AT&T、朗訊科技、MWM聲學(xué)、哈曼國際和Retune DSP等公司擔(dān)任工程師、商務(wù)拓展、創(chuàng)始人、總經(jīng)理和高管等職務(wù)。Chris擁有普渡大學(xué)機(jī)械工程學(xué)學(xué)士學(xué)位和賓夕法尼亞州立大學(xué)聲學(xué)碩士學(xué)位。

新聞中心

將意圖轉(zhuǎn)化為行動:走進(jìn)嵌入式語音控制的新時代

評論

相關(guān)推薦

技術(shù)專區(qū)