與機(jī)器人對(duì)話的語音溝通解決方案

作者：時(shí)間：2016-12-08 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

語音也許是人類最自然的交流方式，但是將一臺(tái)機(jī)器引入到該過程則產(chǎn)生了對(duì)新的行為協(xié)議的需求，特別是在語音溝通過程中沒有另一方持續(xù)視覺線索的時(shí)候更為重要。因此值得去在一個(gè)比傳統(tǒng)案例更為廣泛的意義上去定義語音控制的“性能”.

本文引用地址：http://2s4d.com/article/201612/327782.htm

語音也許是人類最自然的交流方式，但是將一臺(tái)機(jī)器引入到該過程則產(chǎn)生了對(duì)新的行為協(xié)議的需求，特別是在語音溝通過程中沒有另一方持續(xù)視覺線索的時(shí)候更為重要。對(duì)于早期的用戶，第一次電話通話是極不順暢的;而且即使在今天，雙向無線電臺(tái)的斷續(xù)通話方式也要求新用戶進(jìn)行一些調(diào)整。在這兩種情況下，很快就發(fā)展出來一些常用的方法來實(shí)現(xiàn)相當(dāng)自然的溝通方式，主要是因?yàn)橥ㄔ挼牧硪环揭彩侨祟?。隨著移動(dòng)用戶面臨新的語音識(shí)別界面，他們將面臨與使用那些很老的通信手段時(shí)所出現(xiàn)的類似挑戰(zhàn)。

一個(gè)更近期的例子是，觸摸屏革命展示出了它們?nèi)绻軐?shí)現(xiàn)高品質(zhì)同時(shí)具有可為用戶體驗(yàn)帶來附件價(jià)值的功能時(shí)，新的、陌生的、棘手的界面如何切入到主流應(yīng)用并且受到歡迎。

因此值得去在一個(gè)比傳統(tǒng)案例更為廣泛的意義上去定義語音控制的“性能”.因而能夠在考慮到下一代瓶頸時(shí)，設(shè)計(jì)出更多不會(huì)過時(shí)的解決方案。

構(gòu)建一種高性能的語音識(shí)別解決方案

過去一直用非常簡(jiǎn)單的性能指標(biāo)來評(píng)估語音識(shí)別解決方案。這些指標(biāo)通常被換算為單獨(dú)的“精度”或者“命中率”數(shù)值，從根本上來表述正確識(shí)別字和詞組的概率。在定義“性能”時(shí)，需要一種更廣泛的和深思熟慮的方式，它能夠反映語音界面的長(zhǎng)期發(fā)展?jié)摿Γ员阆蛴脩籼峁┫裼|屏界面一樣的舒適性和可用性等級(jí)。

翻譯質(zhì)量扮演了一個(gè)關(guān)鍵的角色，從根本上講它是一種人工智能，遠(yuǎn)不止基本的字詞識(shí)別。訪問所有設(shè)備功能也使語音識(shí)別成為了觸摸屏的一種切實(shí)可行的替代方案，有趣的是這也使該技術(shù)可用于一個(gè)更大范圍的設(shè)備種類，包括像可穿戴技術(shù)這樣更小的設(shè)備。低響應(yīng)延遲以及一種自然的、“無協(xié)議的”的交互方式，以及即使在有噪音環(huán)境中也能很好地運(yùn)行，也改善了體驗(yàn)。這要求精心的系統(tǒng)設(shè)計(jì)，以使設(shè)備級(jí)的信號(hào)處理技術(shù)能夠與基于云計(jì)算的智能很好地結(jié)合，以將這些性能增強(qiáng)帶給用戶。

去除按鍵

語音識(shí)別目前最大的人體工程學(xué)局限性是需要進(jìn)行按鍵或者其它機(jī)械性啟動(dòng)，從而限制了它在許多環(huán)境中的可用性。這種機(jī)械觸發(fā)是功耗這一制約因素的終極結(jié)果。為了保持具有競(jìng)爭(zhēng)力的電池壽命數(shù)值，移動(dòng)設(shè)備中待機(jī)功耗的預(yù)算都極低，典型的電池電流值為單位數(shù)毫安。當(dāng)功率預(yù)算這么低的時(shí)候，連續(xù)地運(yùn)行語音識(shí)別(或者至少隨意的語音識(shí)別)是不可行的。

到目前為止，一個(gè)按鍵觸發(fā)器為這個(gè)問題提供了一種粗放的解決方案，它通過在按下按鍵之前禁用語音識(shí)別，使功率消耗平均值降到最低。但是，現(xiàn)今的語音觸發(fā)功能作為一種特性正在被加載到最新的高端音頻中樞(AudioHubs)上，因?yàn)镺EM廠商希望語音識(shí)別功能能夠更靈活、更易于使用。通過顯著地降低語音識(shí)別的平均功耗數(shù)值，甚至降到待機(jī)模式預(yù)算范圍內(nèi)這樣的水平，允許主處理器“休眠”.這種功耗降低(通常為一個(gè)數(shù)量級(jí))是如此的顯著，以至于可以完全消除對(duì)按鍵的需要。

語音觸發(fā)器架構(gòu)的選擇

一次語音觸發(fā)是一個(gè)簡(jiǎn)短的關(guān)鍵字或者詞(例如“你好!手機(jī)”)，它能夠使設(shè)備被喚醒并且響應(yīng)后面輸入的語音。圖1所示即為這種半自主的低功耗的“永遠(yuǎn)工作”的處理域，它為這種語音觸發(fā)提供了一個(gè)平臺(tái)。

圖1:使用了一個(gè)音頻中樞的永遠(yuǎn)工作的語音觸發(fā)。

音頻中樞為語音觸發(fā)功能提供了一個(gè)自然的中心，它帶有通往所有內(nèi)部功能和耳機(jī)麥克風(fēng)端口的接口，并且在待機(jī)模式下通常也在運(yùn)行，這是因?yàn)樾枰幚硐窀郊涌诒O(jiān)控其它原因。這個(gè)降低了系統(tǒng)中諸如時(shí)鐘發(fā)生器和電壓參考等常用基礎(chǔ)功能的重復(fù)率，降低了靜態(tài)功耗。音頻中樞里針對(duì)語音喚醒的硬件優(yōu)化使信號(hào)處理周期針對(duì)不同環(huán)境的噪聲情況將被保持在絕對(duì)的最低值，將平均電池電流最小化。

可相互替代的架構(gòu)分成兩類：分離式解決方案和基于系統(tǒng)級(jí)芯片(SoC)語音的觸發(fā)。其功率消耗情況和用戶交互方式在很大程度上依賴于對(duì)這些架構(gòu)的選擇。軟件架構(gòu)，尤其是管理應(yīng)用場(chǎng)景轉(zhuǎn)換和串行端口配置的軟件，也在確定交流方式中扮演著一個(gè)重要的角色。

基于系統(tǒng)級(jí)芯片(SoC)的語音觸發(fā)器(如圖2)往往因?yàn)橹饕闹醒胩幚韱卧掷m(xù)活躍而引起的非常高的靜態(tài)功耗開銷。這些解決方案的電池電流消耗通常比那些基于音頻中樞的解決方案高出一個(gè)數(shù)量級(jí)。

圖2:基于SoC的語音觸發(fā)模式。

分離式解決方案(如圖3)通常使用來自主音頻通道的不同的硬件接口。這有時(shí)可以導(dǎo)致音頻不持續(xù)，原因在于應(yīng)用場(chǎng)景轉(zhuǎn)換管理和噪音抑制的啟用/禁用等在不同的集成電路間，因?yàn)檠舆t和信號(hào)格式不同等因素而變得復(fù)雜。這些不連續(xù)有時(shí)會(huì)引起通話被中斷，尤其是在轉(zhuǎn)換到工作模式運(yùn)行發(fā)生時(shí)，從而導(dǎo)致了對(duì)可聽見提示的需要并限制了交流方式。在一些情況，因?yàn)檫B接到有限數(shù)量的麥克風(fēng)也能限制其使用性(例如耳機(jī)麥克風(fēng)的操作)。

圖3:分離式語音觸發(fā)解決方案。

確保更好的用戶體驗(yàn)

由于所有技術(shù)創(chuàng)新都是從根本上改變用戶與消費(fèi)電子設(shè)備交互的方式，衡量成功的真正標(biāo)準(zhǔn)是用戶對(duì)他們所期望的改變的回應(yīng)。參考觸摸屏案例，新的語音控制技術(shù)的最終目標(biāo)是它們應(yīng)該成為下一代移動(dòng)硬件可接受的和所預(yù)期的一項(xiàng)功能。我們將可能非?？炀蛯W(xué)會(huì)如何與新一代能夠響應(yīng)語音的機(jī)器進(jìn)行交互，其方式與我們?cè)谟|摸屏中開發(fā)出來的直觀熟悉性大致相同，直到像觸摸功能已經(jīng)成為進(jìn)入市場(chǎng)的新設(shè)備的一個(gè)標(biāo)準(zhǔn)功能這樣的程度。

盡管如此，不同于較早的在遠(yuǎn)端也是人類的語音通信技術(shù)，仍然不確定的是用戶在熟悉技術(shù)的行為特性后，是否將受益于與其設(shè)備進(jìn)行了有用的或有趣的溝通。這在很大程度上取決于該技術(shù)的性能，但是今天用來衡量語音識(shí)別性能的標(biāo)準(zhǔn)仍然很粗放，并且不足以用來描述未來代系語音識(shí)別系統(tǒng)的有效性?？紤]到更高級(jí)別的機(jī)器智能化、與系統(tǒng)其余部分的交互，以及與云計(jì)算的交互，還需要一種更廣泛的方式。一種不會(huì)限制或者延遲下一代改善的音頻架構(gòu)，能夠使這些性能跨越更加迅速地發(fā)生，很大程度上將不受硬件和低級(jí)別固件的限制。現(xiàn)在已經(jīng)可以使用這種技術(shù)去構(gòu)建移動(dòng)設(shè)備。

低功耗音頻中樞待機(jī)模式音頻處理能力已經(jīng)突破了語音識(shí)別可用性中一些最關(guān)鍵的瓶頸。雖然去除按鍵是一個(gè)重要的里程碑，但這只是可用于今天移動(dòng)平臺(tái)設(shè)計(jì)的許多語音識(shí)別提升中的一項(xiàng)。但在集成階段選擇了合適的架構(gòu)，就可以支持一種完全自然的溝通風(fēng)格，它極大地改變我們?cè)谖磥韼啄晔褂靡苿?dòng)設(shè)備的方式。

結(jié)束語

在一條通往人機(jī)互動(dòng)領(lǐng)域內(nèi)快速創(chuàng)新的道路正在開啟，這將沿著我們與機(jī)器互動(dòng)的方向引領(lǐng)諸多有趣的開發(fā)活動(dòng)，這些機(jī)器將能夠傾聽我們，而且越來越多地聽懂我們。

新聞中心

與機(jī)器人對(duì)話的語音溝通解決方案

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)