新聞中心

EEPW首頁 > 電源與新能源 > 設(shè)計應(yīng)用 > 與機器人對話的語音溝通解決方案

與機器人對話的語音溝通解決方案

作者: 時間:2016-12-08 來源:網(wǎng)絡(luò) 收藏

語音也許是人類最自然的交流方式,但是將一臺機器引入到該過程則產(chǎn)生了對新的行為協(xié)議的需求,特別是在語音溝通過程中沒有另一方持續(xù)視覺線索的時候更為重要。因此值得去在一個比傳統(tǒng)案例更為廣泛的意義上去定義語音控制的“性能”.

本文引用地址:http://2s4d.com/article/201612/327782.htm

語音也許是人類最自然的交流方式,但是將一臺機器引入到該過程則產(chǎn)生了對新的行為協(xié)議的需求,特別是在語音溝通過程中沒有另一方持續(xù)視覺線索的時候更為重要。對于早期的用戶,第一次電話通話是極不順暢的;而且即使在今天,雙向無線電臺的斷續(xù)通話方式也要求新用戶進行一些調(diào)整。在這兩種情況下,很快就發(fā)展出來一些常用的方法來實現(xiàn)相當自然的溝通方式,主要是因為通話的另一方也是人類。隨著移動用戶面臨新的語音識別界面,他們將面臨與使用那些很老的通信手段時所出現(xiàn)的類似挑戰(zhàn)。

一個更近期的例子是,觸摸屏革命展示出了它們?nèi)绻軐崿F(xiàn)高品質(zhì)同時具有可為用戶體驗帶來附件價值的功能時,新的、陌生的、棘手的界面如何切入到主流應(yīng)用并且受到歡迎。

因此值得去在一個比傳統(tǒng)案例更為廣泛的意義上去定義語音控制的“性能”.因而能夠在考慮到下一代瓶頸時,設(shè)計出更多不會過時的解決方案。

構(gòu)建一種高性能的語音識別解決方案

過去一直用非常簡單的性能指標來評估語音識別解決方案。這些指標通常被換算為單獨的“精度”或者“命中率”數(shù)值,從根本上來表述正確識別字和詞組的概率。在定義“性能”時,需要一種更廣泛的和深思熟慮的方式,它能夠反映語音界面的長期發(fā)展?jié)摿Γ员阆蛴脩籼峁┫裼|屏界面一樣的舒適性和可用性等級。

翻譯質(zhì)量扮演了一個關(guān)鍵的角色,從根本上講它是一種人工智能,遠不止基本的字詞識別。訪問所有設(shè)備功能也使語音識別成為了觸摸屏的一種切實可行的替代方案,有趣的是這也使該技術(shù)可用于一個更大范圍的設(shè)備種類,包括像可穿戴技術(shù)這樣更小的設(shè)備。低響應(yīng)延遲以及一種自然的、“無協(xié)議的”的交互方式,以及即使在有噪音環(huán)境中也能很好地運行,也改善了體驗。這要求精心的系統(tǒng)設(shè)計,以使設(shè)備級的信號處理技術(shù)能夠與基于云計算的智能很好地結(jié)合,以將這些性能增強帶給用戶。

去除按鍵

語音識別目前最大的人體工程學(xué)局限性是需要進行按鍵或者其它機械性啟動,從而限制了它在許多環(huán)境中的可用性。這種機械觸發(fā)是功耗這一制約因素的終極結(jié)果。為了保持具有競爭力的電池壽命數(shù)值,移動設(shè)備中待機功耗的預(yù)算都極低,典型的電池電流值為單位數(shù)毫安。當功率預(yù)算這么低的時候,連續(xù)地運行語音識別(或者至少隨意的語音識別)是不可行的。

到目前為止,一個按鍵觸發(fā)器為這個問題提供了一種粗放的解決方案,它通過在按下按鍵之前禁用語音識別,使功率消耗平均值降到最低。但是,現(xiàn)今的語音觸發(fā)功能作為一種特性正在被加載到最新的高端音頻中樞(AudioHubs)上,因為OEM廠商希望語音識別功能能夠更靈活、更易于使用。通過顯著地降低語音識別的平均功耗數(shù)值,甚至降到待機模式預(yù)算范圍內(nèi)這樣的水平,允許主處理器“休眠”.這種功耗降低(通常為一個數(shù)量級)是如此的顯著,以至于可以完全消除對按鍵的需要。

語音觸發(fā)器架構(gòu)的選擇

一次語音觸發(fā)是一個簡短的關(guān)鍵字或者詞(例如“你好!手機”),它能夠使設(shè)備被喚醒并且響應(yīng)后面輸入的語音。圖1所示即為這種半自主的低功耗的“永遠工作”的處理域,它為這種語音觸發(fā)提供了一個平臺。

圖1:使用了一個音頻中樞的永遠工作的語音觸發(fā)。

音頻中樞為語音觸發(fā)功能提供了一個自然的中心,它帶有通往所有內(nèi)部功能和耳機麥克風端口的接口,并且在待機模式下通常也在運行,這是因為需要處理像附件接口監(jiān)控其它原因。這個降低了系統(tǒng)中諸如時鐘發(fā)生器和電壓參考等常用基礎(chǔ)功能的重復(fù)率,降低了靜態(tài)功耗。音頻中樞里針對語音喚醒的硬件優(yōu)化使信號處理周期針對不同環(huán)境的噪聲情況將被保持在絕對的最低值,將平均電池電流最小化。

可相互替代的架構(gòu)分成兩類:分離式解決方案和基于系統(tǒng)級芯片(SoC)語音的觸發(fā)。其功率消耗情況和用戶交互方式在很大程度上依賴于對這些架構(gòu)的選擇。軟件架構(gòu),尤其是管理應(yīng)用場景轉(zhuǎn)換和串行端口配置的軟件,也在確定交流方式中扮演著一個重要的角色。

基于系統(tǒng)級芯片(SoC)的語音觸發(fā)器(如圖2)往往因為主要的中央處理單元持續(xù)活躍而引起的非常高的靜態(tài)功耗開銷。這些解決方案的電池電流消耗通常比那些基于音頻中樞的解決方案高出一個數(shù)量級。

圖2:基于SoC的語音觸發(fā)模式。

分離式解決方案(如圖3)通常使用來自主音頻通道的不同的硬件接口。這有時可以導(dǎo)致音頻不持續(xù),原因在于應(yīng)用場景轉(zhuǎn)換管理和噪音抑制的啟用/禁用等在不同的集成電路間,因為延遲和信號格式不同等因素而變得復(fù)雜。這些不連續(xù)有時會引起通話被中斷,尤其是在轉(zhuǎn)換到工作模式運行發(fā)生時,從而導(dǎo)致了對可聽見提示的需要并限制了交流方式。在一些情況,因為連接到有限數(shù)量的麥克風也能限制其使用性(例如耳機麥克風的操作)。

圖3:分離式語音觸發(fā)解決方案。

確保更好的用戶體驗

由于所有技術(shù)創(chuàng)新都是從根本上改變用戶與消費電子設(shè)備交互的方式,衡量成功的真正標準是用戶對他們所期望的改變的回應(yīng)。參考觸摸屏案例,新的語音控制技術(shù)的最終目標是它們應(yīng)該成為下一代移動硬件可接受的和所預(yù)期的一項功能。我們將可能非??炀蛯W(xué)會如何與新一代能夠響應(yīng)語音的機器進行交互,其方式與我們在觸摸屏中開發(fā)出來的直觀熟悉性大致相同,直到像觸摸功能已經(jīng)成為進入市場的新設(shè)備的一個標準功能這樣的程度。

盡管如此,不同于較早的在遠端也是人類的語音通信技術(shù),仍然不確定的是用戶在熟悉技術(shù)的行為特性后,是否將受益于與其設(shè)備進行了有用的或有趣的溝通。這在很大程度上取決于該技術(shù)的性能,但是今天用來衡量語音識別性能的標準仍然很粗放,并且不足以用來描述未來代系語音識別系統(tǒng)的有效性。考慮到更高級別的機器智能化、與系統(tǒng)其余部分的交互,以及與云計算的交互,還需要一種更廣泛的方式。一種不會限制或者延遲下一代改善的音頻架構(gòu),能夠使這些性能跨越更加迅速地發(fā)生,很大程度上將不受硬件和低級別固件的限制?,F(xiàn)在已經(jīng)可以使用這種技術(shù)去構(gòu)建移動設(shè)備。

低功耗音頻中樞待機模式音頻處理能力已經(jīng)突破了語音識別可用性中一些最關(guān)鍵的瓶頸。雖然去除按鍵是一個重要的里程碑,但這只是可用于今天移動平臺設(shè)計的許多語音識別提升中的一項。但在集成階段選擇了合適的架構(gòu),就可以支持一種完全自然的溝通風格,它極大地改變我們在未來幾年使用移動設(shè)備的方式。

結(jié)束語

在一條通往人機互動領(lǐng)域內(nèi)快速創(chuàng)新的道路正在開啟,這將沿著我們與機器互動的方向引領(lǐng)諸多有趣的開發(fā)活動,這些機器將能夠傾聽我們,而且越來越多地聽懂我們。



關(guān)鍵詞: 機器人對

評論


技術(shù)專區(qū)

關(guān)閉