一種基于語音交互應(yīng)用的全時AI電視系統(tǒng)設(shè)計方案

作者：洪文生,徐遙令,沈思寬,艾倩(深圳創(chuàng)維-RGB電子有限公司研究院,深圳 518108) 時間：2022-01-24 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：提出一種基于語音交互應(yīng)用的全時AI電視系統(tǒng)設(shè)計方案，詳細闡述了系統(tǒng)工作原理及AI語音交互、AI待機交互、線性陣列麥克風(fēng)模塊和防反射收音管道設(shè)計關(guān)鍵技術(shù)；系統(tǒng)在開機和AI待機狀態(tài)時均可進行AI語音交互，實現(xiàn)不間斷全時語音交互，同時AI待機語音交互功率低，系統(tǒng)語音交互準確性和識別率高。該方案已應(yīng)用于創(chuàng)維全時AI電視產(chǎn)品，效果良好，產(chǎn)生了良好效益。

以人為中心的身體、姿態(tài)、動作、表情、語音識別技術(shù)的自然人機交互已開始應(yīng)用于智能電視^[1]。聲音可最自然和直接地訪問信息和交換信息，語音信息輸入、識別和實現(xiàn)，可以大大降低用戶的通信成本，豐富人機交互^[2]。語音識別技術(shù)是通過對語音信號特征的提取，使用不同的模式對其進行匹配，最終將語音信號轉(zhuǎn)化成為文本內(nèi)容或者命令的技術(shù)^[3]。

本文引用地址：http://2s4d.com/article/202201/431104.htm

語音交互作為最符合人機交互的方式之一，逐步成為電視等智能硬件的“標配”，并使語音搜索成為了主流的AI（artificial intelligence，AI）技術(shù)^[4]。AI 語音技術(shù)在智能電視上應(yīng)用，需要24 h 全時段支持交互功能，不管是開機狀態(tài)還是待機狀態(tài)，都要能夠接收和處理語音、實現(xiàn)交互，為人們提供高品質(zhì)和便捷的交互服務(wù)。

本文提出一種基于語音交互應(yīng)用的全時AI 電視系統(tǒng)設(shè)計方案，闡述了系統(tǒng)工作原理及AI 語音交互、AI待機交互、線性陣列麥克風(fēng)模塊和防反射收音管道設(shè)計工藝關(guān)鍵技術(shù)；系統(tǒng)在開機和AI 待機狀態(tài)時均可進行AI 語音交互、實現(xiàn)不間斷全時語音交互，同時AI 待機時的交互功率低，采用線性陣列麥克風(fēng)和防反射收音管道設(shè)計實現(xiàn)良好的收音效果，系統(tǒng)語音交互的準確性和識別率高。該方案已用于創(chuàng)維全時AI 電視產(chǎn)品，得到了良好應(yīng)用。

1 系統(tǒng)原理

基于語音交互應(yīng)用的全時AI 電視系統(tǒng)由全時和分時工作模塊組成，框圖如圖1 所示。全時工作模塊包括陣列麥克風(fēng)、語音DSP、互聯(lián)網(wǎng)功能、語音處理部分及電源管理模塊；分時工作模塊包括顯示處理、視頻處理、音頻處理及其他電視處理模塊。

圖1 系統(tǒng)組成

全時AI 電視系統(tǒng)有三種狀態(tài)：開機、AI 待機和深度待機。開機時，全時工作模塊和分時工作模塊處于工作狀態(tài)，電視可以進行語音交互、音視頻播放等；AI待機時，全時工作模塊處于工作狀態(tài)，而分時工作模塊處于關(guān)閉狀態(tài)，此時僅語音交互相關(guān)的模塊處于工作狀態(tài)，其他模塊基本不消耗電能，在保持正常語音交互的情況下實現(xiàn)了低功耗；深度待機時，全時工作模塊和分時工作模塊都處于關(guān)閉狀態(tài)，此時功耗極低，但無法進行語音交互。

全時AI 電視系統(tǒng)的待機流程如圖2 所示。電視在開機狀態(tài)時，可以進行AI 語音交互、音視頻播放等，接收遙控器、按鍵、語音或手機等設(shè)備發(fā)出的待機指令，如果此時系統(tǒng)設(shè)置為AI 待機且網(wǎng)絡(luò)連通，將先關(guān)閉分時工作模塊，然后進入AI 待機狀態(tài)；否則依次關(guān)閉分時和全時工作模塊，然后進入深度待機狀態(tài)。在AI 待機時，可以進行AI 語音交互、響應(yīng)語音指令，打開分時工作模塊的部分功能，進行語音響應(yīng)播報聲音；可以通過語音喚醒電視或傳統(tǒng)遙控方式快速喚醒電視，使電視系統(tǒng)不需要重啟而迅速進入開機狀態(tài)；還可設(shè)定特定條件（如長時間未進行AI 語音交互時）自動切換至深度待機狀態(tài)，以節(jié)省能耗。在深度待機時，不響應(yīng)AI語音交互，且必須通過傳統(tǒng)的遙控或按鍵開機指令使系統(tǒng)重啟后進入開機狀態(tài)。

圖2 系統(tǒng)待機實現(xiàn)流程

2 關(guān)鍵技術(shù)

1）AI 語音交互技術(shù)

AI 語音交互技術(shù)原理框圖由全時AI 電視系統(tǒng)、網(wǎng)絡(luò)、服務(wù)器系統(tǒng)組成，如圖3 所示。其中，全時AI 電視系統(tǒng)包括聲音采集、聲音提取及增強、人聲識別與語音檢測等模塊；服務(wù)器系統(tǒng)包括語音識別、邏輯轉(zhuǎn)換等模塊。

圖3 AI語音交互原理框圖

全時AI 電視系統(tǒng)通過聲音采集模塊采集聲音（包括環(huán)境噪聲、人聲、及電視喇叭聲音等），進行降噪等預(yù)處理后得到聲音信號，然后對聲音信號進行回音消除、去混響、聲音提取和增強等處理，以及進行人聲識別及人聲端點語音檢測，獲取人聲語音信息，然后將語音編碼、調(diào)制后通過網(wǎng)絡(luò)傳送給服務(wù)器系統(tǒng)；服務(wù)器系統(tǒng)接收語音后，進行語音識別和邏輯處理等，向全時AI 電視系統(tǒng)反饋語音代表的語義等信息；全時AI 電視系統(tǒng)接收到反饋信息后，進行解碼處理并生成電視系統(tǒng)的執(zhí)行指令，控制電視系統(tǒng)的模塊工作，完成AI 語音交互。

2）AI 待機交互技術(shù)

由系統(tǒng)原理闡述可知，在AI 待機時分時工作模塊進入關(guān)閉狀態(tài)。而在AI 待機過程中，為滿足良好人機交互需要、同時要兼顧低功率消耗，根據(jù)AI 交互不同的指令，在交互時需要合理啟動分時工作模塊的部分功能進入工作狀態(tài)。AI 交互指令及處理功能工作狀態(tài)如圖4 所示。

圖4 AI待機時指令及處理功能工作狀態(tài)

AI 待機交互技術(shù)設(shè)計原理為：①當(dāng)AI 語音為音頻指令時，需合理開啟音頻處理功能；如語音輸入“今天天氣怎么樣”，電視系統(tǒng)收到服務(wù)器系統(tǒng)的反饋信息并生成及執(zhí)行指令，立即開啟音頻播放功能進行天氣播報；如語音輸入“播放音樂”，電視系統(tǒng)收到服務(wù)器系統(tǒng)的反饋信息并生成及執(zhí)行指令，立即開啟音樂播放器和音頻播放功能播放音樂。②當(dāng)AI 語音為視頻指令時，需合理開啟視頻和顯示處理及音頻處理功能；如語音輸入“播放中央一套”，電視系統(tǒng)收到服務(wù)器系統(tǒng)的反饋信息并生成及執(zhí)行指令，立即開啟視頻播放功能和打開電視屏幕顯示及開啟音頻播放功能，進行央視一套節(jié)目播放。③當(dāng)接收到遙控或按鍵指令時，需合理開啟顯示或音頻處理功能；如指令為待機，需要立即開啟顯示功能；如為音量加減，則僅開啟音頻處理的音量調(diào)節(jié)功能而不開啟顯示功能。在特定或設(shè)定場景下，如果未檢測到AI 語音交互或遙控等指令，系統(tǒng)可以由AI 待機狀態(tài)進入深度待機狀態(tài)。

3）線性陣列麥克風(fēng)模塊及工藝

麥克風(fēng)設(shè)計是影響全時AI 電視系統(tǒng)語音交互準確性和精度的重要因素之一，系統(tǒng)采用線性陣列麥克風(fēng)模塊及防反射收音管道設(shè)計工藝。

線性陣列麥克風(fēng)示意圖如圖5 所示，采用4 個指向MEMS 麥克風(fēng)排列成線型，各麥克風(fēng)之間間距D ≥ 3 cm、麥克風(fēng)拾音孔深度和直徑N≤ 4∶1，具有良好的拾音范圍和語音定向增強，能夠有效消除回音。

圖5 線性陣列麥克風(fēng)布示意圖

防反射收音管道設(shè)計示意圖如圖6 所示，由導(dǎo)音管、密封圈、吸音膜及麥克風(fēng)組成。防反射收音管道的導(dǎo)音管開孔大于麥克風(fēng)收音孔20% 以上、保證收音范圍較廣；密封圈采用硅膠材質(zhì)，與導(dǎo)音管下表面精密配合，為防止聲音反射，采用吸音膜來吸收未進入麥克風(fēng)收音孔的聲音，吸音膜吸收音頻頻率范圍大于人聲的頻率范圍，即大于20 Hz ～ 20 kHz，確保每個頻段的聲音都能很好衰減；防反射收音管道能夠有效防止聲音反射問題，同時確保收音范圍廣，獲取高質(zhì)量音頻。

圖6 防反射收音管道設(shè)計示意圖

3 系統(tǒng)應(yīng)用

全時AI 電視系統(tǒng)設(shè)計方案已經(jīng)在多個電視產(chǎn)品中應(yīng)用，涵蓋43 ～ 86 英寸（注：1 英寸=2.54 cm），包括創(chuàng)維電視Q40、Q51、S81、S9A 等產(chǎn)品系列。產(chǎn)品內(nèi)置線性陣列麥克風(fēng)，支持良好的全時AI 語音交互體驗，市場銷售規(guī)模超過百萬臺。

以65 英寸電視產(chǎn)品為例，AI 待機時功率約16 W，從AI 待機狀態(tài)進入開機狀態(tài)的時間約2 s，支持遠距離語音交互：3 m 內(nèi)喚醒率99%、識別率95%，8 m 喚醒率95%、識別率93%。

4 結(jié)束語

文章提出一種基于語音交互應(yīng)用的全時AI 電視系統(tǒng)設(shè)計方案，闡述了系統(tǒng)工作原理及AI 語音交互、AI待機交互、線性陣列麥克風(fēng)模塊和防反射收音管道設(shè)計工藝關(guān)鍵技術(shù)；系統(tǒng)在開機和AI 待機狀態(tài)時均可進行AI 語音交互，并實現(xiàn)不間斷全時語音交互；同時AI 待機時的語音交互功率低，并采用線性陣列麥克風(fēng)和防反射收音管道設(shè)計實現(xiàn)良好的收音效果，系統(tǒng)語音交互的準確性和識別率高。該方案已應(yīng)用于創(chuàng)維全時AI 電視產(chǎn)品，效果良好，產(chǎn)生了良好經(jīng)濟社會效益。

參考文獻：

[1]任飛.智能電視軟件平臺關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2013.

[2]汪文弈.智能電視語音交互系統(tǒng)的研究與設(shè)計[D].成都:電子科技大學(xué)，2017.

[3]王景山.基于語音交互的電視節(jié)目點播系統(tǒng)[D].蘭州:蘭州大學(xué),2016.

[4]章金水.AI客廳語音入口探索與實踐[J].數(shù)字通信世界，2020,44(3):24-26.

------------------------

作者簡介：洪文生，高級工程師，副總經(jīng)理。2001年至今，在創(chuàng)維研究院從事電視技術(shù)研究和產(chǎn)品開發(fā)工作，主導(dǎo)完成創(chuàng)維AI智能電視、OLED電視、超高清電視等技術(shù)和產(chǎn)品研發(fā)，主持過工信部電子基金、深圳市重大技術(shù)攻關(guān)等科研項目。

通訊作者：徐遙令，教授級高級工程師，碩士。2006年至今，從事電視技術(shù)研究開發(fā)及項目管理工作，主持過廣東省產(chǎn)業(yè)集聚、深圳市戰(zhàn)略新興等科研項目。E-mail：xuyaoling@skyworth.com。

沈思寬，教授級高級工程師，博士。2004至今，從事電視技術(shù)研究開發(fā)及項目管理工作，主持過工信部電子基金、廣東省戰(zhàn)略新興、深圳市技術(shù)攻關(guān)等科研項目。

艾倩（1988—），碩士。2016至今，主要從事項目技術(shù)管理工作。

-----------------------------

（本文來源于《電子產(chǎn)品世界》雜志2022年1月期）

新聞中心

一種基于語音交互應(yīng)用的全時AI電視系統(tǒng)設(shè)計方案

評論

相關(guān)推薦

技術(shù)專區(qū)