淺析智能電視語音中控解決方案

作者：刁艷俠（康佳集團(tuán)，廣東深圳 518053）時(shí)間：2022-10-24 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘?要：我們正處在以智能制造為主導(dǎo)的第四次工業(yè)革命的浪潮中，隨著人工智能、信息技術(shù)、生物技術(shù)等新興技術(shù)的興起，制造業(yè)進(jìn)入到了全面智能化轉(zhuǎn)型時(shí)期。如何讓機(jī)器設(shè)備變得更加智能，為人類提供更舒適便捷的服務(wù)，就成為人們不斷探索的課題。語言交流是人與人溝通的基礎(chǔ)，自然而然地，智能語音就成為人與機(jī)器交互的一個(gè)重要載體。在智能電視領(lǐng)域，隨著技術(shù)升級和應(yīng)用場景的不斷拓展，智能語音已經(jīng)成為智能電視的核心能力之一，在人機(jī)交互中占據(jù)了越來越重要的地位。為了提升語音整體性能及業(yè)務(wù)能力，各大廠家不再滿足于第三方語音技術(shù)方案提供的整套服務(wù)，開始加大對智能語音全鏈路的研發(fā)投入，以便對語音功能有更多優(yōu)化和選擇的空間。而在智能語音的整個(gè)鏈路中，云端控制和決策能力又是至關(guān)重要的一環(huán)，所以搭建私有化中控平臺(tái)，成為各大廠家優(yōu)先選擇的方案。

本文引用地址：http://2s4d.com/article/202210/439473.htm

關(guān)鍵詞：智能語音；中控平臺(tái)；自動(dòng)語音識(shí)別；自然語言理解；文本轉(zhuǎn)換

1 前言

隨著智能電視技術(shù)的迭代升級和應(yīng)用場景的不斷拓展，智能語音已經(jīng)成為智能電視的核心能力之一。通過智能語音可以更便捷地完成人與電視的交互，所以智能語音能力的高低，成為評判電視智能化水平的一個(gè)重要標(biāo)準(zhǔn)。隨著語音技術(shù)的進(jìn)步和市場的發(fā)展，通過語音完成簡單的控制指令已不能滿足用戶需求，人們希望可以通過語音實(shí)現(xiàn)更多的功能，而依靠終端設(shè)備軟件升級的方式增加或變更服務(wù)又相對困難。在這種大背景下，各大廠家紛紛建立起私有化語音中控平臺(tái)，希望通過自有中控平臺(tái)持續(xù)優(yōu)化語音技能，靈活地配置語音業(yè)務(wù)。下面就帶大家了解一下智能語音全鏈路處理過程，簡單介紹語音中控平臺(tái)如何搭建以及各模塊的基本作用，最后再講一下語音中控軟件的基本架構(gòu)。

2 語音全鏈路解析

智能語音全鏈路包括端側(cè)能力和云端能力兩個(gè)部分，端側(cè)指智能電視終端，主要負(fù)責(zé)聲音采集并對聲音信號進(jìn)行處理，將音頻信號、文字信息通過云端協(xié)議送至云端處理，并執(zhí)行云端返回的指令或播報(bào)生成的結(jié)果。云端能力包括語音識(shí)別、語義理解、對話管理、資源調(diào)用、回復(fù)生成和語音合成幾個(gè)模塊，負(fù)責(zé)把一句話轉(zhuǎn)成文字，并理解這句話的意圖，完成對應(yīng)的指令并返回相應(yīng)的結(jié)果。語音解析是否智能，能不能準(zhǔn)確理解使用者的意圖，關(guān)鍵就在于云端能力的高低。語音全鏈路結(jié)構(gòu)如圖 1 所示，語音信號被聲音采集模塊收集后，經(jīng)過信號處理模塊的限幅、降噪處理，給到語音喚醒模塊做喚醒詞匹配，匹配成功后把語音送給語音識(shí)別模塊，將聲音信號轉(zhuǎn)成文字信息，再由語義理解模塊解析出關(guān)鍵詞，由對話管理模塊根據(jù)上下文輸入理解用戶意圖，再通過應(yīng)用程序編程接口（application programming interface, API）調(diào)用外部資源，并生成回復(fù)內(nèi)容，返回終端執(zhí)行相關(guān)指令的同時(shí)，播報(bào)由語音合成模塊合成的語音回復(fù)。至此，一個(gè)完整的語音處理鏈路就完成了，當(dāng)有新的語音輸入時(shí) 再重復(fù)以上過程。

2.1 語音識(shí)別

自動(dòng)語音識(shí)別（automatic speech recognition，ASR）是將語音信號轉(zhuǎn)換成文字信息的服務(wù)。語音識(shí)別根據(jù)實(shí)際應(yīng)用場景，選擇合適的聲學(xué)和語言模型，將接收到的語音信號經(jīng)過特征提取、多路解碼、模型計(jì)算、權(quán)重比較后，得到一段置信度較高的文字輸出。通過對聲音信號的分析，也可以獲取使用者的聲紋、情緒狀態(tài)、年齡段等信息；根據(jù)這些數(shù)據(jù)可以對用戶群體進(jìn)行細(xì)分及精細(xì)化運(yùn)營，為用戶提供個(gè)性化服務(wù)的同時(shí)，也能夠提升運(yùn)營質(zhì)量。

2.2 語義理解

在進(jìn)行語音交互的時(shí)候，僅僅把聲音轉(zhuǎn)換成文字是遠(yuǎn)遠(yuǎn)不夠的，必須理解用戶說的是什么意思，因此語義理解服務(wù)是語音交互鏈路中非常重要的一環(huán)。對于用戶的應(yīng)用場景，首先要定義出場景的語義空間，識(shí)別用戶有哪些意圖，然后采集數(shù)據(jù)進(jìn)行意圖識(shí)別和參數(shù)抽取，將輸入的文字進(jìn)行模型處理，輸出文字中的關(guān)鍵信息。這一步就是把人的語言形式轉(zhuǎn)化為機(jī)器可理解的、結(jié)構(gòu)化的、完整的語義表示。

2.3 對話管理

對話管理控制著人機(jī)對話交互的過程，依據(jù)對話歷史信息和當(dāng)前用戶輸入，決定系統(tǒng)對用戶輸入的反應(yīng)，這也是多輪對話的基礎(chǔ)。在復(fù)雜任務(wù)完成的過程中，當(dāng)用戶的輸入不夠具體或明確時(shí)，系統(tǒng)通過對話管理對用戶的需求進(jìn)行詢問、澄清或確認(rèn)來明確用戶的真實(shí)意圖，完成用戶的請求。對話管理包含對話狀態(tài)跟蹤、響應(yīng)決策、語義槽填充、上下文管理、指代消歧等功能。

2.4 回復(fù)生成

根據(jù)上下文語境，結(jié)合用戶實(shí)際使用場景進(jìn)行定義，對執(zhí)行用戶輸入結(jié)果給出反饋文字或動(dòng)作。回復(fù)生成包含本地命令、控件定義、對話回復(fù)、默認(rèn)播報(bào)、錯(cuò)誤播報(bào)、對話控制等功能。

2.5 語音合成

語音合成是把文字信息轉(zhuǎn)成標(biāo)準(zhǔn)語音輸出的過程，相當(dāng)于給設(shè)備裝上了“嘴巴”。語音是否流暢、音色是否優(yōu)美動(dòng)聽，就是由這個(gè)模塊決定的。通過一定的數(shù)據(jù)輸入和模型訓(xùn)練，可以合成特定人物的聲音，讓人和設(shè)備的互動(dòng)更和諧。

3 語音中控平臺(tái)搭建

3.1 企業(yè)中控平臺(tái)構(gòu)建

在講語音中控平臺(tái)之前，先要看一下企業(yè)中控平臺(tái)的基本架構(gòu)，因?yàn)檎Z音中控隸屬于企業(yè)中控，是云端大平臺(tái)的一部分。一般企業(yè)云端控制平臺(tái)會(huì)兼容多種業(yè)務(wù)需求，除了語音業(yè)務(wù)需求外，大多還要滿足圖像識(shí)別、AIoT（AI IOT，人工智能物聯(lián)網(wǎng)）等其他智能業(yè)務(wù)需求。企業(yè)云端控制平臺(tái)可以根據(jù)業(yè)務(wù)需求靈活定制，如圖 2 所示，展示了一種云端中控平臺(tái)的基本架構(gòu)和與外部模塊之間的關(guān)系。企業(yè)中控平臺(tái)包括鑒權(quán)網(wǎng)關(guān)、控制引擎、決策引擎等控制模塊，以及只為具體業(yè)務(wù)服務(wù)的單元模塊，如圖 2 中自動(dòng)語音識(shí)別和語義處理平臺(tái)、圖像識(shí)別平臺(tái)、AIoT 平臺(tái)，分別為語音業(yè)務(wù)、圖像識(shí)別業(yè)務(wù)和AIoT 業(yè)務(wù)服務(wù)。通過自有企業(yè)云端中控平臺(tái)的整體控制，不僅可以很方便地實(shí)現(xiàn)對各個(gè)業(yè)務(wù)單元的靈活配置，還可以促進(jìn)各種技術(shù)的融合和復(fù)用，推動(dòng)終端產(chǎn)品性能和用戶體驗(yàn)的提升。

圖2 企業(yè)中控平臺(tái)內(nèi)外部模塊關(guān)系

3.2 語音中控平臺(tái)架構(gòu)

在語音全鏈路的處理過程中，云端的能力非常重要，決定著語音處理結(jié)果是否智能，所以云端又被稱為智能語音的大腦。我們所說的企業(yè)自有語音中控平臺(tái)建設(shè)，主要是指建立云端語音處理和控制平臺(tái)。按功能實(shí)現(xiàn)可以把語音中控平臺(tái)劃分成四個(gè)大模塊，分別是語音識(shí)別、語義理解、意圖決策和技能分發(fā) / 決策模塊，各個(gè)模塊之間的關(guān)系如圖 3 所示，遠(yuǎn)場拾音模塊拾音后給到信號處理模塊對語音信號進(jìn)行處理，然后把語音信號送給語音識(shí)別模塊，將聲音信號轉(zhuǎn)換成文本信息。這里遠(yuǎn)近場處理方式略有不同，近場語音拾音后直接輸出給語音識(shí)別模塊。轉(zhuǎn)換出來的文本信息通過語義理解模塊的解析、意圖決策和技能分發(fā)模塊的處理，把處理結(jié)果返回給終端設(shè)備，呈現(xiàn)具體信息或者執(zhí)行相關(guān)動(dòng)作。

在語音中控平臺(tái)的四個(gè)模塊中，自動(dòng)語音識(shí)別模塊負(fù)責(zé)將音頻信號轉(zhuǎn)換成文本信息，功能相對比較單一，前文也有介紹，這里不再贅述。語義理解、意圖決策、技能分發(fā) / 決策模塊功能相對復(fù)雜，也是語音中控的核心能力，各模塊細(xì)分功能如圖 4 所示。語義理解模塊包括 Query 分析、場景分類、意圖識(shí)別、上下文識(shí)別、模板干預(yù)和槽位提取功能，一段語音信息通過槽位提取關(guān)鍵詞后，根據(jù)不同的場景對意圖進(jìn)行分類，并結(jié)合上下文理解調(diào)整意圖，從而準(zhǔn)確判定一句話的真實(shí)意圖。具備了槽位提取能力以后，在新業(yè)務(wù)拓展時(shí)可以脫離對第三方技能語言理解能力的依賴，實(shí)現(xiàn)靈活對接第三方業(yè)務(wù)，也可以根據(jù)業(yè)務(wù)需求自行訓(xùn)練對應(yīng)槽位，方便新業(yè)務(wù)的開展。同時(shí)，根據(jù)場景對槽位進(jìn)行細(xì)分后，可以實(shí)現(xiàn)對特定人群和使用場景的定制，提高服務(wù)的精準(zhǔn)度以及運(yùn)營轉(zhuǎn)化率。意圖決策模塊包括多意圖決策、上下文決策、個(gè)性化干預(yù)和用戶畫像生成幾部分，主要是根據(jù)用戶使用習(xí)慣，結(jié)合上下文對意圖進(jìn)行干預(yù)，從多個(gè)意圖中選出最能匹配用戶場景的意圖，提高意圖的準(zhǔn)確度。技能分發(fā) / 決策模塊通過數(shù)據(jù)模型或人工干預(yù)的方式對決策結(jié)果進(jìn)行選擇，從而控制意圖的分發(fā)，實(shí)現(xiàn)對第三方內(nèi)容資源的靈活對接。

圖4 語音中控核心模塊

4 語音中控平臺(tái)軟件架構(gòu)

語音中控平臺(tái)軟件在架構(gòu)上主要分為三層，分別是底層技術(shù)層、核心能力層和需要二次開發(fā)的對接層，層級結(jié)構(gòu)如圖 5 所示。底層技術(shù)包括深度學(xué)習(xí)算法、語音識(shí)別技術(shù)、自然語言處理和基礎(chǔ)數(shù)據(jù)模型，這部分是智能語音的基礎(chǔ)技術(shù)，專業(yè)性較強(qiáng)，一般不需要特殊定制，可以借助第三方成熟的技術(shù)方案。核心能力層包括場景分類、意圖識(shí)別、槽位提取、上下文判定、決策和技能分發(fā)、用戶畫像及個(gè)性化推薦模塊，囊括了語音云端處理所有核心功能，語音處理上的性能優(yōu)化和差異化功能的定制開發(fā)，都需要在這一層實(shí)現(xiàn)。在核心能力層之上的服務(wù)對接、模型訓(xùn)練、決策配置和數(shù)據(jù)分析模塊，用來對接具體業(yè)務(wù)和服務(wù)，需要根據(jù)具體業(yè)務(wù)需求做二次開發(fā)。這一層要實(shí)現(xiàn)多種服務(wù)的靈活對接，對業(yè)務(wù)數(shù)據(jù)進(jìn)行分析及模型訓(xùn)練，并根據(jù)業(yè)務(wù)類型和用戶使用場景制定適當(dāng)?shù)臎Q策機(jī)制，完成復(fù)雜或者具有多重語義語句的功能匹配。

5 結(jié)語

本文給出了一種搭建企業(yè)私有化語音中控平臺(tái)的方案，在整個(gè)語音鏈路中，語音中控占據(jù)了舉足輕重的位置。通過搭建自有語音中控平臺(tái)，可以在不打擾用戶的情況下通過云端靈活配置第三方服務(wù)和技能，提升智能語音優(yōu)化迭代的速度，還可以根據(jù)具體業(yè)務(wù)和用戶使用場景定制語音技能，為用戶打造具有特色的語音服務(wù)。另外，使用私有語音中控平臺(tái)，能夠更加方便地管理用戶數(shù)據(jù)，并保障語音數(shù)據(jù)的安全。所以，不管從資源整合、性能提升還是業(yè)務(wù)拓展等方面考慮，建立私有化中控平臺(tái)都是大企業(yè)的未來趨勢。

參考文獻(xiàn)：

[1]?郭晶晶.語音識(shí)別技術(shù)發(fā)展對推廣普通話的意義[J].傳播力研究,2020(18).

[2]?杜靈君,武曉島.語音識(shí)別技術(shù)全球?qū)＠季众厔輀J].科技中國,2021(12).

[3]?張大林,任萱,徐藝敏,等.企業(yè)內(nèi)網(wǎng)系統(tǒng)語音識(shí)別技術(shù)的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2021(12).

[4]?袁冰清,于淦,周霞.淺說語音識(shí)別技術(shù)[J].數(shù)字通信世界,2020(02).

[5]?張昱,高凌燕,胡虎安,等.智能語音識(shí)別技術(shù)在郵政快遞柜中的應(yīng)用研究[J].電子世界,2020(04).

[6]?李博麗.傳統(tǒng)計(jì)算機(jī)語音識(shí)別技術(shù)中的數(shù)學(xué)[J].花炮科技與市場,2020(02).

[7]?郝歐亞,吳璇,劉榮凱.智能語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀與應(yīng)用前景[J].電聲技術(shù),2020(03).

[8]?彭洪松,李洪斌,李莉,等.人工智能中遠(yuǎn)場語音識(shí)別技術(shù)的研究[J].數(shù)字通信世界,2020(05).

[9]?于曉明.語音識(shí)別技術(shù)的發(fā)展及應(yīng)用[J].計(jì)算機(jī)時(shí)代,2019(11).

[10]?田建勇,劉松,李洲越,等.智能語音提醒系統(tǒng)的設(shè)計(jì)分析[J].電腦知識(shí)與技術(shù),2020(20).

[11?]?李亞銘,李陽.智媒體時(shí)代人工智能在電視行業(yè)的應(yīng)用研究[J].出版廣角,2019(03).