基于智能語音識別的云電視系統(tǒng)設(shè)計

作者：時間：2017-10-22 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　為了提高智能電視的可操作性，文章提出了一種基于智能語音設(shè)別的云電視系統(tǒng)設(shè)計方案。該系統(tǒng)在傳統(tǒng)的智能電視上加入語音輸入和云端網(wǎng)絡(luò)技術(shù)，對語音智能處理之后達(dá)到操作電視的作用，可以通過語音輸入自動查找或者使用電視功能，提高了智能電視的可操作性，讓智能電視使用更方便，適合更多的使用人群。

本文引用地址：http://2s4d.com/article/201710/367685.htm

　　當(dāng)前，隨著計算機(jī)和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展、3c融合的趨勢以及電視機(jī)的數(shù)字化發(fā)展，作為家庭娛樂核心家電的電視機(jī)已經(jīng)開始向智能化多媒體網(wǎng)絡(luò)電視方向發(fā)展。智能網(wǎng)絡(luò)電視機(jī)是一臺多功能的網(wǎng)絡(luò)終端，用戶可以通過該網(wǎng)絡(luò)終端得到諸多信息和服務(wù)，然而伴隨應(yīng)用功能的增加，其操作也隨之變得復(fù)雜。面對智能電視的功能復(fù)雜、操作難問題，僅僅是將電視機(jī)的紙質(zhì)說明書或者做成電子文檔以flash形式在電視機(jī)上進(jìn)行播放，并沒有詳細(xì)的指引用戶操作的導(dǎo)航功能，或者說有詳細(xì)的說明，電視面對的是任何消費(fèi)者，很多功能的操作他們也不是很明白，甚至很多功能都找不到。在電子產(chǎn)品智能化的今天，智能語音設(shè)別是一個熱門話題，該技術(shù)的實現(xiàn)提高了電子產(chǎn)品的可操作性，為用戶帶來了更多的方便。所以設(shè)計一個基于智能語音設(shè)別的電視系統(tǒng)，用語音來實現(xiàn)快速導(dǎo)航到各個需要的功能、信息、服務(wù)等應(yīng)用成為當(dāng)務(wù)之急。

　　本系統(tǒng)為基于智能語音設(shè)別的云電視系統(tǒng)，將輸入的語音數(shù)據(jù)傳輸?shù)诫娨暀C(jī)系統(tǒng)，系統(tǒng)把該模擬語音數(shù)據(jù)預(yù)處理，轉(zhuǎn)化為數(shù)字語音信號，根據(jù)各個模塊需求把數(shù)字語音數(shù)據(jù)發(fā)送到云端，云端經(jīng)過智能語義識別分析處理之后，返回具體的控制指令給電視予以處理。

　　1.系統(tǒng)總體設(shè)計

　　該電視系統(tǒng)結(jié)構(gòu)圖如圖1所示，該系統(tǒng)分三個模塊設(shè)計，語音設(shè)別、電視系統(tǒng)處理、云端處理。在有網(wǎng)絡(luò)連接的情況下，通過麥克錄入語音，再通過語音模塊把錄入的語音轉(zhuǎn)化為特定的語音格式傳輸?shù)皆贫说闹醒敕?wù)器，云端服務(wù)器把傳輸過去的的語音與許多表示特定字符的語音模型進(jìn)行比較，以提供輸入語音所包含特定字符的許多不同可能性。然后，云端服務(wù)器生成一個字符序列，根據(jù)基于字符的語言模型，這個字符序列表示了輸入語音中所包含已知特定字符的特定序列的不同可能性。然后字符序列通過網(wǎng)絡(luò)被傳輸?shù)街醒敕?wù)器，在這里，字符序列生成一個詞匯序列，根據(jù)詞匯表和基于詞匯的語言模型，這個詞匯序列表示了輸入語音中所包含已知特定字符的特定序列的不同可能性。然后，云端服務(wù)器根據(jù)詞匯表確定哪個特定詞匯序列與輸入語音最匹配，并將所確定的詞匯序列經(jīng)由網(wǎng)絡(luò)輸送回終端電視機(jī)系統(tǒng)，電視機(jī)系統(tǒng)再把得到的數(shù)據(jù)分模塊處理（電視機(jī)系統(tǒng)不同模塊有不同的功能）。該電視系統(tǒng)硬件使用MIPS構(gòu)架CPU，配置Linux操作系統(tǒng)。語音通過MIC輸入，設(shè)計有兩路MIC接口，使用標(biāo)準(zhǔn)的網(wǎng)絡(luò)接口用于網(wǎng)絡(luò)通信。

　　2.語音識別系統(tǒng)設(shè)計

　　2.1　語音識別基礎(chǔ)知識

　　語音設(shè)別技術(shù)，也被稱為自動語音設(shè)別，即AutomaTIc Speech RecogniTIon（ASR），其目標(biāo)是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入，例如按鍵、二進(jìn)制編碼或者字符序列。與說話人設(shè)別及說話人確認(rèn)不同，后者嘗試設(shè)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

　　語音識別系統(tǒng)本質(zhì)上是一個模式識別系統(tǒng)。語音識別一般分兩個步驟，第一步是系統(tǒng)“學(xué)習(xí)”或“訓(xùn)練”階段。這一階段的任務(wù)是建立識別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語言模型等。第二步是“識別”或“測試”階段。根據(jù)識別系統(tǒng)的類型選擇能夠滿足要求的一種識別方法，采用語音分析方法提取出這種識別方法所要求的語音特征參數(shù)，按照一定的準(zhǔn)則和測度與系統(tǒng)模型進(jìn)行比較，通過判決得出識別結(jié)果。

　　2.2　語音設(shè)別系統(tǒng)設(shè)計

　　語音設(shè)別系統(tǒng)框圖如圖2所示。首先要把電視機(jī)麥克輸入的模擬語音信號進(jìn)行預(yù)處理，云端需要數(shù)字語音信號，這里預(yù)處理使用語音IC進(jìn)行處理，包括預(yù)濾波、采樣和量化、信號數(shù)字化、加窗、斷點檢測、預(yù)加重等。語音信號經(jīng)過預(yù)處理后，接下來重要的一環(huán)就是特征參數(shù)提取，其目的是從語音波形中提取出隨時間變化的語音特征序列。把特征提取的結(jié)果送到電視機(jī)操作系統(tǒng)中進(jìn)行判斷處理，分析是否需要將其傳送到云端服務(wù)器，云端服務(wù)器在對接收到的語音進(jìn)行智能分析處理之后傳回電視機(jī)終端，進(jìn)行相應(yīng)的功能處理。

　　2.3　云端服務(wù)器智能處理

　　云端服務(wù)器處理主要針對數(shù)字化語音數(shù)據(jù)進(jìn)行分析處理，本系統(tǒng)的功能比較復(fù)雜，語音處理工作量非常大，該設(shè)計基于云計算的服務(wù)器來完成，在服務(wù)器端對語音進(jìn)行分析處理的同時還需要進(jìn)行智能設(shè)別，該智能設(shè)別主要針對本電視機(jī)系統(tǒng)的一些關(guān)鍵字及語音的語義分析，同時對于電視機(jī)的不同模塊進(jìn)行分別處理，來完成使用者所想的功能。使用云計算服務(wù)器可以減少電視機(jī)終端的硬件成本，增加處理速度，來達(dá)到對用戶命令的智能處理。

　　2.3.1　電視機(jī)與云端的傳輸協(xié)議

　　對于特定的電視機(jī)系統(tǒng)，每個模塊具有特定的關(guān)鍵字，在傳輸數(shù)據(jù)到云端的時候，需要傳輸模塊特征和相應(yīng)的語音數(shù)據(jù)。

　　2.3.2　語音訓(xùn)練與識別的主要方法

　　在云端接收到數(shù)據(jù)之后，需要對語音數(shù)據(jù)進(jìn)行設(shè)別。語音訓(xùn)練與識別是一個模式訓(xùn)練和識別的過程。模式訓(xùn)練是指依照一定的規(guī)則，對大量訓(xùn)練信息進(jìn)行處理，獲取能夠反映該信息本質(zhì)特征的模型參數(shù)，將從這些訓(xùn)練信息中得到的模型參數(shù)組合成一個模式庫，而模式匹配則是指依據(jù)一定的規(guī)則規(guī)范，將輸入的未知模式與模式庫中的模式進(jìn)行匹配，從模式庫中尋找一個相似度最高，即最佳匹配的模式。這種訓(xùn)練和匹配的方法有許多種，目前較常見的方法主要有動態(tài)時間規(guī)整（DTW）、隱馬爾可夫鏈（HMM）模型、人工神經(jīng)網(wǎng)絡(luò)（ANN）等。

　　2.3.3　隱馬爾可夫鏈模型

　　本系統(tǒng)用隱馬爾可夫鏈（Hidden Markov Models，HMM）模型來對語音進(jìn)行訓(xùn)練和識別，在隱馬爾可夫鏈模型中，它使用馬爾可夫鏈來模擬信號統(tǒng)計特性的變化，本質(zhì)上它是一個雙重隨機(jī)過程的概率模型。第一重隨機(jī)過程的概率模型是指由馬爾可夫鏈來表示狀態(tài)之間的轉(zhuǎn)移，另外一重隨機(jī)過程的概率模型是指每個狀態(tài)和多個觀測值之間的隨機(jī)對應(yīng)關(guān)系。在實際問題的應(yīng)用中，HMM的雙重隨機(jī)過程觀察者不能直接看到狀態(tài)，只能看到觀察值，且只有利用一個隨機(jī)過程去感知狀態(tài)的存在以及特征。本質(zhì)上說，人類的語言過程也是一個雙重隨機(jī)過程。語音信號本身是一個能夠被觀測到的時變序列，是由人的大腦根據(jù)語法知識和言語的需要而發(fā)出的音素的參數(shù)流，這部分就相對于 HMM模型中不可觀測的各種狀態(tài)。HMM模型可以很好地模擬這個雙重隨機(jī)過程，并且很好地描述了語音信號的局部平穩(wěn)性以及整體的非平穩(wěn)性，是一種描述語音信號的理想模型。

　　2.3.4　智能語音識別

　　此處采用的關(guān)鍵字識別系統(tǒng)為基于連續(xù)語音識別（LVCSR）的關(guān)鍵詞識別系統(tǒng)，如圖3所示，使用這種結(jié)構(gòu)適用于連續(xù)語音關(guān)鍵詞識別系統(tǒng)：語言經(jīng)過連續(xù)語音音節(jié)識別器后，產(chǎn)生相應(yīng)的N-Best詞格或音節(jié)網(wǎng)格，然后使用關(guān)鍵詞搜索算法對網(wǎng)格進(jìn)行關(guān)鍵詞搜索。其過程可以大致分成三步：第一步，搜索語音基元，也就是說通過這次搜索得到輸入語音對應(yīng)的拼音序列。通過連續(xù)解碼，可以得到一個N- Best音節(jié)序列或者音節(jié)的網(wǎng)格。第二步，針對電視機(jī)終端功能模塊選擇不同的關(guān)鍵詞表。第三步，根據(jù)上一步得到的音節(jié)序列和關(guān)鍵詞詞表對照，進(jìn)行關(guān)鍵詞的搜索，得到假象命中（可能成為關(guān)鍵詞的詞）。第四步，根據(jù)其他知識源分析第三步得到的假想命中的置信度，給出關(guān)鍵詞識別的結(jié)果。第五步，對第四步輸出的關(guān)鍵字結(jié)果進(jìn)行智能處理，根據(jù)特定的電視機(jī)系統(tǒng)功能模塊給出最終的輸出結(jié)果。

　　3.電視機(jī)智能語音識別處理軟件流程

　　3.1　錄音檢測

　　電視機(jī)智能語音識別處理流程圖如圖4，在需要使用語音設(shè)別時，首先需要按下錄音鍵，這個時候系統(tǒng)會檢測網(wǎng)絡(luò)是否連接和麥克是否可以正常使用，如果其中有一項檢測失敗，系統(tǒng)不會做錄音工作，提示檢查網(wǎng)絡(luò)或者檢查麥克。

　　3.2　錄音處理

　　在設(shè)備檢測之后，進(jìn)行錄音，由于系統(tǒng)限制，錄音有時間限制，不能太長。電視機(jī)終端把麥克錄下的語音進(jìn)行預(yù)處理和特征提取，然后再把語音和模塊特征一起傳輸?shù)皆贫朔?wù)器，云端服務(wù)器再做細(xì)致的處理，處理之后再把數(shù)據(jù)傳回終端電視機(jī)。

　　3.3　智能功能處理

　　在電視機(jī)終端等待接收數(shù)據(jù)，在5秒之內(nèi)沒有接收到數(shù)據(jù)，視為TIme out，數(shù)據(jù)處理失敗。如果接收到數(shù)據(jù)后做相應(yīng)的處理，在云端就有對各個模塊的關(guān)鍵字識別，將傳回的數(shù)據(jù)再針對相應(yīng)的模塊做判斷處理。比如在主功能界面，如果語音輸入“shezhi”，系統(tǒng)將進(jìn)入設(shè)置界面。或者在影視界面，如果輸入“halibote”，系統(tǒng)會查找哈利波特這部影片。

　　4.實驗應(yīng)用

　　由于電視系統(tǒng)在使用過程中情況比較復(fù)雜，通過語音設(shè)別的準(zhǔn)確率也有一些差異。為了得到相對準(zhǔn)確的數(shù)據(jù)，測試分幾種情況，一種是在電視系統(tǒng)沒有播放audio的時候和在播放audio的時候，另一種是輸入語音的長度不一致的情況。

　　4.1　測試嘈雜環(huán)境試驗

　　這個測試分兩種情況，一種是沒有播放audio的時候（或者說audio mute的時候），一種是在有播放audio的時候（由于audio播放時分貝不一樣，所以以各種嘈雜環(huán)境的綜合值為主），實驗結(jié)果見表1：

　　4.2　測試改變輸入關(guān)鍵字長度試驗

　　本系統(tǒng)為智能語音設(shè)別，需要做智能分析，通過輸入語音來判斷系統(tǒng)的動作，關(guān)鍵是在語音設(shè)別的準(zhǔn)確性和智能識別處理上，而輸入關(guān)鍵字的長度對系統(tǒng)的準(zhǔn)確性判斷相當(dāng)關(guān)鍵。本次實驗就是針對長度不一致的輸入做分析，實驗結(jié)果見表2：

　　從兩個測試來看，系統(tǒng)識別準(zhǔn)確率相當(dāng)高，實驗達(dá)到了預(yù)期的效果。關(guān)鍵是在特殊環(huán)境下進(jìn)行處理時，本系統(tǒng)在識別之后還有關(guān)鍵字和智能處理，以達(dá)到更好的智能處理。

　　5.結(jié)語

　　該系統(tǒng)采用了高效的語音設(shè)別技術(shù)和穩(wěn)定的MIPS硬件平臺為基礎(chǔ)，軟件設(shè)計上以Linux操作系統(tǒng)為基礎(chǔ)，在原有的智能電視系統(tǒng)上使用云計算處理語音數(shù)據(jù)，使之系統(tǒng)處理實時性更高。通過測試表明，該系統(tǒng)能非常準(zhǔn)確地判斷語音輸入，數(shù)據(jù)處理速度快，系統(tǒng)穩(wěn)定性高。此系統(tǒng)達(dá)到了在電視系統(tǒng)中使用智能語音設(shè)別的功能，這樣通過語音操作，大大提高了系統(tǒng)的可操作性，使之使用方便，更加智能化。

新聞中心

基于智能語音識別的云電視系統(tǒng)設(shè)計

評論

相關(guān)推薦

技術(shù)專區(qū)