基于聲紋識別的通用語音控制系統(tǒng)設計
1.1.背景
本文引用地址:http://2s4d.com/article/201612/326317.htm隨著物聯(lián)網(wǎng)的發(fā)展,對家庭電器的控制將會有更多的發(fā)展,而語音作為一種自然簡單的方法將是一種有效便捷的控制方式。聲音不僅可以傳達指令,還能與聲紋識別的安全系統(tǒng)結合,如果可以把語音控制與安全控制結合起來,系統(tǒng)就變得更自然直接更人性化了。
在本設計就是希望通過設計出一個通用的系統(tǒng)為將來的這些應用實現(xiàn)基本的框架。
1.2.編寫目的
進入21世紀以來,隨著科學技術的突飛進展,語音識別與確認技術也逐漸的走向成熟,基于語音識別技術的對話控制系統(tǒng)受到了越來越多的關注。直接用聲音來發(fā)出控制指令,讓機器能“聽懂”你的話,執(zhí)行相應的命令。本設計目的在于能夠實現(xiàn)一個比較通用的語音控制系統(tǒng),為了能更好地示例,在本文的設計中選擇使用數(shù)字0-9(中文發(fā)音)十個控制語音來控制Linux系統(tǒng)下的ls等5個命令,通過說出命令對應的數(shù)字來選擇相應命令操作,從而達到執(zhí)行命令程序的目的。語音識別識別系統(tǒng)可以使人機交互更為方便,更加智能。
1.3.定義
GVCS: General Voice Control System,即通用語音控制系統(tǒng)。
SI: Speaker-Independent,與說話者無關的語音識別技術;
SD: Speaker-Dependent, 與說話者有關的語音識別技術;
SV: Speaker Verification, 語音確認;
2.1.項目目標
符合SMART原則
Specific明確的陳述:整個通用語音管理系統(tǒng)的實現(xiàn)。
Measurable可以衡量的結果:通用語音控制系統(tǒng)對機器的控制結果。
Attainable可以達成的目標:對機器設備控制的智能化。
Relevant任務相關性:只完成語音控制所需要的實現(xiàn)
Time-based時限性:在規(guī)定的時間內成項目計劃
遵循質量控制管理
項目將嚴格進行質量管理控制,對每一個步驟都建立相對完善的文檔,嚴格按照流程進行,完成系統(tǒng)功能的同時提高系統(tǒng)性能,增強系統(tǒng)的可維護性。
2.2.產(chǎn)品目標與范圍
本項目主要是為了實現(xiàn)對機器設備控制的智能化,從而選擇使用Digilent Cerebot™ 32MX4開發(fā)板設計一套通用語音控制系統(tǒng),該系統(tǒng)主要應用在家庭電器設備和工業(yè)控制等領域。
Chapter 3.可行性分析
3.1.實用可行性
本設計的主要目的是能建立一個通用的語音控制系統(tǒng),只要對系統(tǒng)進行相關的配置和擴展之后就能夠應用到各種應用中。通過這一個系統(tǒng)可以實現(xiàn)對電器、軟件等的語音控制。
這一系統(tǒng)的應用可以使對機器的操作方便高效,,同時也可以完善用的操作體驗。
3.2.技術可行性
在這個系統(tǒng)中需要實現(xiàn)的有:控制語音的采集、控制語音的識別、將識別后的控制語音轉換成控制指令、將控制指令轉換成相應機器可以識別的指令,需要的硬件有:
控制語音的采集:直接用模數(shù)轉換器收集模擬的語音,用編程的方法把數(shù)字語音轉換成合適的格式。
控制語音的識別:用編程的方法將采集到的語音與控制語音庫的數(shù)據(jù)進行匹配,得到匹配結果。
將識別后的控制語音轉換成控制指令:把匹配的結果映射成相應的控制指令輸出。
將控制指令轉換成相應應用可以識別的控制指令:為了使系統(tǒng)有更好的通用性,需要根據(jù)實際的應用把輸出的控制指令轉換成相應應用可識別的控制指令,從而實現(xiàn)控制機器。這些實現(xiàn)可以直接用編程的方法實現(xiàn)
3.3.經(jīng)濟可行性
本系統(tǒng)采用高度可定制的思想實現(xiàn)。系統(tǒng)可以根據(jù)需要,自行對各個功能實現(xiàn)進行選擇或替換,通過這種實現(xiàn)方案可以定制出能達到最好的經(jīng)濟效益的組合。如替換更合適的語音采集方法、語音識別方法,定制語音與控制指令的映射關系等。
本系統(tǒng)的性能主要由硬件處理速度、控制語音庫的大小和語音匹配算法決定。在實際中可以根據(jù)需要選擇硬件和語音庫,同時也可以不斷改進算法。
Chapter 4.需求分析
4.1.系統(tǒng)應該實現(xiàn)以下功能:
把說出的控制語音轉換成相應的控制操作。
能夠配置語音與指令的對應關系。
可以根據(jù)需要替換相關功能實現(xiàn)。
在無法識別控制語音時不執(zhí)行操作并給出提示。
4.2.通用語音控制系統(tǒng)模型
4.3.用中文數(shù)字聲音執(zhí)行Linux命令
控制語音采集:
使用模數(shù)轉換芯片,將模擬的語音轉換成數(shù)字語音數(shù)據(jù)。
編碼轉換:
將采集到的語音加工成可以進行語音識別的格式,這種格式應該文件較小、利于語音識別。
控制語音識別:
通過搜索比較,得到識別結果,并把識別結果映射到定義的識別碼(用整數(shù)表示),識別碼包括無法識別項。
應用可識別的指令轉換:
把識別碼轉換成執(zhí)行指令,在這里就是相應的Linux指令。
執(zhí)行操作:
直接調用指令,執(zhí)行選定指令。
4.4.硬件需求
1、Digilent Cerebot 32MX4開發(fā)板
2、PmodNIC——網(wǎng)絡接口控制器
3、PmodMIC——麥克風/數(shù)字接口
4.5.項目開發(fā)環(huán)境
軟件環(huán)境:
在Linux操作系統(tǒng);MPLAB IDE
硬件環(huán)境:
PC機;Digilent Cerebot 32MX4開發(fā)板; PmodNIC——網(wǎng)絡接口控制器;PmodMIC——麥克風/數(shù)字接口
評論