語音識別技術的研究與發(fā)展

作者：時間：2010-03-03 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

4.5 支持向量機（SVM)

支持向量機是應用統(tǒng)計學習理論的一種新的學習機模型，它采用結(jié)構(gòu)風險最小化原理(SRM)，有效克服了傳統(tǒng)經(jīng)驗風險最小化方法的缺點，在解決小樣本、非線性及高維模式識別方面有許多優(yōu)越的性能[4]。其基本思想可以概括為：首先通過非線性變換將輸入空間變換到一個高維空間，然后在這個新空間中求取最優(yōu)線性分類面，而這種非線性變換是通過定義適當?shù)膬?nèi)積函數(shù)實現(xiàn)的。目前，統(tǒng)計學習理論和支持向量機也是國際上機器學習領域的研究熱點。

5 語音識別所面臨的問題

盡管語音識別取得很大成功，但是距離真正的人機自由交流還有很大的距離。例如，目前計算機還需要對用戶做大量訓練才能更準確識別，用戶的語音識別率也并不是盡如人意。主要難題有以下幾個方面：

(1)識別系統(tǒng)的適應性差。主要體現(xiàn)在對環(huán)境依賴性強，特別在高噪音環(huán)境下語音識別性能還不理想。

(2)語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化過程中，還有許多具體問題需要解決。例如，識別速度、拒識等問題，還有連續(xù)語音中去除不必要語氣詞如“呃”、“啊”等語音的技術細節(jié)問題。

(3)語言學、生理學、心理學方面的研究成果已有不少，但如何把這些知識量化、建模并用于語音識別，還需要進一步研究。

面對上面的困難，語音識別技術要做到真正成功，在任何環(huán)境中都能人機進行自由地對話，不僅需要語音識別基礎理論的突破，更需要大量的實際工作的積累。

6 語音識別技術的前景展望

語音作為當前通信系統(tǒng)中最自然的通信媒介，語音識別技術是非常重要的人機交互技術。隨著計算機和語音處理技術的發(fā)展，語音識別系統(tǒng)的實用性將進一步提高。應用語音的自動理解和翻譯，可消除人類相互交往的語言障礙。國外已有多種基于語音識別產(chǎn)品(如聲控撥號電話、語音記事本等)的應用，基于特定任務和環(huán)境的聽寫機也已經(jīng)進入應用階段。這預示著語音識別技術有著非常廣泛的應用領域和市場前景。隨著語音技術的進步和通信技術的飛速發(fā)展，語音識別技術將為網(wǎng)上會議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓等各個領域帶來極大的便利[5]，其應用和經(jīng)濟、社會效益前景非常良好。

參考文獻

[1] 王炳錫，屈丹，彭煊.實用語音識別基礎[M].北京：國防工業(yè)出版社，2005.

[2] 劉么和，宋庭新.語音識別與控制應用技術[M].北京：科學出版社，2008.

[3] 詹新明，黃南山，楊燦.語音識別技術研究進展[J].現(xiàn)代計算機，2008，291(9)：43-45.

[4] 柳春.語音識別技術研究進展[J].甘肅科技，2008，24(9)：41-43.

[5] 高新濤，陳乖麗.語音識別技術的發(fā)展現(xiàn)狀及應用前景[J].甘肅科技縱橫，2007，36(4)：13.