基于聯(lián)合損失函數(shù)的語音增強深度學習算法

作者：楊玲玲(河南工業(yè)貿(mào)易職業(yè)學院信息工程學院,鄭州 450064) 時間：2023-07-06 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：針對損失函數(shù)計算過程加入關于人耳聽覺數(shù)據(jù)的基礎上，設計了一種聯(lián)合損失函數(shù)的語音增強深度學習算法。研究結果表明：本文設計的混合損失函數(shù)實現(xiàn)增強語音質量的明顯優(yōu)化。加入注意力機制后能夠促進背景噪音的進一步減弱，從而獲得更高可懂度。綜合運用聯(lián)合損失函數(shù)并融合注意力機制后，可以使神經(jīng)網(wǎng)絡獲得更優(yōu)質量增強語音。利用注意力機制提取特征參數(shù)以及結合聯(lián)合損失函數(shù)進行神經(jīng)網(wǎng)絡優(yōu)化能夠促進增強語音質量的提升并達到更高的可懂度。

DNN 根據(jù)獲取的語音特征對學習目標參數(shù)進行準確估計，目前已被廣泛應用于語音增強的研究中^[1-2]。各類聲學特征也對語音增強方面存在差異。根據(jù)傳統(tǒng)語音特征進行分析并不能充分反饋語音內(nèi)部信息，也不能獲得音幀和幀快速轉換的結果，因此該模型并不能準確預測時頻掩蔽結果，導致實際語音增強性能較差^[3-4]。在背景噪聲濾除方面，時頻掩模值發(fā)揮著關鍵作用，以常規(guī)時頻掩模值進行處理時并未針對語音相位進行分析，語音相位譜則對改善語音可懂性具有關鍵作用^[5]。

本文引用地址：http://2s4d.com/article/202307/448398.htm

根據(jù)上述研究結果，本文優(yōu)化了以語音增強實現(xiàn)的網(wǎng)絡模型與損失函數(shù)^[6]。為確保代價函數(shù)能夠根據(jù)人耳感知特點開展分析過程，在上述基礎上設計了一種聯(lián)合損失函數(shù)。針對損失函數(shù)計算過程加入關于人耳聽覺的數(shù)據(jù)。

1 聯(lián)合損失函數(shù)

進行深度學習時，需要利用均方誤差損失函數(shù)(MSE)對神經(jīng)網(wǎng)絡實施優(yōu)化處理，而MSE 只對增強語音與純凈語音誤差進行簡單數(shù)據(jù)分析，并未考慮誤差正負因素的影響，也未加入人耳感知的信號。此時只以MSE 構建損失函數(shù)不能確保增強語音達到理想的算法處理效果^[7]。

采用頻域加權分段的信噪分析方法可以對語音可懂度進行預測。以下為頻域加權分段信噪比表達式：

(1)

式中，L 表示時頻信號幀數(shù)，K 表示頻帶數(shù)，x(I,k)是第 l 幀第 k 個頻帶中包含的純凈語音信號幅度，屬于第 l 幀第 k 個頻帶包含噪聲語音的幅度譜，W(I,k)為作用于各時頻單元幅度譜的感知權重系數(shù)。

本文從語音信噪比特征出發(fā)，對以上函數(shù)實施動態(tài)結合，由此得到聯(lián)合優(yōu)化代價函數(shù)。建立了動態(tài)系數(shù)：

a(I,k)= (2)

上述系數(shù)與時頻單元信噪比存在直接關聯(lián)，SNR(l,k) 表示第l 幀第k 個頻帶對應的信噪比數(shù)據(jù)，同時根據(jù)各時頻單元信噪比獲得相應的動態(tài)系數(shù)，處于較高信噪比條件下時，動態(tài)系數(shù)接近1。

在聯(lián)合代價函數(shù)中融合了人耳心理聲學感知的內(nèi)容^[8]，以此訓練網(wǎng)絡來實現(xiàn)性能優(yōu)化的目標，在確保提升話音質量的前提下使增強話音具備更高可懂度。

2 基于聯(lián)合損失函數(shù)的語音增強算法

以聯(lián)合損失函數(shù)建立語音增強算法經(jīng)多次重復訓練后，能夠從含噪語音幅度譜內(nèi)獲得估計增強語音幅度譜。圖1給出了系統(tǒng)框圖。

圖1 基于聯(lián)合損失函數(shù)的語音增強算法系統(tǒng)框圖

時頻掩蔽因素是對神經(jīng)網(wǎng)絡產(chǎn)生影響而引起語音增強性能差異的重要條件，采用傳統(tǒng)學習方法進行處理時只需對語音幅度進行分析。確定混合特征參數(shù)與學習目標后，再對神經(jīng)網(wǎng)絡開展輸入、輸出訓練，同時利用最小均方誤差優(yōu)化網(wǎng)絡算法。再以BP 算法反向傳遞方式完成網(wǎng)絡參數(shù)的修正。從每次訓練的結果中選擇最優(yōu)性能的網(wǎng)絡模型進行記錄后建立測試網(wǎng)絡模型。

本文選擇聯(lián)合損失函數(shù)對兩者差異進行評價，記錄最優(yōu)性能的網(wǎng)絡模型參數(shù)。進行測試時，先將含噪語音幅度譜加入經(jīng)過訓練的模型內(nèi)，之后通過模型對增強語音幅度譜進行預測，最后以語音相位參數(shù)完成信號重構。

3 實驗結果分析

3.1 實驗數(shù)據(jù)的選取

以上語音數(shù)據(jù)都是由IEEE 語音數(shù)據(jù)庫提供，之后從NOISEX-92 噪聲庫內(nèi)提取Pink、Factory 與White 三種噪聲信號，這些信號保持一致頻率。按照同樣信噪比把剩余50 條純凈語音與噪聲后半段進行混合后建立測試集。

本文設定語音頻率為16 kHz，并以語音幅度譜作為輸入語音特征。各項網(wǎng)絡參數(shù)見表1。

3.2 對比實驗分析

為了對本文建立的聯(lián)合損失函數(shù)與自注意力機制進行有效性驗證，構建得到表2 的對比算法。

從表3~5 中可以看到各噪聲條件下的PESQ 值。其中，表3 顯示，信噪比等于-5dB 的情況下，根據(jù)算法1 與2 測試結果可以發(fā)現(xiàn)，在各類噪聲條件下，PESQ值提升均值達到0.13，同時STOI 值提升了0.01 的均值水平。比較算法2 與3 可以發(fā)現(xiàn)，PESQ 值提升了0.07，STOI 提升了0.01。

表4 顯示，帶噪語音信噪比等于0 dB 的條件下，根據(jù)算法1 與2 可以發(fā)現(xiàn)，各噪聲下的PESQ 值都提升了0.11，此時STOI 值提升0.02。比較算法2 與3 可以發(fā)現(xiàn)，PESQ 值提升0.09，STOI 提升0.01。

表5 顯示，帶噪語音信噪比等于5 dB 的情況下，比較算法1 與2 可以發(fā)現(xiàn)，各噪聲下的PESQ 值提升達到0.13 的均值，STOI 值提升了0.01。根據(jù)算法2 與3的比較結果可知，PESQ 值提升0.07，STOI 提升0.01。

綜合分析表3~5 得到下述結果：

1）通過對比算法1 與2 測試結果得到：當噪聲與信噪比都不同的情況下，以聯(lián)合損失函數(shù)實現(xiàn)的增強語音PESQ 值提高0.12，STOI 提高0.01。根據(jù)算法1 與2 可知，本文設計的混合損失函數(shù)實現(xiàn)增強語音質量的明顯優(yōu)化。

2）對比算法2 與3 結果可以發(fā)現(xiàn)，為神經(jīng)網(wǎng)絡模型設置注意力機制后，可以使增強語音PESQ 值提高0.08，STOI 提高0.01。同時根據(jù)算法2 與3 結果可以推斷，加入注意力機制后能夠促進背景噪音的進一步減弱，從而獲得更高可懂度。

3）比較算法1 與3 結果可知：以聯(lián)合損失函數(shù)對神經(jīng)網(wǎng)絡開展訓練時，同時加入自注意力機制來分析理神經(jīng)網(wǎng)絡特征的情況下能夠實現(xiàn)增強語音質量的顯著改善，此時PESQ 值提升0.2，STOI 提升0.03。

4 結束語

1）本文設計的混合損失函數(shù)實現(xiàn)增強語音質量的明顯優(yōu)化。加入注意力機制后能夠促進背景噪音的進一步減弱，從而獲得更高可懂度。

2）綜合運用聯(lián)合損失函數(shù)并融合注意力機制后，可以使神經(jīng)網(wǎng)絡獲得更優(yōu)質量增強語音。利用注意力機制提取特征參數(shù)以及結合聯(lián)合損失函數(shù)進行神經(jīng)網(wǎng)絡優(yōu)化能夠促進增強語音質量的提升并達到更高的可懂度。

參考文獻：

[1] BABY D, VIRTANEN T, GEMMEKE J F. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J]. IEEE-ACM transactions on audio, speech, and language processing, 2015, 23(11):1788-1799.

[2] LI C X, DU Y J, WANG S D. Mining implicit intention using attention-based rnn encoder-decoder model[C]// International conference on intelligent computing. Springer, Cham, 2017: 413-424.

[3] 葛宛營,張?zhí)祢U.基于掩蔽估計與優(yōu)化的單通道語音增強算法[J].計算機應用,2019, 39(10): 6.

[4] 鮑長春,項揚.基于深度神經(jīng)網(wǎng)絡的單通道語音增強方法回顧[J].信號處理,2019,35(12): 11.

[5] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feed forward neural networks[C]. Proceedings of the thirteenth international conference on artificial intelligence and statistics, Sardinia, Italy, 2010, 5: 249-256.

[6] MARTIN-DONAS J M, GOMEZ A M, Gonzalez J A, et al. A deep learning loss function based on the perceptual evaluation of the speech quality[J]. IEEE Signal processing letters,2018, 25(11):1680-1684.

[7] 李鴻燕,屈俊玲,張雪英.基于信號能量的濁語音盲信號分離算法[J].吉林大學學報(工學版),2015,(5): 6.

[8] 戴紅霞,唐於烽,趙力.基于維納濾波與理想二值掩蔽的數(shù)字助聽器語音增強算法[J].電子器件,2019,42(4): 4.

（本文來源于《電子產(chǎn)品世界》雜志2023年6月期）