PESQ及其應(yīng)用

作者：解放軍理工大學(xué)通信工程學(xué)院,趙斐,徐勇,成立新時(shí)間：2003-07-16 來源：電子設(shè)計(jì)應(yīng)用

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

摘要：本文介紹了基于聽覺模型的PESQ(Perceptual evaluation of speech quality)客觀音質(zhì)評(píng)價(jià)方法。它適用于更寬的網(wǎng)絡(luò)環(huán)境，包括模擬連接、編解碼、包丟失和時(shí)延變化。

關(guān)鍵詞： 感知模型；漢語單字；清晰度

引言
目前能提供主客觀相關(guān)性較高的音質(zhì)客觀評(píng)價(jià)方法，都是考慮了人耳的聽覺特性，使用聽覺感知模型來模擬收聽這一過程的。因此當(dāng)前的主流是使用感知模型來評(píng)估非線性和易出錯(cuò)的音頻通信系統(tǒng)。
感知語音質(zhì)量測(cè)度(PSQM),在1996年被國(guó)際電聯(lián)ITU-T采納為P.861建議，1998年，一個(gè)基于歸一化塊測(cè)度(MNB)的可選系統(tǒng)作為附件添加到P.861中。MNB是在考慮聽過程的基礎(chǔ)上，采用MNB方法來模擬人的判斷過程，評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)值相關(guān)度較高。
Hollier擴(kuò)展了巴克譜失真(BSD)模型，引領(lǐng)了感知分析測(cè)度系統(tǒng)(PAMS)的發(fā)展。PAMS是第一個(gè)關(guān)注端到端行為，包括濾波和變化時(shí)延造成的影響的模型。
這些影響，再加上一定類型的編碼失真、包丟失和背景噪聲，就是引起B(yǎng)SD,PSQM和MNB等早期模型產(chǎn)生不精確得分的原因。因此ITU-T 12研究組進(jìn)行了一項(xiàng)實(shí)驗(yàn)來找到一種新的模型，以期能適應(yīng)更廣泛的編解碼器和網(wǎng)絡(luò)情況，具有更好的性能和表現(xiàn)。在比較中，PAMS和PSQM99(PSQM的更新和擴(kuò)展版本)兩種算法的性能最好，然后就結(jié)合了這兩種算法產(chǎn)生了一個(gè)新的模型，叫做PESQ。2001年2月PESQ被定為P.862建議。

PESQ算法的描述

圖1 PESQ模型的結(jié)構(gòu)圖

圖1為PESQ的結(jié)構(gòu)。開始時(shí)兩個(gè)信號(hào)都通過電平調(diào)整，再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽筒進(jìn)行濾波(FFT)。這兩個(gè)信號(hào)要在時(shí)間上對(duì)準(zhǔn)，并通過聽覺變換。這個(gè)變換包括對(duì)系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。提取出兩個(gè)失真參數(shù)，在頻率和時(shí)間上總和起來，映射到對(duì)主觀平均意見分的預(yù)測(cè)。
電平調(diào)整和IRS濾波
各個(gè)待測(cè)系統(tǒng)的增益一般差別比較大，而且對(duì)參考信號(hào)沒有確定的校準(zhǔn)電平，所以有必要將二者調(diào)整到統(tǒng)一、恒定的電平上來。PESQ假定主觀聽覺級(jí)是79dB的常數(shù)。感知模型必須考慮人聽到的實(shí)際聲音，所以不管真正的主觀測(cè)驗(yàn)中是否使用IRS或改進(jìn)的IRS濾波，在PESQ中使用了類IRS濾波器，起到一個(gè)模擬電話手柄的作用。
時(shí)間對(duì)準(zhǔn)
PESQ的時(shí)間對(duì)準(zhǔn)假設(shè)系統(tǒng)的時(shí)延是分段恒定的。這個(gè)假設(shè)對(duì)廣泛的系統(tǒng)，包括基于包傳輸?shù)腣oIP,都是合適的。在靜默期間和說話期間時(shí)延可以改變。信號(hào)對(duì)準(zhǔn)有以下步驟：
?信號(hào)通過窄帶濾波，突出對(duì)感知重要的部分。這些濾波后的信號(hào)只用于時(shí)間對(duì)準(zhǔn)；
?基于包絡(luò)的延時(shí)估計(jì)；
?把參考信號(hào)按話語分成段；
?對(duì)每一段進(jìn)行基于包絡(luò)的延時(shí)估計(jì)；
?對(duì)每一段話語進(jìn)行基于柱狀圖的、精細(xì)的、互相關(guān)的延時(shí)驗(yàn)證；
?對(duì)于說話中的延時(shí)改變進(jìn)行話語分解(splitting)和重定位。
對(duì)每一段話語都給出延時(shí)估計(jì)，然后得出聽覺變換要用的一幀一幀的延時(shí)。
聽覺變換
PESQ中的聽覺變換是一個(gè)生理聲學(xué)模型，它把信號(hào)變換到時(shí)頻可感知的響度表達(dá)。包括以下步驟：
巴克譜加漢明窗用FFT計(jì)算每一幀的瞬時(shí)功率譜，每幀重疊50%，即32ms。
頻率補(bǔ)償計(jì)算有效話音幀的平均巴克譜值。假設(shè)待測(cè)系統(tǒng)有恒定的頻率響應(yīng)，參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì)。參考話音使用這個(gè)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng)，補(bǔ)償最多不超過±20dB。
增益變化的補(bǔ)償均衡短時(shí)增益變化通過一幀一幀的處理基音功率密度得到部分補(bǔ)償。每一幀中，計(jì)算所有超過聽覺門限的基音功率密度值。得到參考信號(hào)和失真信號(hào)的比值(3×10-4)，比值通過一階低通濾波器濾波，每一幀的失真信號(hào)乘以這個(gè)功率比，補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng)。
響度映射巴克譜映射到響度級(jí)(宋)，包括一個(gè)頻率門限和指數(shù)。這樣在每一時(shí)頻單元給出感受到的響度。
干擾密度的計(jì)算
參考信號(hào)與失真信號(hào)間的絕對(duì)差值給聽覺誤差一個(gè)測(cè)度。在PESQ中，在進(jìn)行時(shí)間和頻率上非線性平均之前要經(jīng)過幾步的處理。
如果信號(hào)的延時(shí)減少了16ms以上，在這種情況下發(fā)現(xiàn)在計(jì)算客觀語音質(zhì)量時(shí)，忽略幀干擾能得到更好的值，因此當(dāng)這種情況時(shí)，幀干擾設(shè)為零。
在每一個(gè)時(shí)頻單元都使用一個(gè)簡(jiǎn)單的門限來進(jìn)行屏蔽，在門限以下的干擾是聽不見的，這個(gè)值設(shè)定為參考函數(shù)和失真函數(shù)中響度較小的一個(gè)的四分之一。門限由絕對(duì)響度相減得到，小于零的定為零。PSQM和PSQM99早期的版本在大于一個(gè)時(shí)頻單元的距離上使用屏蔽的方法并不能提高整體的性能，在PESQ中沒有被采用。
和P.861 PSQM不同的是，PESQ計(jì)算兩個(gè)不同的誤差平均，其中一個(gè)有不對(duì)稱因子，一個(gè)沒有。PESQ的非對(duì)稱因子是由失真信號(hào)對(duì)參考信號(hào)在每一時(shí)頻單元的巴克譜密度比得到的。非對(duì)稱因子的值如果小于3，則定為零，如果大于12，則定為12。不對(duì)稱加權(quán)的干擾值，通過乘以這個(gè)因子得到，結(jié)果只計(jì)算附加的失真。
時(shí)頻干擾的總計(jì)
理解了這些局部的誤差感知，PESQ使用確定誤差在時(shí)間上和幅度上取得最好的分布方法，在幾個(gè)時(shí)-頻尺度上綜合了干擾值。干擾值使用一個(gè)Lp范數(shù)計(jì)算。它分為瞬時(shí)間隔內(nèi)的干擾總計(jì)和話音持續(xù)時(shí)間內(nèi)的干擾總計(jì)(約10秒)。瞬時(shí)間隔內(nèi)的干擾總計(jì)使用高階的p值，而話音持續(xù)時(shí)間內(nèi)的干擾總計(jì)使用低階的p值。
重定位
在有些情況下，時(shí)間定位可能不能正確地確定延時(shí)的改變，這樣會(huì)導(dǎo)致每部分的時(shí)延都錯(cuò)了。這可以通過標(biāo)記錯(cuò)誤幀(有一個(gè)超過45的對(duì)稱干擾)，并且五個(gè)正確幀中至多有一個(gè)錯(cuò)誤幀來檢測(cè)到。
每個(gè)錯(cuò)誤的部分重新定位，重新計(jì)算干擾值。交叉互相關(guān)是用來發(fā)現(xiàn)新的延時(shí)估計(jì)值的。重新計(jì)算失真信號(hào)的聽覺變換，發(fā)現(xiàn)干擾，對(duì)于每一幀來說，如果重新定位，干擾值變的較低，則使用新值。在重定位以后再總計(jì)瞬間和整個(gè)信號(hào)的性能。
計(jì)算PESQ的得分
為了訓(xùn)練PESQ，要在三個(gè)平均階段通過使用很多的p值計(jì)算很大數(shù)量的不同的對(duì)稱和非對(duì)稱的參數(shù)。先使用參數(shù)的線性組合來預(yù)測(cè)主觀MOS分，進(jìn)一步對(duì)每次主觀測(cè)試進(jìn)行回歸分析說明、解決不同的題目的前后關(guān)系和選擇的偏好，如第3部分中所討論的；這一步還用到了線性映射。對(duì)所有的候選參數(shù)集都進(jìn)行了選擇。這樣找到了最優(yōu)的組合，能給出最好的平均相關(guān)系數(shù)。這樣可以在幾百個(gè)候選參數(shù)中找到最好的。
舉例來說，PESQ中用到部分補(bǔ)償，在增益調(diào)制的均衡中，就要避免使用大量的參數(shù)來預(yù)測(cè)質(zhì)量。只用到兩個(gè)參數(shù)的組合— 一個(gè)對(duì)稱干擾(dSYM)和一個(gè)非對(duì)稱干擾(dASYM)，在預(yù)測(cè)精度和概括能力上有很好的平衡。然而，由于低維數(shù)的模型依靠早先的階段組合出復(fù)雜的感知作用，要求有幾個(gè)迭代設(shè)計(jì)。聽覺變換中的系數(shù)和干擾處理經(jīng)過優(yōu)化，找到了最優(yōu)的參數(shù)，然后重復(fù)處理過程。下面給出PESQ中映射的分：
PESQMOS=4.5-0.1 dSYM-0.0309 dASYM
對(duì)于正規(guī)的主觀測(cè)試，得分在1.0和4.5之間。在失真情況嚴(yán)重時(shí)，得分可能會(huì)低于1.0，但這種情況很少見。

范圍和應(yīng)用
ITU-T相關(guān)的資料已證明PESQ是能夠給出精確的預(yù)測(cè)值的，包括以下編解碼和誤碼失真，波形編碼(如G.711,G.726),CELP/高于4kbit/s的混合編解碼(如G.728),移動(dòng)編解碼/系統(tǒng)(包括GSM FR、EFR、HR、AMR、CDMA EVRC、TDMA ACELP、VSELP和TETRA)；各種編解碼的代碼轉(zhuǎn)換，隨機(jī)的、突發(fā)的、包丟失誤差。PESQ能夠用于編解碼或系統(tǒng)評(píng)估、選擇和優(yōu)化。
這樣PESQ可以廣泛的用于現(xiàn)場(chǎng)和模擬網(wǎng)絡(luò)中端到端測(cè)量。背景(環(huán)境)噪聲和噪聲處理，可以通過用PESQ比較干凈的、未處理的信號(hào)和編碼的、經(jīng)噪聲干擾失真的信號(hào)評(píng)估得到。
用靜默來取代語音，也是一種失真，給所有的感知模型在預(yù)測(cè)MOS分時(shí)帶來困難。一般前端和后端的50ms的削波(話音激活檢測(cè))不會(huì)給主觀印象帶來很大的影響。然而，在話音期間削波，比如包丟失后用靜默代替，將嚴(yán)重影響主觀感受---每50ms的丟失，MOS分下降一分。PESQ的情況在這兩種之間，每50ms的削波通常引起0.5分左右的下降，而不管處于什么位置。對(duì)于前端暫時(shí)的削波，特別是未察覺的丟失了單詞時(shí)，PESQ是很敏感的。相反的，PESQ對(duì)經(jīng)常的、短時(shí)的削波不很敏感(短時(shí)間內(nèi)語音被靜默取代)。在這兩種情況下，PESQ與主觀MOS分之間的相關(guān)性會(huì)減弱。
作為一個(gè)有固定假設(shè)聽覺級(jí)的只聽模型，PESQ一般不應(yīng)用來評(píng)估收聽級(jí)、側(cè)音/說話人回音，或?qū)υ捬舆t的影響，而且，它也不是供非入侵性測(cè)度使用的。其他一些應(yīng)用的特性還沒有得到證明，或者需要部分改變模型。包括：音樂音質(zhì)；寬帶話音；所謂“媒體音頻質(zhì)量”；接受端回聲；低于4kbit/s的低比特率編解碼器；聲學(xué)的和電話機(jī)參考當(dāng)量測(cè)試。

結(jié)語
相對(duì)來說，PSQM和MNB只用在窄帶編解碼測(cè)量中，并且對(duì)某些類型的編解碼、背景噪聲和端到端的影響，比如濾波和時(shí)延變化給出不精確的預(yù)測(cè)值。PESQ能提供比P.861模型、PSQM和MNB與主觀意見更好的相關(guān)性。它能在很廣范的條件下對(duì)主觀質(zhì)量給出了很精確的預(yù)測(cè)，包括有背景噪聲，模擬濾波，和/或時(shí)延變化。PESQ在很多評(píng)估電話網(wǎng)絡(luò)和語音編解碼的語音質(zhì)量等應(yīng)用中會(huì)非常適用。

參考文獻(xiàn)
1 Objective quality measurement of telephone-band (300-3400Hz) speech codecs .ITU-T Recommendation P.861,February 1998
2 Hollier, M. P. , Hawksford, M.O. and Guard, D. R. "Characterisation of communications systems using a speech-like test stimulus", Journal of the audio Engineering Society,41(12),1008-1021,1993
3 Rix, A.W., Reynilds, R. and Hollier, M. P. "Perceptual measurement of end-to-end speech quality over audio and packet-based networks" 106th Audio Engineering Society Convention , pre-print no.4873.May 1999
4 陳國(guó),胡修林,張?zhí)N玉,朱耀庭.語音質(zhì)量客觀評(píng)價(jià)方法研究進(jìn)展.電子學(xué)報(bào).Vol.29,2001.04

新聞中心

PESQ及其應(yīng)用

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)