PESQ及其應(yīng)用
引言
目前能提供主客觀相關(guān)性較高的音質(zhì)客觀評(píng)價(jià)方法,都是考慮了人耳的聽(tīng)覺(jué)特性,使用聽(tīng)覺(jué)感知模型來(lái)模擬收聽(tīng)這一過(guò)程的。因此當(dāng)前的主流是使用感知模型來(lái)評(píng)估非線性和易出錯(cuò)的音頻通信系統(tǒng)。
感知語(yǔ)音質(zhì)量測(cè)度(PSQM),在1996年被國(guó)際電聯(lián)ITU-T采納為P.861建議,1998年,一個(gè)基于歸一化塊測(cè)度(MNB)的可選系統(tǒng)作為附件添加到P.861中。MNB是在考慮聽(tīng)過(guò)程的基礎(chǔ)上,采用MNB方法來(lái)模擬人的判斷過(guò)程,評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)值相關(guān)度較高。
Hollier擴(kuò)展了巴克譜失真(BSD)模型,引領(lǐng)了感知分析測(cè)度系統(tǒng)(PAMS)的發(fā)展。PAMS是第一個(gè)關(guān)注端到端行為,包括濾波和變化時(shí)延造成的影響的模型。
這些影響,再加上一定類型的編碼失真、包丟失和背景噪聲,就是引起B(yǎng)SD,PSQM和MNB等早期模型產(chǎn)生不精確得分的原因。因此ITU-T 12研究組進(jìn)行了一項(xiàng)實(shí)驗(yàn)來(lái)找到一種新的模型,以期能適應(yīng)更廣泛的編解碼器和網(wǎng)絡(luò)情況,具有更好的性能和表現(xiàn)。在比較中,PAMS和PSQM99(PSQM的更新和擴(kuò)展版本)兩種算法的性能最好,然后就結(jié)合了這兩種算法產(chǎn)生了一個(gè)新的模型,叫做PESQ。2001年2月PESQ被定為P.862建議。
PESQ算法的描述
圖1 PESQ模型的結(jié)構(gòu)圖
圖1為PESQ的結(jié)構(gòu)。開(kāi)始時(shí)兩個(gè)信號(hào)都通過(guò)電平調(diào)整,再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽(tīng)筒進(jìn)行濾波(FFT)。這兩個(gè)信號(hào)要在時(shí)間上對(duì)準(zhǔn),并通過(guò)聽(tīng)覺(jué)變換。這個(gè)變換包括對(duì)系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。提取出兩個(gè)失真參數(shù),在頻率和時(shí)間上總和起來(lái),映射到對(duì)主觀平均意見(jiàn)分的預(yù)測(cè)。
電平調(diào)整和IRS濾波
各個(gè)待測(cè)系統(tǒng)的增益一般差別比較大,而且對(duì)參考信號(hào)沒(méi)有確定的校準(zhǔn)電平,所以有必要將二者調(diào)整到統(tǒng)一、恒定的電平上來(lái)。PESQ假定主觀聽(tīng)覺(jué)級(jí)是79dB的常數(shù)。感知模型必須考慮人聽(tīng)到的實(shí)際聲音,所以不管真正的主觀測(cè)驗(yàn)中是否使用IRS或改進(jìn)的IRS濾波,在PESQ中使用了類IRS濾波器,起到一個(gè)模擬電話手柄的作用。
時(shí)間對(duì)準(zhǔn)
PESQ的時(shí)間對(duì)準(zhǔn)假設(shè)系統(tǒng)的時(shí)延是分段恒定的。這個(gè)假設(shè)對(duì)廣泛的系統(tǒng),包括基于包傳輸?shù)腣oIP,都是合適的。在靜默期間和說(shuō)話期間時(shí)延可以改變。信號(hào)對(duì)準(zhǔn)有以下步驟:
?信號(hào)通過(guò)窄帶濾波,突出對(duì)感知重要的部分。這些濾波后的信號(hào)只用于時(shí)間對(duì)準(zhǔn);
?基于包絡(luò)的延時(shí)估計(jì);
?把參考信號(hào)按話語(yǔ)分成段;
?對(duì)每一段進(jìn)行基于包絡(luò)的延時(shí)估計(jì);
?對(duì)每一段話語(yǔ)進(jìn)行基于柱狀圖的、精細(xì)的、互相關(guān)的延時(shí)驗(yàn)證;
?對(duì)于說(shuō)話中的延時(shí)改變進(jìn)行話語(yǔ)分解(splitting)和重定位。
對(duì)每一段話語(yǔ)都給出延時(shí)估計(jì),然后得出聽(tīng)覺(jué)變換要用的一幀一幀的延時(shí)。
聽(tīng)覺(jué)變換
PESQ中的聽(tīng)覺(jué)變換是一個(gè)生理聲學(xué)模型,它把信號(hào)變換到時(shí)頻可感知的響度表達(dá)。包括以下步驟:
巴克譜 加漢明窗用FFT計(jì)算每一幀的瞬時(shí)功率譜,每幀重疊50%,即32ms。
頻率補(bǔ)償 計(jì)算有效話音幀的平均巴克譜值。假設(shè)待測(cè)系統(tǒng)有恒定的頻率響應(yīng),參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì)。參考話音使用這個(gè)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng),補(bǔ)償最多不超過(guò)±20dB。
增益變化的補(bǔ)償均衡 短時(shí)增益變化通過(guò)一幀一幀的處理基音功率密度得到部分補(bǔ)償。每一幀中,計(jì)算所有超過(guò)聽(tīng)覺(jué)門限的基音功率密度值。得到參考信號(hào)和失真信號(hào)的比值(3×10-4),比值通過(guò)一階低通濾波器濾波,每一幀的失真信號(hào)乘以這個(gè)功率比,補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng)。
響度映射 巴克譜映射到響度級(jí)(宋),包括一個(gè)頻率門限和指數(shù)。這樣在每一時(shí)頻單元給出感受到的響度。
干擾密度的計(jì)算
參考信號(hào)與失真信號(hào)間的絕對(duì)差值給聽(tīng)覺(jué)誤差一個(gè)測(cè)度。在PESQ中,在進(jìn)行時(shí)間和頻率上非線性平均之前要經(jīng)過(guò)幾步的處理。
如果信號(hào)的延時(shí)減少了16ms以上,在這種情況下發(fā)現(xiàn)在計(jì)算客觀語(yǔ)音質(zhì)量時(shí),忽略幀干擾能得到更好的值,因此當(dāng)這種情況時(shí),幀干擾設(shè)為零。
在每一個(gè)時(shí)頻單元都使用一個(gè)簡(jiǎn)單的門限來(lái)進(jìn)行屏蔽,在門限以下的干擾是聽(tīng)不見(jiàn)的,這個(gè)值設(shè)定為參考函數(shù)和失真函數(shù)中響度較小的一個(gè)的四分之一。門限由絕對(duì)響度相減得到,小于零的定為零。PSQM和PSQM99早期的版本在大于一個(gè)時(shí)頻單元的距離上使用屏蔽的方法并不能提高整體的性能,在PESQ中沒(méi)有被采用。
和P.861 PSQM不同的是,PESQ計(jì)算兩個(gè)不同的誤差平均,其中一個(gè)有不對(duì)稱因子,一個(gè)沒(méi)有。PESQ的非對(duì)稱因子是由失真信號(hào)對(duì)參考信號(hào)在每一時(shí)頻單元的巴克譜密度比得到的。非對(duì)稱因子的值如果小于3,則定為零,如果大于12,則定為12。不對(duì)稱加權(quán)的干擾值,通過(guò)乘以這個(gè)因子得到,結(jié)果只計(jì)算附加的失真。
時(shí)頻干擾的總計(jì)
理解了這些局部的誤差感知,PESQ使用確定誤差在時(shí)間上和幅度上取得最好的分布方法,在幾個(gè)時(shí)-頻尺度上綜合了干擾值。干擾值使用一個(gè)Lp范數(shù)計(jì)算。它分為瞬時(shí)間隔內(nèi)的干擾總計(jì)和話音持續(xù)時(shí)間內(nèi)的干擾總計(jì)(約10秒)。瞬時(shí)間隔內(nèi)的干擾總計(jì)使用高階的p值,而話音持續(xù)時(shí)間內(nèi)的干擾總計(jì)使用低階的p值。
重定位
在有些情況下,時(shí)間定位可能不能正確地確定延時(shí)的改變,這樣會(huì)導(dǎo)致每部分的時(shí)延都錯(cuò)了。這可以通過(guò)標(biāo)記錯(cuò)誤幀(有一個(gè)超過(guò)45的對(duì)稱干擾),并且五個(gè)正確幀中至多有一個(gè)錯(cuò)誤幀來(lái)檢測(cè)到。
每個(gè)錯(cuò)誤的部分重新定位,重新計(jì)算干擾值。交叉互相關(guān)是用來(lái)發(fā)現(xiàn)新的延時(shí)估計(jì)值的。重新計(jì)算失真信號(hào)的聽(tīng)覺(jué)變換,發(fā)現(xiàn)干擾,對(duì)于每一幀來(lái)說(shuō),如果重新定位,干擾值變的較低,則使用新值。在重定位以后再總計(jì)瞬間和整個(gè)信號(hào)的性能。
計(jì)算PESQ的得分
為了訓(xùn)練PESQ,要在三個(gè)平均階段通過(guò)使用很多的p值計(jì)算很大數(shù)量的不同的對(duì)稱和非對(duì)稱的參數(shù)。先使用參數(shù)的線性組合來(lái)預(yù)測(cè)主觀MOS分,進(jìn)一步對(duì)每次主觀測(cè)試進(jìn)行回歸分析說(shuō)明、解決不同的題目的前后關(guān)系和選擇的偏好,如第3部分中所討論的;這一步還用到了線性映射。對(duì)所有的候選參數(shù)集都進(jìn)行了選擇。這樣找到了最優(yōu)的組合,能給出最好的平均相關(guān)系數(shù)。這樣可以在幾百個(gè)候選參數(shù)中找到最好的。
舉例來(lái)說(shuō),PESQ中用到部分補(bǔ)償,在增益調(diào)制的均衡中,就要避免使用大量的參數(shù)來(lái)預(yù)測(cè)質(zhì)量。只用到兩個(gè)參數(shù)的組合— 一個(gè)對(duì)稱干擾(dSYM)和一個(gè)非對(duì)稱干擾(dASYM),在預(yù)測(cè)精度和概括能力上有很好的平衡。然而,由于低維數(shù)的模型依靠早先的階段組合出復(fù)雜的感知作用,要求有幾個(gè)迭代設(shè)計(jì)。聽(tīng)覺(jué)變換中的系數(shù)和干擾處理經(jīng)過(guò)優(yōu)化,找到了最優(yōu)的參數(shù),然后重復(fù)處理過(guò)程。下面給出PESQ中映射的分:
PESQMOS=4.5-0.1 dSYM-0.0309 dASYM
對(duì)于正規(guī)的主觀測(cè)試,得分在1.0和4.5之間。在失真情況嚴(yán)重時(shí),得分可能會(huì)低于1.0,但這種情況很少見(jiàn)。
范圍和應(yīng)用
ITU-T相關(guān)的資料已證明PESQ是能夠給出精確的預(yù)測(cè)值的,包括以下編解碼和誤碼失真,波形編碼(如G.711,G.726),CELP/高于4kbit/s的混合編解碼(如G.728),移動(dòng)編解碼/系統(tǒng)(包括GSM FR、EFR、HR、AMR、CDMA EVRC、TDMA ACELP、VSELP和TETRA);各種編解碼的代碼轉(zhuǎn)換,隨機(jī)的、突發(fā)的、包丟失誤差。PESQ能夠用于編解碼或系統(tǒng)評(píng)估、選擇和優(yōu)化。
這樣PESQ可以廣泛的用于現(xiàn)場(chǎng)和模擬網(wǎng)絡(luò)中端到端測(cè)量。背景(環(huán)境)噪聲和噪聲處理,可以通過(guò)用PESQ比較干凈的、未處理的信號(hào)和編碼的、經(jīng)噪聲干擾失真的信號(hào)評(píng)估得到。
用靜默來(lái)取代語(yǔ)音,也是一種失真,給所有的感知模型在預(yù)測(cè)MOS分時(shí)帶來(lái)困難。一般前端和后端的50ms的削波(話音激活檢測(cè))不會(huì)給主觀印象帶來(lái)很大的影響。然而,在話音期間削波,比如包丟失后用靜默代替,將嚴(yán)重影響主觀感受---每50ms的丟失,MOS分下降一分。PESQ的情況在這兩種之間,每50ms的削波通常引起0.5分左右的下降,而不管處于什么位置。對(duì)于前端暫時(shí)的削波,特別是未察覺(jué)的丟失了單詞時(shí),PESQ是很敏感的。相反的,PESQ對(duì)經(jīng)常的、短時(shí)的削波不很敏感(短時(shí)間內(nèi)語(yǔ)音被靜默取代)。在這兩種情況下,PESQ與主觀MOS分之間的相關(guān)性會(huì)減弱。
作為一個(gè)有固定假設(shè)聽(tīng)覺(jué)級(jí)的只聽(tīng)模型,PESQ一般不應(yīng)用來(lái)評(píng)估收聽(tīng)級(jí)、側(cè)音/說(shuō)話人回音,或?qū)υ捬舆t的影響,而且,它也不是供非入侵性測(cè)度使用的。其他一些應(yīng)用的特性還沒(méi)有得到證明,或者需要部分改變模型。包括:音樂(lè)音質(zhì);寬帶話音;所謂“媒體音頻質(zhì)量”;接受端回聲;低于4kbit/s的低比特率編解碼器;聲學(xué)的和電話機(jī)參考當(dāng)量測(cè)試。
結(jié)語(yǔ)
相對(duì)來(lái)說(shuō),PSQM和MNB只用在窄帶編解碼測(cè)量中,并且對(duì)某些類型的編解碼、背景噪聲和端到端的影響,比如濾波和時(shí)延變化給出不精確的預(yù)測(cè)值。PESQ能提供比P.861模型、PSQM和MNB與主觀意見(jiàn)更好的相關(guān)性。它能在很廣范的條件下對(duì)主觀質(zhì)量給出了很精確的預(yù)測(cè),包括有背景噪聲,模擬濾波,和/或時(shí)延變化。PESQ在很多評(píng)估電話網(wǎng)絡(luò)和語(yǔ)音編解碼的語(yǔ)音質(zhì)量等應(yīng)用中會(huì)非常適用。
參考文獻(xiàn)
1 Objective quality measurement of telephone-band (300-3400Hz) speech codecs .ITU-T Recommendation P.861,February 1998
2 Hollier, M. P. , Hawksford, M.O. and Guard, D. R. "Characterisation of communications systems using a speech-like test stimulus", Journal of the audio Engineering Society,41(12),1008-1021,1993
3 Rix, A.W., Reynilds, R. and Hollier, M. P. "Perceptual measurement of end-to-end speech quality over audio and packet-based networks" 106th Audio Engineering Society Convention , pre-print no.4873.May 1999
4 陳國(guó),胡修林,張?zhí)N玉,朱耀庭.語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法研究進(jìn)展.電子學(xué)報(bào).Vol.29,2001.04
評(píng)論