用DSP實(shí)現(xiàn)MPEG音頻層III壓縮的加速方法

作者：時(shí)間：2011-09-29 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

1　概述

本文引用地址：http://2s4d.com/article/150148.htm

　　數(shù)字音頻壓縮技術(shù)給人們提供了一種更為有效的音頻存儲(chǔ)、傳輸方法。音頻壓縮的技術(shù)有很多種，它們的復(fù)雜度、音頻壓縮質(zhì)量、以及壓縮比都有很大的差別。如：μ-law音頻壓縮算法，其特點(diǎn)是簡(jiǎn)單，但壓縮比很低，但音質(zhì)一般。根據(jù)CCITT G.711建議，采用自然對(duì)數(shù)的量化過(guò)程，在輸入幅度比較小的時(shí)候能夠提供比較大精度的量化，而對(duì)于出現(xiàn)概率比較小的大幅度信號(hào)，量化噪聲相對(duì)而言則較大。這種量化方式使得8 bit的數(shù)字量化信號(hào)在量化噪聲效果上等同于14 bit的線性量化。而ADPCM壓縮編碼則充分利用了相鄰的抽樣值幅度變化比較小的特點(diǎn)，編碼輸出結(jié)果是當(dāng)前抽樣值與預(yù)測(cè)值的差值。雖然ADPCM編碼的保真度較高，但其壓縮比卻比較小，只能夠達(dá)到4/1的壓縮比。改進(jìn)的ADPCM編碼方法有IMA (Interactive Multimedia Association)提出的改進(jìn)算法，CCITT的G.721，G.723建議等[1]。

　　MPEG(Motion Picture Expert Group)音頻壓縮標(biāo)準(zhǔn)提供了一種高保真度，高壓縮比的壓縮算法。在ISO11172-3標(biāo)準(zhǔn)中，描述了具有不同復(fù)雜度和性能的子帶音頻編碼方案，以適應(yīng)各種高音質(zhì)數(shù)字音頻的應(yīng)用。根據(jù)編碼計(jì)算復(fù)雜度及編碼效率的不同，分為層I，層II和層III三種標(biāo)準(zhǔn)。

　　MPEG音頻標(biāo)準(zhǔn)最初來(lái)源于被分為四種類型的算法草案，它們是音頻頻域感覺(jué)熵編碼ASPEC(Audio Spectral Perceptual Entropy Coding)，掩蔽模式通用子帶集成編碼與多路復(fù)用MUSICAM(Masking-pattern Universal Sub-band Integrated Coding and Multiplexing)，子帶ADPCM SB/ADPCM(Sub-Band Adaptive Difference PCM)。經(jīng)過(guò)一系列的客觀和主觀音質(zhì)測(cè)試，考慮到不同比特率下的音質(zhì)，對(duì)傳輸比特錯(cuò)誤的敏感性，編碼/解碼復(fù)雜度，以及編解碼延時(shí)等因素，在大約100 kbit/s低碼率下，ASPEC和MUSICAM表現(xiàn)出最好的音質(zhì)效果。在低碼率(64 kbit/s)時(shí)，ASPEC表現(xiàn)出更為出色的音質(zhì)，而MUSICAM則在編碼解碼的復(fù)雜度和延時(shí)上略勝一籌。根據(jù)ASPEC的若干算法，對(duì) MUSICAM進(jìn)行改進(jìn)，加大了計(jì)算復(fù)雜度，但獲得了更好的壓縮比及音質(zhì)，這就是ISO11172-3音頻層III的標(biāo)準(zhǔn)。

　　層I是最簡(jiǎn)單的一種算法。如Philips公司的數(shù)字盒式錄音機(jī)DCC(DIGItal Compact Cassette)便是利用層I的壓縮算法，其應(yīng)用的比特率為192 kbit/s每通道。

　　層II具有中等的編碼復(fù)雜度，適用比特率大約為128 kbit/s每通道。廣泛應(yīng)用于數(shù)字音頻廣播DAB(Digital Audio BroADCasting)的音頻編碼及視頻CD中。

　　層III是最復(fù)雜的編碼算法，但是在相同的比特率下，它所提供的音質(zhì)也是最好的。典型的比特率為64 kbit/s，最適合于ISDN上的音頻傳輸。

　　1998年4月22日，APT(Audio Processing Technique)公司利用Apt-X100系統(tǒng)，通過(guò)ISDN線路，成功地轉(zhuǎn)播了北京—東京—上海的“國(guó)際地球日”大型廣播音樂(lè)會(huì)。但是，這次轉(zhuǎn)播占用了3條(即6個(gè)B)的ISDN線路，以保證22 kHz頻響的立體聲傳送，這是由于Apt-X100系統(tǒng)采用的是SB/ADPCM音頻壓縮方法[2]。然而，如果使用MPEG層III音頻壓縮方法，只需要一條ISDN線路，就可以實(shí)現(xiàn)22 kHz頻響的立體聲傳送。由于MPEG層III音頻壓縮編碼復(fù)雜度太高，運(yùn)算量太大，難以用一般的DSP(Digital Signal Processor)單片實(shí)現(xiàn)，所以在目前的音響設(shè)備中很少使用這一算法。為了能用較低的成本實(shí)現(xiàn)MPEG層III這一高效音頻壓縮算法，我們對(duì)這一算法進(jìn)行了全面分析，提出了適用于DSP實(shí)現(xiàn)的編碼加速方案。

　　2　MPEG音頻層III壓縮編碼流程及特點(diǎn)

　　MPEG音頻層III壓縮編碼流程如圖1所示，相對(duì)于層Ⅰ和層Ⅱ而言，其特點(diǎn)在于：

　　圖1　MPEG音頻層Ⅲ編碼流程圖(單聲道模型)

　　(1)利用獨(dú)立于信號(hào)頻率及聲壓級(jí)的耳蝸擴(kuò)散函數(shù)(Cochlea spreading function)—Modified Rounded 類擴(kuò)散函數(shù)，計(jì)算人耳聽(tīng)覺(jué)的掩蔽門限。

　　(2)增加了MDCT模塊，以提高頻率分辨率。

　　(3)通過(guò)控制環(huán)，對(duì)非均勻量化率進(jìn)行迭代分配，以保持相對(duì)恒定的信噪比。并且，采用不定長(zhǎng)熵編碼—Huffman編碼，對(duì)量化后的各子帶信號(hào)可以獲得更好的數(shù)據(jù)壓縮比。

　　將層III編碼算法流程分成：(1)時(shí)頻映射，(2)心理聲學(xué)模型，(3)量化編碼等三大功能塊。時(shí)頻映射中，是多相混合濾波器組(Polyphase/MDCT Hybrid Filter Bank)的計(jì)算，這是較規(guī)范的計(jì)算，其運(yùn)算量是可計(jì)算的。而且有各種快速算法，以降低運(yùn)算復(fù)雜度。心理聲學(xué)模型的計(jì)算，主要運(yùn)算量集中在1 024點(diǎn)和256點(diǎn)的FFT。不過(guò)，這是比較標(biāo)準(zhǔn)的計(jì)算過(guò)程，無(wú)論用哪種FFT都可以精確估計(jì)其運(yùn)算復(fù)雜度。而量化編碼是通過(guò)迭代循環(huán)來(lái)完成，其循環(huán)控制變量是不確定的，再加上Huffman碼表的查找表過(guò)程，使其運(yùn)算量和復(fù)雜度難以預(yù)測(cè)和估計(jì)。因此，我們認(rèn)為：量化編碼部分的規(guī)范化是優(yōu)化MPEG音頻層 III編碼的突破點(diǎn)。

　　層III編碼器迭代循環(huán)與量化編碼部分完成的功能是：將子帶濾波和MDCT變換后的樣值進(jìn)行量化并根據(jù)心理聲學(xué)模型的計(jì)算結(jié)果進(jìn)行量化噪聲的控制，使得在一定比特率要求的情況下完成頻域信號(hào)的Huffman編碼。層III量化編碼部分的迭代循環(huán)分為內(nèi)循環(huán)和外循環(huán)，參考文獻(xiàn)[1]中FigureC. 9.a，C.9.b，C.9.c給出了量化編碼的迭代循環(huán)流圖。

　　3　用DSP實(shí)現(xiàn)音頻層III壓縮的主要問(wèn)題及解決方案

　　DSP編程并不提供像C語(yǔ)言一樣的靈活指針、數(shù)組尋址操作。在用DSP實(shí)現(xiàn)音頻層III壓縮中的迭代循環(huán)量化編碼時(shí)，由于涉及到非規(guī)則性的大量數(shù)組尋址操作，而消耗大量指令，降低了DSP的利用率，抑制了編碼的實(shí)時(shí)實(shí)現(xiàn)。因此，不規(guī)則的類似表查詢指令，需要經(jīng)過(guò)很好的組織才能夠使程序結(jié)構(gòu)清楚，簡(jiǎn)潔，高效。

新聞中心

用DSP實(shí)現(xiàn)MPEG音頻層III壓縮的加速方法

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)