基于ARM946E處理器的MP3解碼優(yōu)化系統(tǒng)設(shè)計(jì)
1 MPEG Audio Layer3的解碼流程
MP3解碼算法流程如圖1所示。
主要過(guò)程包括:數(shù)據(jù)流解碼、Huffman解壓縮、反量化與重排序、立體聲解碼、IMDCT和子帶合成運(yùn)算等。其中Huffman解碼與反量化、IMDCT和子帶合成等3個(gè)過(guò)程在MP3解碼過(guò)程中占用了最多的CPU和內(nèi)存資源,是嵌入式系統(tǒng)實(shí)現(xiàn)軟件解碼的關(guān)鍵。
2 ARM946E處理器
ARM946E處理器屬于ARM9內(nèi)核帶有E擴(kuò)展的一個(gè)可綜合版本,執(zhí)行v5TE架構(gòu)指令。采用5級(jí)流水線,存儲(chǔ)器系統(tǒng)根據(jù)哈佛體系結(jié)構(gòu)重新設(shè)計(jì),獨(dú)立的數(shù)據(jù)和指令總線。帶有一套存儲(chǔ)器子系統(tǒng),以提高系統(tǒng)性能和支持大型操作系統(tǒng)。
如圖2所示,存儲(chǔ)器子系統(tǒng)包含1個(gè)存儲(chǔ)器保護(hù)單元(MPU)、高速緩存(Cache)和寫(xiě)緩沖(Write Buffer);CPU通過(guò)該子系統(tǒng)與系統(tǒng)存儲(chǔ)器相連。
相對(duì)于ARM7,ARM9E性能上的提高主要表現(xiàn)在工作頻率、改進(jìn)的硬件特性及優(yōu)化的指令執(zhí)行效率。另外,ARM9E集成了輕量級(jí)的DSP處理能力,以很小的成本(CPU增加功能需要增加硬件)換來(lái)非常實(shí)用的DSP性能。充分利用好芯片資源是實(shí)現(xiàn)MP3解碼優(yōu)化的關(guān)鍵。
3算法優(yōu)化
針對(duì)MP3中涉及較大運(yùn)算的Huffman解碼與反量化、IMDCT和子帶合成,分別提出算法優(yōu)化處理。
3.1 定長(zhǎng)查找冗余表Huffman解碼算法
Huffman解碼器可以通過(guò)從頭至尾逐一檢測(cè)各符號(hào),以查表比較的方式進(jìn)行解碼。即從一維的bit流中分辨出各個(gè)長(zhǎng)度不同的Huffman碼字,然后進(jìn)行復(fù)雜的匹配。
由于LayerⅢ中的Huffman碼表組長(zhǎng)度不一,會(huì)增加碼字的搜索時(shí)間。定長(zhǎng)查找冗余表法擴(kuò)充Huff—man查找表,每次選取定長(zhǎng)N bit碼流作為查找索引。查找表中包括跳轉(zhuǎn)指針和編碼值。
若節(jié)點(diǎn)索引值為跳轉(zhuǎn)指針時(shí),將通過(guò)擴(kuò)充Huffman查找表得知此Huffman編碼的后續(xù)bit數(shù),并跳轉(zhuǎn)到另外一個(gè)節(jié)點(diǎn);然后再根據(jù)后續(xù)bit數(shù)從碼流中取值;接著從上次跳轉(zhuǎn)節(jié)點(diǎn)開(kāi)始查找,如此重復(fù)直到找出對(duì)應(yīng)huffman編碼的內(nèi)容。查找表利用Union數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn),可減小Huffman表占用的空間。假設(shè)一Huffman編碼長(zhǎng)度為1,采用傳統(tǒng)算法需要1次移位操作和1次比較,使用定長(zhǎng)查找法只需[l/N]次查找和[l/N]次比較操作。
表1,表2是Huffman解碼的舉例說(shuō)明:
若Huffman編碼為000000001010(內(nèi)容為“DAB”),定長(zhǎng)N=3,即每次從碼流中取3 b數(shù)據(jù),解碼步驟如下:
(1)取3 b數(shù)據(jù)000,從Huffman查找表檢索,000對(duì)應(yīng)為指針類(lèi)型,指向表項(xiàng)號(hào)8,標(biāo)志位為0,說(shuō)明沒(méi)有取到1個(gè)完整的Huffman編碼,后續(xù)仍有3 b數(shù)據(jù);
(2)繼續(xù)取3 b數(shù)據(jù)000,從Huffman查找表的第8項(xiàng)開(kāi)始檢索,索引值為000對(duì)應(yīng)的內(nèi)容為“D”,此時(shí)標(biāo)志位為1,即表示已完成1次Huffman解碼;
(3)取3 b數(shù)據(jù)001,對(duì)應(yīng)表內(nèi)的第1項(xiàng),標(biāo)志位為1說(shuō)明已取完該個(gè)Huffman編碼,表項(xiàng)內(nèi)容為“A”;
(4)取3 b數(shù)據(jù)010,對(duì)應(yīng)表內(nèi)的第2項(xiàng),表項(xiàng)內(nèi)容為“B”。
至此,已完整從Huffman編碼“000000001010”解碼出“DAB”的內(nèi)容。
3.2 IMDCT與合成子帶濾波的簡(jiǎn)化算法
反離散修正余弦變換(IMDCT)是在去混疊處理之后進(jìn)行的,它的計(jì)算公式如式(1)所示:
子帶合成濾波在解碼過(guò)程中包括了32點(diǎn)到64點(diǎn)的IMDCT處理,如式(3)所示:
由于N(i)(k)具有對(duì)稱(chēng)特性,可以得出:
只要計(jì)算0≤in/4和n/2+1≤i3n/4范圍的V(i)值即可。其減少了將近一半的計(jì)算量。
4代碼優(yōu)化
根據(jù)ARM946E處理器硬件特點(diǎn),對(duì)實(shí)時(shí)性要求較高的關(guān)鍵程序進(jìn)行C語(yǔ)言和ARM匯編級(jí)代碼優(yōu)化。
4.1減計(jì)數(shù)循環(huán)體
IMDCT和子帶合成濾波器組2個(gè)運(yùn)算量最大部分中有多個(gè)循環(huán)體運(yùn)算,為了提高執(zhí)行效率,推薦使用減計(jì)數(shù)循環(huán)體。
如表3所示,對(duì)于固定次數(shù)的循環(huán),減計(jì)數(shù)循環(huán)比增計(jì)數(shù)循環(huán)速度快。這是因?yàn)槊看卧鲇?jì)數(shù)循環(huán)體外加3條指令,而減計(jì)數(shù)循環(huán)體外只有2條指令,減循環(huán)終止條件為減計(jì)數(shù)到零,而不是計(jì)數(shù)增加到某個(gè)特定的限制值。由于減計(jì)數(shù)結(jié)果已存儲(chǔ)在指令條件標(biāo)志里,省去與零比較指令。
4.2 內(nèi)聯(lián)函數(shù)和內(nèi)嵌匯編
MP3解碼算法中定點(diǎn)化乘法都是通過(guò)函數(shù)調(diào)用來(lái)實(shí)現(xiàn),每次調(diào)用需要開(kāi)銷(xiāo)23~28個(gè)時(shí)鐘周期,其中超過(guò)15個(gè)周期用于函數(shù)調(diào)用時(shí)PC指針以及寄存器壓棧保護(hù)上。采用內(nèi)聯(lián)函數(shù)方式(使用關(guān)鍵字_inline聲明)或宏指令,在編譯階段代碼段將被直接展開(kāi)。另外armcc編譯器允許在C源程序中使用內(nèi)嵌匯編(但代碼可移植性差),使用包括匯編的內(nèi)嵌函數(shù),可以使編譯器支持通常不能有效使用的ARM指令和優(yōu)化方法,例如C編譯器不支持的ARM v5E擴(kuò)展指令。使用內(nèi)聯(lián)函數(shù)結(jié)合內(nèi)嵌匯編實(shí)現(xiàn)移位乘法,可使平均時(shí)鐘周期縮短為6~8個(gè)。
4.3 ARM DSP擴(kuò)展指令的運(yùn)用
ARM946E處理器支持ARM DSP擴(kuò)展指令,主要包括3個(gè)類(lèi)型:
(1)單周期的16×16和32×16 MAC操作;
(2)對(duì)原有的算術(shù)運(yùn)算指令增加了飽和處理擴(kuò)展;
(3)前導(dǎo)零(CLZ)運(yùn)算指令,提高歸一化、浮點(diǎn)運(yùn)算以及除法操作的性能。
ARM處理器不支持浮點(diǎn)運(yùn)算,經(jīng)過(guò)測(cè)試及分析,定點(diǎn)運(yùn)算中數(shù)值的截?cái)嗾`差選擇為28 b,其可以達(dá)到較好的解碼音質(zhì),不會(huì)因?yàn)楸暨^(guò)多而影響播放效果。
完成類(lèi)似的乘法功能,ARM的SMULL(32×32)指令需要3個(gè)周期,而ARM DSP擴(kuò)展指令SMULWT(32×16)只需要1個(gè)周期。從數(shù)據(jù)的準(zhǔn)確性上分析,由于乘數(shù)的精度為16 b,最終結(jié)果有些差異,但由于MP3解碼運(yùn)算都是基于28 b的定點(diǎn)數(shù)值的,所以通常的運(yùn)算都是一個(gè)運(yùn)算結(jié)果跟某一個(gè)固定定點(diǎn)表中的數(shù)據(jù)相乘的。若選擇固定定點(diǎn)表中數(shù)據(jù)的高16 b數(shù)據(jù)進(jìn)行運(yùn)算,運(yùn)算的結(jié)果誤差在1 b以內(nèi)。
為了驗(yàn)證使用ARM DSP擴(kuò)展指令的優(yōu)化效果,在系統(tǒng)120 MHz主頻下,以128 Kb/s的壓縮速率進(jìn)行編碼測(cè)試,采用的測(cè)試文件如表4所示。
上述3個(gè)MP3測(cè)試文件的比特率均為128 Kb/s,使用這三首MP3歌曲進(jìn)行解碼分析結(jié)果如圖3所示。
實(shí)驗(yàn)表明,使用ARM DSP擴(kuò)展指令比使用ARM一般指令解碼性能平均提高17.5%,主觀聽(tīng)覺(jué)上音質(zhì)效果無(wú)差異。
5 結(jié) 語(yǔ)
這里充分利用ARM946E處理器的DSP擴(kuò)展指令特點(diǎn)提高程序代碼的執(zhí)行效率,對(duì)3個(gè)關(guān)鍵模塊:Huffman解碼,IMDCT運(yùn)算,合成子帶濾波進(jìn)行算法優(yōu)化及簡(jiǎn)化處理,減少了各模塊的運(yùn)算量,同時(shí)從C語(yǔ)言和ARM匯編層次來(lái)優(yōu)化代碼,取得了較好的實(shí)時(shí)MP3解碼效果。
評(píng)論