C代碼在TMS320C54X上的手工匯編優(yōu)化

作者：時(shí)間：2008-06-05 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

1引言

隨著DSP技術(shù)的不斷發(fā)展和完善，數(shù)字信號(hào)處理的應(yīng)用范圍越來(lái)越廣泛。工控、計(jì)算機(jī)、通信和消費(fèi)電子產(chǎn)品中，都會(huì)找到它的影子。近年來(lái)，隨著多媒體通信的蓬勃發(fā)展，DSP也越來(lái)越多的應(yīng)用在多媒體通信中，而在多媒體通信中DSP多用于語(yǔ)音壓縮和圖像處理等方面，而這些都需要巨大的計(jì)算量，在實(shí)時(shí)通信中一些低速DSP難以滿足要求，而使用高速DSP會(huì)大大提高成本，所以對(duì)代碼進(jìn)行優(yōu)化是現(xiàn)在DSP開(kāi)發(fā)中常用的一種方法。由于DSP的特殊結(jié)構(gòu)，編譯器的編譯效率都比較低，難以將DSP計(jì)算能力全部發(fā)揮出來(lái)，所以就必須根據(jù)DSP的特殊結(jié)構(gòu)和指令集代碼進(jìn)行手工的匯編 優(yōu)化。

本文結(jié)合筆者在TI公司的TMS320VC5402DSP上的對(duì)G.729算法的優(yōu)化經(jīng)驗(yàn)，提出一些優(yōu)化的方法和建議，而這些方法也適用其他54系列的DSP。

2芯片介紹

TMS320C54X是TI公司于1996年推出的新一代定點(diǎn)數(shù)字處理器，它具有功耗小、高度并行等優(yōu)點(diǎn)，可以滿足電信等眾多領(lǐng)域的實(shí)時(shí)處理要求。54系列有很多不同型號(hào)的芯片，它們的結(jié)構(gòu)都是一樣的，只是在接口和存儲(chǔ)器空間上有些不同。在54系列眾多DSP芯片中TMS320VC5402是使用最廣泛的一種芯片，接下來(lái)將以TMS320VC5402為例介紹54系列DSP的性能特點(diǎn)：

●運(yùn)算速度最高達(dá)100MIPS
●具有先進(jìn)的多總線結(jié)構(gòu),三條16位數(shù)據(jù)存儲(chǔ)器總線和一條程序存儲(chǔ)器總線
●40位算術(shù)邏輯單元（ALU），包括一個(gè)40位桶形移位器和兩個(gè)40位累加器
●一個(gè)17bit17bit乘法器和40位專用加法器，允許16位帶/不帶符號(hào)乘法
●8個(gè)輔助寄存器和一個(gè)軟件棧
●內(nèi)部采用改進(jìn)的哈佛結(jié)構(gòu)，程序空間和數(shù)據(jù)空間分開(kāi)，允許同時(shí)取指令和取操作數(shù)，并且允許在程序和數(shù)據(jù)空間相互傳送數(shù)據(jù)
●最大64K16bit外部數(shù)據(jù)空間，最大1M16bit外部程序空間，4K16bit片內(nèi)ROM，16K16bit片內(nèi)RAM
●內(nèi)置可編程等待狀態(tài)發(fā)生器、鎖相環(huán)（PLL）時(shí)鐘發(fā)生器、兩個(gè)多通道緩沖串口、一個(gè)8位并行與外部處理器通信的HPI口、兩個(gè)16位定時(shí)器以及6通道DMA控制器
●支持單指令循環(huán)和塊循環(huán)，采用六級(jí)流水線，將一條指令執(zhí)行所需要的取指、譯碼、取操作數(shù)并執(zhí)行等幾個(gè)步驟同時(shí)完成，是指令周期降到最小適合算法的優(yōu)化

3代碼優(yōu)化

對(duì)C代碼進(jìn)行手工匯編優(yōu)化有三種方法：1.對(duì)照C代碼寫(xiě)出匯編代碼，這種方法優(yōu)化的效率很高，但是開(kāi)發(fā)難度很大特別是當(dāng)代碼量很大，結(jié)構(gòu)很復(fù)雜時(shí)優(yōu)化很容易出錯(cuò)；2.先用編譯器產(chǎn)生匯編代碼，然后改寫(xiě)匯編代碼，這種方法優(yōu)化的效率較低，因?yàn)榭蚣鼙幌薅耍情_(kāi)發(fā)難度降低了，不容易出錯(cuò)。
由于現(xiàn)在常用的一些音頻、圖像處理算法都是結(jié)構(gòu)很復(fù)雜的程序，所以建議使用第二種優(yōu)化方法。

3.1產(chǎn)生匯編代碼

TI公司為DSP開(kāi)發(fā)者提供一套編譯開(kāi)發(fā)平臺(tái)叫CCS（CodeComposerStudio）,該工具提供了編譯器可以將C語(yǔ)言的程序編譯為DSP的匯編語(yǔ)言程序，然后鏈接生成可以在DSP上執(zhí)行的COFF格式的out文件。

產(chǎn)生匯編代碼

而CCS自身也提供優(yōu)化器可對(duì)C代碼進(jìn)行優(yōu)化，并產(chǎn)生匯編語(yǔ)言程序，具體過(guò)程如圖1所示。

CCS提供了4級(jí)的文件優(yōu)化方案，分別是O0、O1、O2、O3,以下具體說(shuō)明
。
(1)O0寄存器級(jí)別

●執(zhí)行控制流程簡(jiǎn)化
●用寄存器分配變量
●執(zhí)行交替循環(huán)
●排除未用的代碼
●簡(jiǎn)化公式和表述
●擴(kuò)大對(duì)內(nèi)連函數(shù)的調(diào)用

(2)O1局部級(jí)別

執(zhí)行所有O0級(jí)別的優(yōu)化，并且：

●執(zhí)行局部常量的傳播
●排除未用的賦值
●排除局部共用表達(dá)式

(3)O2函數(shù)級(jí)別

執(zhí)行所有O1級(jí)別的優(yōu)化，并且：

●執(zhí)行循環(huán)優(yōu)化
●排除全局共用子表達(dá)式
●排除全局不用的賦值
●執(zhí)行打開(kāi)循環(huán)

(4)O3文件級(jí)別

執(zhí)行所有O1級(jí)別的優(yōu)化，并且：

●排除未被調(diào)用的函數(shù)
●簡(jiǎn)化返回值沒(méi)被使用的函數(shù)
●讓小函數(shù)變成內(nèi)聯(lián)調(diào)用
●保存函數(shù)說(shuō)明，以便主函數(shù)被優(yōu)化時(shí)知道被調(diào)用函數(shù)的屬性
●識(shí)別文件級(jí)別的變量的特性

在使用O3級(jí)別的優(yōu)化時(shí)，還可以使用別的選項(xiàng)執(zhí)行更細(xì)致的優(yōu)化

●OLN得到標(biāo)準(zhǔn)庫(kù)函數(shù)的文件
●ONN創(chuàng)造優(yōu)化信息文件
●PM執(zhí)行程序級(jí)別優(yōu)化，編譯多個(gè)源文件

而我們?cè)谧鰞?yōu)化時(shí)，選的是O2級(jí)別的優(yōu)化，因?yàn)槭褂肙2級(jí)別優(yōu)化后產(chǎn)生的匯編文件帶有比較多的注釋信息，比較容易看懂程序，建議對(duì)程序不太熟和對(duì)匯編語(yǔ)言不太熟練的人使用。

3.2手工匯編優(yōu)化

因?yàn)閰R編語(yǔ)言可讀性很差，并且代碼量很大，所以手工優(yōu)化工作量很大，并且容易出錯(cuò)。為了確保優(yōu)化不出錯(cuò)，我們就先制作一段測(cè)試序列即程序的輸入，然后運(yùn)行程序?qū)ζ溥M(jìn)行處理，生成一段正確的結(jié)果序列，檢驗(yàn)手工優(yōu)化是否正確就是用優(yōu)化過(guò)的程序?qū)ο嗤臏y(cè)試序列進(jìn)行處理，比較生成的結(jié)果序列和正確的結(jié)果序列是否一樣，一樣的話就代表優(yōu)化無(wú)誤。不過(guò)測(cè)試序列要比較長(zhǎng)，因?yàn)橛械腻e(cuò)誤開(kāi)始不會(huì)顯現(xiàn)出來(lái)，只是慢慢累積，運(yùn)行一段時(shí)間才會(huì)出現(xiàn)。

接下來(lái)，就開(kāi)始手工優(yōu)化的工作。下面就是我對(duì)手工優(yōu)化的一些經(jīng)驗(yàn)。

(1)盡量少進(jìn)行函數(shù)調(diào)用。因?yàn)檫M(jìn)行函數(shù)調(diào)用的時(shí)候，要將PC壓棧，還要將一些寄存器壓棧，函數(shù)調(diào)用完后，還要出棧，這都是一些不必要的操作，所以一些小的函數(shù)，就不調(diào)用，而是直接寫(xiě)入主函數(shù)里，這樣可以就可以減少那些壓棧出棧的操作，提高速度。

(2)優(yōu)化循環(huán)時(shí)，盡量將一些操作放到循環(huán)外面去，減少操作的次數(shù)。例如一些賦值和初始化操作，可以提到循環(huán)外面去做，來(lái)提高速度。

(3)去除一些冗余的賦值。編譯器產(chǎn)生的代碼有很多賦值，經(jīng)常將一個(gè)值賦給寄存器，再賦給變量，這樣就產(chǎn)生了冗余。

(4)盡量使用RPT和RPTB來(lái)執(zhí)行循環(huán)操作。在編譯器產(chǎn)生的代碼里很多循環(huán)操作是通過(guò)條件判別來(lái)實(shí)現(xiàn)的，這樣就多了很多無(wú)用的判別代碼，而54x的DSP芯片就提供專門的循環(huán)指令：RPT和RPTB。RPT的功能就是循環(huán)執(zhí)行下一條指令，循環(huán)次數(shù)由RC寄存器的值決定，循環(huán)次數(shù)是RC寄存器的值加1，所以執(zhí)行循環(huán)前要將循環(huán)次數(shù)減1賦給RC寄存器；RPTB是塊循環(huán)指令，它的功能是循環(huán)執(zhí)行一段指令，它的循環(huán)次數(shù)由BRC寄存器決定，循環(huán)次數(shù)是BRC的寄存器的值加1，所以使用前需將循環(huán)次數(shù)減1賦給BRC寄存器。

(5)使用比較快的尋址方式。在數(shù)字信號(hào)處理里面，會(huì)對(duì)大量的數(shù)據(jù)進(jìn)行大量的運(yùn)算，如果使用比較快的尋址方式會(huì)大大減少指令周期。因?yàn)閿?shù)據(jù)大多是順序存放，所以我們用寄存器去尋址，操作完后自加1而指向下個(gè)數(shù)據(jù)，這樣尋址會(huì)減少很多指令周期。

(6)使用循環(huán)緩沖區(qū)。因?yàn)镕FT，F(xiàn)IR等常用運(yùn)算中都需要對(duì)數(shù)據(jù)進(jìn)行移位操作，如果數(shù)據(jù)量大的話，程序花在數(shù)據(jù)移位上的開(kāi)銷就很大了，如果使用循環(huán)緩沖區(qū)就可以不進(jìn)行這些操作從而提高速度。

(7)使用一些專用指令。在54的指令系統(tǒng)里，有一些專用指令執(zhí)行一些特殊的操作，例如平方，F(xiàn)IR等，如果用其他指令代替需要多個(gè)指令周期,而使用專用指令值需要一個(gè)指令周期。

(8)使用并行指令。因?yàn)镈SP的流水線結(jié)構(gòu)，可以讓一些指令同時(shí)運(yùn)行，就產(chǎn)生了并行指令，使用并行指令會(huì)大大減少指令周期。

(9)將一些常用的程序和數(shù)據(jù)，放在片內(nèi)RAM運(yùn)行。DSP芯片上一般都帶有RAM，而片內(nèi)RAM的尋址速度比片外RAM快一至兩倍，所以將常用程序和數(shù)據(jù)放在片內(nèi)，會(huì)大大提高運(yùn)行速度。

3.3優(yōu)化中常遇見(jiàn)的問(wèn)題

在手工優(yōu)化過(guò)程時(shí)會(huì)遇到很多問(wèn)題，以下幾點(diǎn)比較常見(jiàn)。

(1)對(duì)一些寄存器的設(shè)置。因?yàn)槭鞘止?yōu)化，所以對(duì)一些寄存器都要自己賦值，例如ST0、ST1和PMST等，不同的設(shè)置會(huì)導(dǎo)致運(yùn)算結(jié)果的不一樣。其中一些用的比較多的位有SXM、OVM和FRCT。SXM是符號(hào)擴(kuò)展位，如果SXM=0就不進(jìn)行符號(hào)擴(kuò)展，如果SXM=1就進(jìn)行符號(hào)擴(kuò)展（見(jiàn)圖2a）。OVM是溢出模式位，當(dāng)發(fā)生溢出時(shí)，如果OVM=0溢出的結(jié)果就被送往目的寄存器，如果OVM=1就往目的寄存器送最大的正數(shù)（007FFFFFFFh）或最小的負(fù)數(shù)（FF80000000h）。FRCT是小數(shù)模式位，當(dāng)FRCT=1時(shí)乘法的結(jié)果會(huì)左移一位（見(jiàn)圖2b）。以上3個(gè)標(biāo)志位的置位和復(fù)位是由SSBX和RSBX指令來(lái)完成的。

(2)注意流水線沖突。5402的芯片有一個(gè)6級(jí)深度的指令流水線，這6級(jí)流水線彼此是獨(dú)立的，在任何一個(gè)機(jī)器周期內(nèi)，可以有1至6條不同的指令在工作。這6級(jí)流水線的功能分別是預(yù)取指、取指、譯碼、尋址、讀數(shù)和執(zhí)行。C5402多級(jí)流水線操作可以讓多條指令同時(shí)指令訪問(wèn)CPU資源，如果多個(gè)流水線同時(shí)訪問(wèn)到相同的資源，就可能發(fā)生流水線沖突，有些沖突可以由CPU通過(guò)延遲尋址的方法自動(dòng)緩解，而有的沖突是不能防止的，需要由程序重新安排指令或插入空操作來(lái)解決。當(dāng)用CCS編譯器對(duì)C程序進(jìn)行編譯的時(shí)候，編譯器會(huì)自動(dòng)加入NOP指令來(lái)解決流水線沖突，而進(jìn)行手工優(yōu)化的時(shí)候，就要特別注意這個(gè)問(wèn)題，大部分流水線沖突都是因?yàn)橥瑫r(shí)訪問(wèn)到某些寄存器，只要根據(jù)等待周期表加入相應(yīng)的NOP指令就可以解決。

(3)對(duì)一些參數(shù)的保存。在手工優(yōu)化的過(guò)程中，我們會(huì)用某些寄存器來(lái)傳遞數(shù)據(jù)，而在此過(guò)程中，如果調(diào)用了別的函數(shù)，這些寄存器的值就有可能被改變，所以在調(diào)用這些函數(shù)的時(shí)候，要先將這些參數(shù)壓棧保存，調(diào)用完后再將其出?；謴?fù)。還有就是某些標(biāo)志位的保存，因?yàn)樵谡{(diào)用函數(shù)的過(guò)程會(huì)改變這些狀態(tài)標(biāo)志位，所以在調(diào)用完后要將其恢復(fù)。

(4)循環(huán)緩沖區(qū)地址分配問(wèn)題。循環(huán)緩沖區(qū)的地址分配必須對(duì)齊，長(zhǎng)度為R的緩沖區(qū)必須從N位地址的邊界開(kāi)始（即循環(huán)緩沖區(qū)基地址的N個(gè)最低有效位必須為0），N是滿足2N>R的最小的整數(shù)。例如，長(zhǎng)度R=31的循環(huán)緩沖區(qū)必須從地址XXXXXXXXXXX000002（N=5，25>>31，該地址的最低5位為0）。

(5)內(nèi)存泄漏問(wèn)題。因?yàn)镈SP使用的是哈佛結(jié)構(gòu)，數(shù)據(jù)空間和程序空間是分開(kāi)的，一般數(shù)據(jù)的操作不會(huì)影響到程序。但是DSP芯片上都帶有RAM，而這些空間數(shù)據(jù)和程序是共享的，所以對(duì)該部分的數(shù)據(jù)進(jìn)行操作，如果有泄漏的話會(huì)改寫(xiě)程序，導(dǎo)致程序跑飛。因此程序跑飛的話，就要考慮是否有內(nèi)存泄漏。

4結(jié)論

以上經(jīng)驗(yàn)和技巧均是筆者在實(shí)際的DSP工程中總結(jié)得出，實(shí)踐證明對(duì)實(shí)際開(kāi)發(fā)非常有幫助。以筆者對(duì)G.729算法優(yōu)化為例，在優(yōu)化之前，G.729的運(yùn)算量為1000MIPS，優(yōu)化后的運(yùn)算量為30MIPS，提高了30多倍，可見(jiàn)優(yōu)化的效果很明顯。以上這些經(jīng)驗(yàn)主要是針對(duì)TI公司的54系列，但對(duì)于別的型號(hào)的DSP也有借鑒作用。

參考文獻(xiàn)

1彭啟琮.TMS320C54X實(shí)用教程.電子科技大學(xué)出版社，2000
2戴明楨.TMS320C54X數(shù)字信號(hào)處理器結(jié)構(gòu)、原理及應(yīng)用.TIDSPSUNIVERSITY,2000

新聞中心

C代碼在TMS320C54X上的手工匯編優(yōu)化

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)