通過(guò)FLIX指令結(jié)構(gòu)提高可配置處理器計(jì)算性能

作者：時(shí)間：2012-06-02 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　指令集的性能更多地是與有用的操作個(gè)數(shù)相關(guān)，而不是與每個(gè)執(zhí)行部件的執(zhí)行時(shí)間或者每個(gè)時(shí)鐘的執(zhí)行相關(guān)。然而，高性能并不能保證系統(tǒng)具有良好的靈活性。指令集的靈活性與不同應(yīng)用領(lǐng)域的多樣性相關(guān)，在這些應(yīng)用中，數(shù)據(jù)運(yùn)算能夠在指令流中進(jìn)行有效編碼。一個(gè)較長(zhǎng)的指令字一般可以允許更多數(shù)量和更多樣性的操作以及操作數(shù)標(biāo)志符在每個(gè)指令字中進(jìn)行編碼。

　　在RISC體系結(jié)構(gòu)中，一條指令通常只對(duì)一個(gè)原始操作進(jìn)行編碼。在長(zhǎng)指令字體系結(jié)構(gòu)中，一條指令可以允許對(duì)多個(gè)獨(dú)立的子指令進(jìn)行編碼，每條子指令都有自己的操作和操作數(shù)標(biāo)志符。每條子指令可以是一般的類似于RISC指令的操作或者是一條比較復(fù)雜的專用操作。指令字設(shè)計(jì)的越長(zhǎng)，那么對(duì)于任意給定的操作數(shù)個(gè)數(shù)和操作個(gè)數(shù)而言，指令編碼就越簡(jiǎn)單，正交性就越好。

　　長(zhǎng)指令字處理器速度并不總是比RISC處理器快。有時(shí)，RISC處理器執(zhí)行單元的簡(jiǎn)單性所帶來(lái)的優(yōu)點(diǎn)將使得處理器能夠以最大時(shí)鐘頻率運(yùn)行，并且每個(gè)時(shí)鐘周期可以執(zhí)行幾條獨(dú)特的RISC指令，這將能夠彌補(bǔ)因RISC指令集相對(duì)簡(jiǎn)單所帶來(lái)的損失。盡管如此，在絕大多數(shù)要求數(shù)據(jù)密集型的任務(wù)中使用RISC指令集，但是指令集采用超標(biāo)量方式實(shí)現(xiàn)，每個(gè)時(shí)鐘周期執(zhí)行多條指令，這同長(zhǎng)指令字體系結(jié)構(gòu)中那種充分利用程序代碼中潛在的指令操作的并行性是一樣的。

　　圖1表示一個(gè)基本的長(zhǎng)指令操作編碼示例，圖中列出一個(gè)64位的指令字，該指令字包括三個(gè)獨(dú)立的子指令槽，每個(gè)指令槽說(shuō)明一個(gè)操作和若干操作數(shù)。第一個(gè)子指令（子指令0）有一個(gè)操作碼和四個(gè)操作數(shù)說(shuō)明符（包括兩個(gè)源寄存器、一個(gè)立即數(shù)域和一個(gè)目的寄存器）。第二個(gè)和第三個(gè)子指令（子指令1和2）各有一個(gè)操作碼和三個(gè)操作數(shù)說(shuō)明符（兩個(gè)源寄存器和一個(gè)源/目的寄存器）。左邊的兩位格式域表示各個(gè)子指令的特定分組情況。如果處理器支持變長(zhǎng)指令編碼的話，那么兩位的格式域也可以表示整個(gè)指令的長(zhǎng)度。

　　顯然，系統(tǒng)硬件開(kāi)銷和長(zhǎng)指令字是相關(guān)的。指令存儲(chǔ)器位數(shù)越寬，譯碼邏輯就越大，并且系統(tǒng)就需要更多數(shù)量的執(zhí)行部件，而且寄存器文件（或者寄存器文件端口）實(shí)現(xiàn)就必須滿足指令并行性的要求。更大的硬件邏輯模塊越多，系統(tǒng)優(yōu)化就越困難，所以，同相對(duì)簡(jiǎn)單和位數(shù)較少的RISC指令那樣編碼相比較，整個(gè)系統(tǒng)的最大時(shí)鐘頻率就會(huì)降低。盡管如此，追求系統(tǒng)性能和靈活性的優(yōu)點(diǎn)還是最基本的，尤其是對(duì)于那些具有高的程序潛在并行性的數(shù)據(jù)密集型應(yīng)用。

　　在有些長(zhǎng)指令字體系結(jié)構(gòu)中，每個(gè)子指令都幾乎具有完整的獨(dú)自資源，包括專用執(zhí)行部件、專用寄存器堆和專用的數(shù)據(jù)存儲(chǔ)器。在另外一些處理器體系結(jié)構(gòu)中，所有子指令共享公用寄存器堆和數(shù)據(jù)存儲(chǔ)器，為保證有效的數(shù)據(jù)共享系統(tǒng)需要大量的數(shù)據(jù)端口與公用存儲(chǔ)器結(jié)構(gòu)．

　　長(zhǎng)指令字體系結(jié)構(gòu)對(duì)于如下問(wèn)題而言也會(huì)有很大不同：一條長(zhǎng)指令字該多“長(zhǎng)”？對(duì)于高端計(jì)算機(jī)系統(tǒng)處理器（例如英特爾的安騰處理器系列）和高端嵌入式處理器（例如TI公司的TMS320C6400 DSP系列）而言，指令字確實(shí)是非?！伴L(zhǎng)”，通常幾百位。對(duì)于更多的對(duì)成本和功耗敏感的嵌入式應(yīng)用，指令字可能是64位。但是，一旦多個(gè)獨(dú)立的子指令打包成每個(gè)指令字后，關(guān)鍵的處理器體系結(jié)構(gòu)原理都是一樣的。

　　代碼大小和長(zhǎng)指令字

　　同每條指令只對(duì)一個(gè)獨(dú)立操作進(jìn)行編碼的體系結(jié)構(gòu)相比，長(zhǎng)指令字體系結(jié)構(gòu)的一個(gè)共同問(wèn)題是代碼量大。這是超常指令字VLIW體系結(jié)構(gòu)的一個(gè)通病，然而這對(duì)于那些片上系統(tǒng)（SoC）設(shè)計(jì)而言尤其重要，因?yàn)镾oC系統(tǒng)中的指令存儲(chǔ)器通常會(huì)占用絕大多數(shù)的芯片面積。同那些編譯代碼有效的體系結(jié)構(gòu)相比，VLIW代碼通常需要多占用代碼存儲(chǔ)容量的兩倍到五倍。

　　 VLIW體系結(jié)構(gòu)中程序代碼的膨脹問(wèn)題部分源于指令長(zhǎng)度的不靈活性。例如，如果編譯器只能找到一個(gè)獨(dú)立操作，其源操作數(shù)和執(zhí)行部件都已經(jīng)準(zhǔn)備好，那么此時(shí)編譯器就不得不在編碼時(shí)插入空操作NOP來(lái)填滿剩下的幾個(gè)子指令操作域。指令存儲(chǔ)已經(jīng)占用了大部分的嵌入式片上系統(tǒng)SoC硅片面積，因此代碼擴(kuò)充就造成了更大的硬件開(kāi)銷和更低的指令高速緩存性能，或者二者兼而有之。

　　VLIW代碼膨脹問(wèn)題的第二個(gè)根源在于體系結(jié)構(gòu)對(duì)常用操作的松散編碼，這在VLIW微處理器中是常見(jiàn)的。

　　然而，長(zhǎng)指令并非必然會(huì)導(dǎo)致VLIW代碼膨脹問(wèn)題。Tensilica的Vectra LX DSP體系結(jié)構(gòu)中的一個(gè)長(zhǎng)指令字在指令流中只需要20位就可以說(shuō)明8個(gè)按照單指令流多數(shù)據(jù)流SIMD方式執(zhí)行的16位乘加操作MAC，這不包括其它的加載、存儲(chǔ)、分支和地址計(jì)算指令。

新聞中心

通過(guò)FLIX指令結(jié)構(gòu)提高可配置處理器計(jì)算性能

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)