FPGA 解決方案和標(biāo)準(zhǔn)控制器內(nèi)核比較

作者：時(shí)間：2018-09-10 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開發(fā)套件 (EDK) 中提供的兩款32位內(nèi)核之一，是實(shí)現(xiàn)硬件加速的靈活工具。圖1是MicroBlaze的典型設(shè)計(jì)。該內(nèi)核含有一個(gè)32位乘法器，但不含浮點(diǎn)單元(FPU)、桶式移位器或?qū)Ｓ糜布铀倨?。?duì)Xilinx公司Spartan FPGA 器件而言，默認(rèn)系統(tǒng)含有區(qū)域優(yōu)化的MicroBlaze(采用三級(jí)流水線)，但大多數(shù)客戶通常在開始時(shí)使用速度優(yōu)化版(采用五級(jí)流水線)進(jìn)行性能評(píng)估，其優(yōu)點(diǎn)是小巧簡(jiǎn)潔，易于擴(kuò)展。

本文引用地址：http://2s4d.com/article/201809/388779.htm

　　Xilinx客戶針對(duì)這種處理器設(shè)計(jì)所要求的兩個(gè)實(shí)際應(yīng)用案例可說明MicroBlaze在硬件加速方面的作用。本文以 Spartan 器件為重點(diǎn)，比較 FPGA 解決方案和標(biāo)準(zhǔn)控制器內(nèi)核，展現(xiàn)我們能夠達(dá)到的性價(jià)比。這一方法同樣適用于Virtex FPGA。

　　案例1：實(shí)施位反轉(zhuǎn)算法

　　在第一個(gè)應(yīng)用示例中，假定MicroBlaze處理器的運(yùn)行速度僅為50MHz。采用 Spartan-3或Spartan-6器件可輕松實(shí)現(xiàn)這一速度。諸如本地存儲(chǔ)器總線(指令和數(shù)據(jù)，LMB)以及處理器本機(jī)總線(PLB)等所有內(nèi)部總線的運(yùn)行速度均達(dá)到50MHz。為簡(jiǎn)單起見，假定沒有連接外部DDR存儲(chǔ)器。

　　現(xiàn)在假設(shè)客戶想要在這個(gè)CPU上實(shí)施位反轉(zhuǎn)算法。MicroBlaze自身沒有通過硬件直接提供這個(gè)功能。再假定每秒需要完成2萬次位反轉(zhuǎn)操作。

　　要解決這個(gè)問題，大多數(shù)客戶首先會(huì)采用純軟件方案，因?yàn)檫@樣可輕松地實(shí)現(xiàn)想要的功能。而且如果性能足夠高，無需進(jìn)行任何修改。

　　為此，讓我們先從簡(jiǎn)單的軟件算法出發(fā)，實(shí)施簡(jiǎn)短精悍的解決方案。結(jié)果確實(shí)簡(jiǎn)單、精巧而且容易理解，不過效率很低。
unsigned int v=value;
unsigned int r = v;
int s = sizeof(v) * CHAR_BIT - 1;
for (v >>= 1; v; v >>= 1)
{
r = 1;
r |= v 1;
s--;
}
r = s;
return r;

　　這段程序運(yùn)行相當(dāng)順利，不過就算在專門針對(duì)速度優(yōu)化的MicroBlaze(使用五級(jí)流水線)上運(yùn)行處理一個(gè)32 位字的算法，也用了220個(gè)周期。要執(zhí)行2萬次位反轉(zhuǎn)操作，在速度為50MHz的MicroBlaze上約需88ms。

　　客戶試圖采用略有不同的方法來優(yōu)化算法，但仍作為純軟件解決方案來實(shí)施。

　　要進(jìn)一步提升性能，就要采用純硬件解決方案，通過一種新的方式來讓硬件加速器充分發(fā)揮性能。

　為了加速這種基礎(chǔ)操作，只需要在MicroBlaze快速單工鏈路(FSL)上連接一個(gè)非常簡(jiǎn)單的內(nèi)核。標(biāo)準(zhǔn)FSL實(shí)施方案使用FSL總線(包括同步或異步FIFO)將數(shù)據(jù)從 MicroBlaze內(nèi)核傳輸?shù)紽SL 硬件加速器IP核。帶FIFO 的FSL總線與FIFO可對(duì)上述兩者間的數(shù)據(jù)存取進(jìn)行去耦。

　　如果采用帶FIFO的標(biāo)準(zhǔn)FSL總線，則一般情況下執(zhí)行時(shí)間為4個(gè)周期：一個(gè)周期用來將MicroBlaze上的數(shù)據(jù)通過FSL寫入FIFO;一個(gè)周期用來將數(shù)據(jù)從FIFO 傳輸?shù)紽SL IP;一個(gè)周期用來把結(jié)果從FSL IP傳送回 FSL總線的FIFO中;最后一個(gè)周期則負(fù)責(zé)從FSL總線讀出結(jié)果并傳輸至 MicroBlaze。

　　MicroBlaze到FSL總線的連接以及FSL總線到FSL IP的連接可在EDK的圖形視圖中輕松創(chuàng)建。

　　這樣代碼要長得多，效率也有大幅度提升，但時(shí)間還是太長了，執(zhí)行2萬次操作現(xiàn)在仍然大概需要52ms。

　　隨后客戶在互聯(lián)網(wǎng)上進(jìn)行了一些調(diào)查，找到一種更好的算法，把代碼改編為：

unsigned x = value;
unsigned r;
x = (((x 0xaaaaaaaa) >> 1) | ((x
0x55555555) 1));
x = (((x 0xcccccccc) >> 2) | ((x
0x33333333) 2));
　x = (((x 0xf0f0f0f0) >> 4) | ((x
0x0f0f0f0f) 4));
　x = (((x 0xff00ff00) >> 8) | ((x
0x00ff00ff) 8));
　r = ((x >> 16) | (x 16));
　return r;

　　這個(gè)代碼看起來效率高，短小精悍。而且它不需要會(huì)造成流水線中斷的分支。它在這個(gè)核心系統(tǒng)上運(yùn)行只需29 個(gè)周期。

　　不過這個(gè)算法需要在1 、2、4、8和16位之間進(jìn)行移位操作。我們?cè)贛icroBlaze的屬性窗口中激活桶式移位器。不管移位操作的長度如何，采用桶式移位器可允許我們?cè)谝粋€(gè)周期內(nèi)完成移位指令。這樣可以讓純軟件算法在 MicroBlaze上運(yùn)行得稍快一些。

　　激活MicroBlaze硬件上的桶式移位器可將處理算法所需時(shí)間縮短到22個(gè)周期。與第一個(gè)版本的軟件算法相比，此算法得到了顯著改善。目前采用此算法，執(zhí)行所有 2萬次操作只需8.8ms，效率提升了10倍，不過仍未達(dá)到客戶要求。

　　不過效率還有提升的空間。算法中的時(shí)延非常關(guān)鍵，應(yīng)盡可能地縮短。但在我們的實(shí)施方案中，采用兩根FSL總線仍需要四個(gè)時(shí)鐘周期。不過我們可以通過將 MicroBlaze與硬件加速器之間的現(xiàn)有連接方式改為直接連接，便可將時(shí)延減半，縮短至兩個(gè)時(shí)鐘周期。這樣一個(gè)周期用于將數(shù)據(jù)寫入 FSL硬件加速器IP，而另一個(gè)周期則負(fù)責(zé)讀回結(jié)果。

　　在采用直接連接方式時(shí)，需注意幾個(gè)問題。首先，協(xié)處理器IP應(yīng)存儲(chǔ)輸入，并以寄存方式提供結(jié)果。請(qǐng)注意在執(zhí)行此操作時(shí)沒有使用帶FIFO的FSL總線。

　　此外，以不同時(shí)鐘速率運(yùn)行 MicroBlaze和FSL硬件加速器IP 容易發(fā)生問題。為避免發(fā)生沖突，設(shè)計(jì)人員最好將MicroBlaze和 FSL硬件加速器IP的運(yùn)行速率設(shè)為一致。

　　不過，如何在不使用FSL總線的情況下將MicroBlaze和FSL硬件加速器IP直接連接起來呢?這很簡(jiǎn)單，只需將MicroBlaze和硬件加速器的數(shù)據(jù)線連接起來即可。如果需要，可再添加握手信號(hào)。

　　例如，使用位反轉(zhuǎn)IP，只需一個(gè)寫入信號(hào)即可。IP會(huì)一直很快運(yùn)行，足以對(duì)MicroBlaze的任何請(qǐng)求做出及時(shí)響應(yīng)。

　　IP本身非常簡(jiǎn)單。以下是摘錄 VHDL 代碼中的一段：

architecture behavioral of
　　fsl_bitrev is
　　-- data value sent by microblaze:
　　signal data_value :
std_logic_vector(0 to 31) := (others=>'0');
begin
　　-- bitreversed value to write back:
FSL_M_Data = data_value;
process(FSL_Clk)
begin
　　if rising_edge(FSL_CLK) then
if (FSL_S_Exists = '1') then
-- create the bitreversed data:
data_value(0) = FSL_S_Data(31);
data_value(1) = FSL_S_Data(30);
data_value(2) = FSL_S_Data(29);
...
　data_value(30) = FSL_S_Data(1);
　data_value(31) = FSL_S_Data(0);
end if;
end if;
end process;
end architecture behavioral;

新聞中心

FPGA 解決方案和標(biāo)準(zhǔn)控制器內(nèi)核比較

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)