如何用FPGA實(shí)現(xiàn)算法的硬件加速
當(dāng)設(shè)計者試圖從算法中獲得最佳性能但軟件方法已無計可施時,可以嘗試通過硬件/軟件重新劃分來進(jìn)行加速。FPGA易于實(shí)現(xiàn)軟件模塊和硬件模塊的相互交換,且不必改變處理器或進(jìn)行板級變動。本文闡述如何用FPGA來實(shí)現(xiàn)算法的硬件加速。
如果想從代碼中獲得最佳性能,方法包括優(yōu)化算法、使用查找表而不是算法、將一切都轉(zhuǎn)換為本地字長尺寸、使用注冊變量、解開循環(huán)甚至可能采用匯編代碼。如果所有這些都不奏效,可以轉(zhuǎn)向更快的處理器、采用一個不同的處理器架構(gòu),或?qū)⒋a一分為二通過兩個處理器并行處理。不過,如果有一種方法可將那些對時間有嚴(yán)格要求的代碼段轉(zhuǎn)換為能夠以5-100倍速度運(yùn)行的函數(shù)調(diào)用,而且如果這一方法是一種可供軟件開發(fā)之用的標(biāo)準(zhǔn)工具,這可信嗎?現(xiàn)在,利用可編程邏輯作為硬件加速的基礎(chǔ)可使這一切都變成現(xiàn)實(shí)。
圖1:帶定制指令的可配置處理器架構(gòu)。
低成本可編程邏輯在嵌入式系統(tǒng)中應(yīng)用得越來越普遍,這為系統(tǒng)設(shè)計者提供了一個無需對處理器或架構(gòu)進(jìn)行大的改動即可獲得更高性能的可選方案??删幊踢壿嬁蓪⒂嬎忝芗凸δ苻D(zhuǎn)換為硬件加速功能。從軟件的角度看,這只是簡單地將一個函數(shù)調(diào)用做進(jìn)一個定制的硬件模塊中,但運(yùn)行速度要比通過匯編語言優(yōu)化的相同代碼或?qū)⑺惴ㄞD(zhuǎn)換為查找表要快得多。
硬件加速
首先探討一下什么是硬件加速,以及將算法作為定制指令來實(shí)現(xiàn)與采用硬件外圍電路的區(qū)別。硬件加速是指利用硬件模塊來替代軟件算法以充分利用硬件所固有的快速特性。從軟件的角度看,與硬件加速模塊接口就跟調(diào)用一個函數(shù)一樣。唯一的區(qū)別在于此函數(shù)駐留在硬件中,對調(diào)用函數(shù)是透明的。
取決于算法的不同,執(zhí)行時間最高可加快100倍。硬件在執(zhí)行各種操作時要快得多,如執(zhí)行復(fù)雜的數(shù)學(xué)功能、將數(shù)據(jù)從一個地方轉(zhuǎn)移到另一個地方,以及多次執(zhí)行同樣的操縱。本文后面將討論一些通常用軟件完成的操作,經(jīng)過硬件加速后這些操作可獲得極大的性能提高。
如果在系統(tǒng)設(shè)計中采用FPGA,那么在設(shè)計周期的任何時候都可以添加定制的硬件。設(shè)計者可以立刻編寫軟件代碼,并可在最終定稿之前在硬件部分上運(yùn)行。此外,還可以采取增量法來決定哪部分代碼用硬件而不是軟件來實(shí)現(xiàn)。FPGA供應(yīng)商所提供的開發(fā)工具可實(shí)現(xiàn)硬件和軟件之間的無縫切換。這些工具可以為總線邏輯和中斷邏輯生成HDL代碼,并可根據(jù)系統(tǒng)配置定制軟件庫及include文件。
帶一些CISC的RISC
精簡指令集計算(RISC)架構(gòu)的目標(biāo)之一即是保持指令簡單化,以便讓指令運(yùn)行得足夠快。這與復(fù)雜指令集計算(CISC)架構(gòu)正好相反,后者一般不會同樣快地執(zhí)行指令,但每個指令可完成更多處理任務(wù)。這兩種架構(gòu)應(yīng)用得都很普遍,而且各有所長。
如果能根據(jù)特定的應(yīng)用將RISC的簡單和快速特性與CISC強(qiáng)大的處理能力結(jié)合起來,豈不兩全其美?其實(shí)這正是硬件加速所要做的。加入為某種應(yīng)用而定制的硬件加速模塊可以提高處理能力,并減少代碼復(fù)雜性和密度,因?yàn)橛布K取代了軟件模塊??梢赃@么說,是用硬件來換取速度和簡單性。
定制指令和硬件外圍電路方式
有兩種硬件加速模塊實(shí)現(xiàn)方式。其一是定制指令,它幾乎可在每一個可配置處理器中實(shí)現(xiàn),這是采用可配置處理器的主要優(yōu)點(diǎn)。如圖1所示,定制指令是作為算術(shù)邏輯單元(ALU)的擴(kuò)展而添加的。處理器只知道定制指令就像其它指令一樣,包括擁有自己的操作代碼。至于C代碼,宏可自動生成,從而使得使用該定制指令跟調(diào)用函數(shù)一樣。
如果定制指令需要幾個時鐘周期才能完成,而且要連續(xù)調(diào)用它,則可以流水線式定制指令來實(shí)現(xiàn)。這樣可在每個時鐘周期產(chǎn)生一個結(jié)果,不過開始時有些延遲。
硬件加速模塊的另一種實(shí)現(xiàn)方式是硬件外圍電路。在這一方式下,數(shù)據(jù)不是傳遞給軟件函數(shù),而是寫入存儲器映射的硬件外圍電路中。計算是在CPU之外完成的,因此在外圍電路工作的同時CPU可以繼續(xù)運(yùn)行代碼。其實(shí)代替軟件算法的只是一個普通的硬件外圍電路。與定制指令的另一個不同之處是硬件外圍電路可以訪問系統(tǒng)中的其它外圍電路或存儲器,而無須CPU介入。
根據(jù)硬件需要做什么、怎么工作以及需要多長時間可以決定采用是定制指令還是硬件外圍電路更合適。對于那些在幾個周期內(nèi)就可完成的操作,定制指令一般更好些,因?yàn)樗a(chǎn)生的開銷要更少。對于外圍電路,一般需要執(zhí)行幾個指令來寫入控制寄存器、狀態(tài)寄存器和數(shù)據(jù)寄存器,而且需要一個指令來讀取結(jié)果。如果計算需要幾個周期,實(shí)施外圍電路比較好,因?yàn)樗粫绊慍PU流水線?;蛘撸部梢詫?shí)施前面所述的流水線式定制指令。
另一個區(qū)別是定制指令需要有限數(shù)目的操作數(shù),并返回一個結(jié)果。根據(jù)處理器指令集架構(gòu)的不同,操作數(shù)也各異。對某些操縱,這樣可能顯得很麻煩。此外,如果需要硬件從存儲器或存儲器中的其它外圍電路讀出和寫入,則必須采用硬件外圍電路,因?yàn)槎ㄖ浦噶顭o法訪問總線。
圖2:16位CRC算法的硬件實(shí)現(xiàn)。(Optional)
選擇代碼
當(dāng)需要優(yōu)化C語言代碼以滿足某些速度要求時,可能要運(yùn)行一個代碼仿制工具,或親自檢查該代碼以便了解代碼的哪個部分導(dǎo)致系統(tǒng)停滯。當(dāng)然,這需要熟悉代碼以便知道瓶頸在哪兒。
即便找出瓶頸所在,如何優(yōu)化也是個挑戰(zhàn)。有些方案采用本地字大小的變量、帶預(yù)先計算值的查找表,以及通用軟件算法優(yōu)化。這些技巧可產(chǎn)生快幾倍的執(zhí)行速度效果。另一種優(yōu)化C算法的方法是用匯編語言編寫。過去這種方法可獲得很好的提高,但現(xiàn)今的編譯器在優(yōu)化C算法上已做得很好,因此這種性能的提高是有限的。如果需要顯著的性能提高,傳統(tǒng)的軟件算法優(yōu)化技巧恐怕是不夠的。
然而,利用硬件實(shí)施的算法比軟件實(shí)施要強(qiáng)100倍,這不足為奇。那么,如何確定將哪些代碼轉(zhuǎn)為硬件實(shí)施呢?大可不必將整個軟件模塊轉(zhuǎn)換為硬件,而應(yīng)選擇那些在硬件中運(yùn)行得特別快的操作,比如將數(shù)據(jù)從一處復(fù)制到另一處、大量的數(shù)學(xué)運(yùn)算以及任何運(yùn)行多次的循環(huán)。如果一個任務(wù)由幾個數(shù)學(xué)運(yùn)算組成,還可以考慮在硬件中加速整個任務(wù)。有些時候,僅加速任務(wù)中的一個操作就可滿足性能要求。
實(shí)例:CRC算法的硬件加速
由于大量且重復(fù)的計算,循環(huán)冗余校驗(yàn)(CRC)算法或任何“校驗(yàn)和”算法都是硬件加速的不錯選擇。下面通過一個CRC算法的優(yōu)化過程來探討如何實(shí)現(xiàn)硬件加速。
首先,利用傳統(tǒng)的軟件技巧來優(yōu)化算法,然后將其轉(zhuǎn)向定制指令以加速算法。我們將討論不同實(shí)現(xiàn)方法的性能比較和折衷。
CRC算法可用來校驗(yàn)數(shù)據(jù)在傳輸過程中是否被破壞。這些算法很流行,因?yàn)樗鼈兙哂泻芨叩臋z錯率,而且不會對數(shù)據(jù)吞吐量造成太大影響,因?yàn)镃RC校驗(yàn)位被添加進(jìn)數(shù)據(jù)信息中。但是,CRC算法比一些簡單的校驗(yàn)和算法有更大的計算量要求。盡管如此,檢錯率的提高使得這種算法值得去實(shí)施。
一般說來,發(fā)送端對要被發(fā)送的消息執(zhí)行CRC算法,并將CRC結(jié)果添加進(jìn)該消息中。消息的接收端對包括CRC結(jié)果在內(nèi)的消息執(zhí)行同樣的CRC操作。如果接收端的結(jié)果與發(fā)送端的不同,這說明數(shù)據(jù)被破壞了。
CRC算法是一種密集的數(shù)學(xué)運(yùn)算,涉及到二元模數(shù)除法(modulo-2 division),即數(shù)據(jù)消息被16或32位多項(xiàng)式(取決于所用CRC標(biāo)準(zhǔn))除所得的余數(shù)。這種操作一般通過異或和移位的迭代過程來實(shí)現(xiàn),當(dāng)采用16位多項(xiàng)式時,這相當(dāng)于每數(shù)據(jù)字節(jié)要執(zhí)行數(shù)百條指令。如果發(fā)送數(shù)百個字節(jié),計算量就會高達(dá)數(shù)萬條指令。因此,任何優(yōu)化都會大幅提高吞吐量。
代碼列表1中的CRC函數(shù)有兩個自變量(消息指針和消息中的字
fpga相關(guān)文章:fpga是什么
評論