基于Virtex-6 FPGA的雙緩沖模式PCIe總線設(shè)計(jì)方案和
引言
本文引用地址:http://2s4d.com/article/189679.htm近年來(lái)軟件無(wú)線電(SDR)得到了飛速的發(fā)展,在很多領(lǐng)域已顯示出其優(yōu)越性。本文的項(xiàng)目背景是通過(guò)軟件無(wú)線電方式實(shí)現(xiàn)數(shù)字音頻廣播(DAB)的基帶信號(hào)處理,這要求軟件無(wú)線電平臺(tái)具有高速實(shí)時(shí)數(shù)字信號(hào)處理與傳輸能力。高速可編程邏輯器件(FPGA)和豐富的IP核提供了能高效實(shí)現(xiàn)軟件無(wú)線電技術(shù)的理想平臺(tái)。
1 PCIE總線方案論證
PCIE是第3代I/O總線互聯(lián)技術(shù),如今已成為個(gè)人電腦和工業(yè)設(shè)備中主要的標(biāo)準(zhǔn)互聯(lián)總線。與傳統(tǒng)的并行PCI總線相比,PCIE采用串行總線點(diǎn)對(duì)點(diǎn)連接,具有更高的傳輸速率和可擴(kuò)展性。例如本文采用的8通道1代PCIE 2.0硬核的理論傳輸速率是4 GB/s[1],其總線位寬亦可根據(jù)需求選擇×1、×2、×4和×8通道。與其他的串行接口(如RapidIO和Hypertransport)相比,PCIE具有更好的性能和更高的靈活性[2].
1.1 PCIE總線實(shí)現(xiàn)方式
目前,PCI Express總線的實(shí)現(xiàn)方式主要有兩種:基于專用接口芯片ASIC和基于IP核的可編程邏輯器件FPGA方案。前者通常采用ASIC+FPGA/DSP的組合方式,專用PCIE接口芯片(如PEX8311)避免用戶過(guò)多地接觸PCIE協(xié)議,降低了開(kāi)發(fā)難度;但其硬件電路設(shè)計(jì)復(fù)雜,功能固定,靈活性和可擴(kuò)展性較差。后者使用IP核實(shí)現(xiàn)PCIE協(xié)議,用戶可以開(kāi)發(fā)其所需的功能和驅(qū)動(dòng),具有可編程性和可重配置能力;另外,單片F(xiàn)PGA降低了成本和電路復(fù)雜程度,更符合片上系統(tǒng)(SoC)的設(shè)計(jì)思想。本文采用Xilinx公司Virtex6 FPGA和PCIE集成塊,實(shí)現(xiàn)雙緩沖模式的高速PCIE接口設(shè)計(jì)。
1.2 雙緩沖與單緩沖比較
以寫(xiě)操作(數(shù)據(jù)從FPGA到內(nèi)存)為例,雙緩沖PCIE系統(tǒng)框圖如圖1所示。為描述方便,將該FPGA片上系統(tǒng)命名為SRSE(Software Radio System with PCI Express)。
圖1 雙緩沖PCIE系統(tǒng)框圖
PC端的驅(qū)動(dòng)程序在系統(tǒng)內(nèi)存上為SRSE分配了兩個(gè)緩沖區(qū)(WR_BUF1/2)用于數(shù)據(jù)存儲(chǔ),這兩個(gè)緩沖區(qū)的地址信息分別存儲(chǔ)在FPGA端的DMA寄存器(DAM_Reg1/2)中。Root Complex連接CPU、內(nèi)存和PCIE器件,它代表CPU產(chǎn)生傳輸請(qǐng)求[3];PCIE核是Xilinx公司提供的集成塊程序,實(shí)現(xiàn)PCIE協(xié)議的處理;DMA(直接存儲(chǔ)器訪問(wèn))引擎用于實(shí)現(xiàn)DSP核和PCIE器件間的高速數(shù)據(jù)存儲(chǔ)與交換;DSP(數(shù)字信號(hào)處理)核是用戶設(shè)計(jì)的算法或應(yīng)用程序。以圖1為例,DSP核將產(chǎn)生的數(shù)據(jù)寫(xiě)入TX_FIFO,DMA引擎將數(shù)據(jù)以傳輸層數(shù)據(jù)包(TLP)的形式發(fā)送至PCIE核,其中數(shù)據(jù)包的頭信息來(lái)自寄存器DMA_Reg1.當(dāng)SRSE將數(shù)據(jù)寫(xiě)入緩沖區(qū)WR_BUF1時(shí),驅(qū)動(dòng)分配另外一塊緩沖區(qū)WR_BUF2并將該緩沖區(qū)的地址信息寫(xiě)入寄存器DMA_Reg2中;當(dāng)DMA引擎發(fā)出WR_BUF1的寫(xiě)操作消息中斷(MSI)后,DMA控制器將數(shù)據(jù)包的頭信息切換至DMA_Reg2,驅(qū)動(dòng)將緩沖區(qū)切換至WR_BUF2,繼續(xù)傳輸數(shù)據(jù)。
圖2 PCIE總線中斷延遲測(cè)量
與雙緩沖相對(duì)應(yīng)的是單緩沖模式。以寫(xiě)操作為例,驅(qū)動(dòng)程序每次在內(nèi)存上分配一個(gè)緩沖區(qū)WR_BUF,該緩沖區(qū)的地址信息存儲(chǔ)在DMA寄存器DMA_Reg中。當(dāng)寫(xiě)滿緩沖區(qū)WR_BUF時(shí),DMA引擎會(huì)產(chǎn)生MSI中斷,并通過(guò)PCIE核通知驅(qū)動(dòng)程序。驅(qū)動(dòng)分配新的緩沖區(qū),并將該緩沖區(qū)地址通過(guò)PCIE總線寫(xiě)入DMA寄存器DMA_Reg中。中斷的傳輸和DMA寄存器的更新會(huì)產(chǎn)生一定延時(shí),這需要較大的TX_FIFO來(lái)存取延時(shí)期間DSP核產(chǎn)生的數(shù)據(jù)。
為精確測(cè)量中斷延時(shí)時(shí)間,搭建了基于DELL T3400型PC和ML605開(kāi)發(fā)套件的平臺(tái),通過(guò)ChipScope觀察的波形結(jié)果如圖2所示。DMA中斷發(fā)生在時(shí)刻0(mwr_done:0博1);然后PCIE核向驅(qū)動(dòng)發(fā)出MSI中斷,驅(qū)動(dòng)程序查詢中斷寄存器發(fā)生在時(shí)刻2241(irq_wr_accessed:1博0);驅(qū)動(dòng)程序分配新的內(nèi)存緩沖區(qū),然后更新DMA寄存器發(fā)生在時(shí)刻2802(wr_dma_buff0_rdy:0博1)。在這2802個(gè)時(shí)鐘周期內(nèi),PCIE器件無(wú)法將數(shù)據(jù)寫(xiě)入內(nèi)存。PCIE的時(shí)鐘頻率為250 MHz,所以中斷延時(shí)T=2802×(1/250 MHz)=11.2 μs.假定DSP核產(chǎn)生數(shù)據(jù)的速率為200 MB/s,中斷延時(shí)期間將產(chǎn)生11.2 μs×200 MB/s=2241 B大小的數(shù)據(jù)??紤]到其他不可預(yù)測(cè)因素,如中斷堵塞等,為了不丟失數(shù)據(jù),TX_FIFO至少需要幾KB的空間。這對(duì)于FPGA內(nèi)寶貴的硬件資源(如Block RAM)來(lái)說(shuō)是嚴(yán)峻的挑戰(zhàn)。
與單緩沖模式相比,雙緩沖模式優(yōu)點(diǎn)歸納如下:
①更新緩沖區(qū)不會(huì)引入中斷延時(shí),這意味著較小的FIFO即可滿足需求,節(jié)約了硬件資源。
②雙緩沖模式延長(zhǎng)了驅(qū)動(dòng)程序處理中斷的時(shí)間,也使緩沖區(qū)數(shù)據(jù)的處理更加容易,丟包率大大減小。
③數(shù)據(jù)的傳輸和內(nèi)存緩沖區(qū)的數(shù)據(jù)處理可以并行處理,系統(tǒng)的實(shí)時(shí)性得到保證。
④雙緩沖更適合Scatter/Gather DMA,取代block DMA,從而提高內(nèi)存效率。
評(píng)論