用于帶有PCIe的嵌入式系統(tǒng)的散/聚式DMA
1. PCIe用在所有的事務(wù)層分組(TLPs)方面的開(kāi)銷(xiāo)相對(duì)固定;較多的數(shù)據(jù)包則需要較多的處理開(kāi)銷(xiāo)
2. 較小的數(shù)據(jù)包通常需要的處理時(shí)間也少,于是就增加了由數(shù)據(jù)引擎和PCIe接口發(fā)起的并發(fā)中斷的次數(shù)
3. 為了維持適當(dāng)?shù)呢?fù)載均衡,較小的數(shù)據(jù)包會(huì)增加本地處理器的負(fù)荷
4. 本地主處理器必須花費(fèi)較多的時(shí)間來(lái)生成PCIe協(xié)議所用的數(shù)據(jù)轉(zhuǎn)移TLP
上面的幾點(diǎn)意味著本地主處理器將會(huì)損失更多的原本用于其他功能的時(shí)鐘周期。因此,較小的數(shù)據(jù)包有助于減小物理接口的處理延遲,但代價(jià)是增加了終端系統(tǒng)的負(fù)荷,這有可能降低總的系統(tǒng)性能。雖然PCIe TLP開(kāi)銷(xiāo)處理延遲無(wú)法完全消除,但通過(guò)采用一個(gè)多通道散/聚DMA引擎,基于靈活的仲裁機(jī)制,將數(shù)據(jù)塊請(qǐng)求分成較小單元的可變大小的數(shù)據(jù)包,以及在DMA控制器自身中設(shè)計(jì)事務(wù)分割支持能力,可以攤薄每隔通道上與每個(gè)流等級(jí)(TC)相關(guān)的延遲。此外,設(shè)計(jì)一個(gè)較小的TLP事務(wù)IP核,通過(guò)生成/終接PCIe TLP,有助于提高軟件的效率。
圖3:帶有DMA的PCIe讀/寫(xiě)處理。
對(duì)于PCIe,存儲(chǔ)器讀取(MRd)不是優(yōu)先的,是作為一個(gè)分割事務(wù)執(zhí)行的,而存儲(chǔ)器寫(xiě)(MWr)則是優(yōu)先的。對(duì)于讀取,請(qǐng)求者先發(fā)送一個(gè)MRd TLP來(lái)請(qǐng)求completor算法發(fā)送大量的數(shù)據(jù)(通常最大的讀取請(qǐng)求為512字節(jié)),然后專(zhuān)門(mén)等待發(fā)送過(guò)來(lái)的數(shù)據(jù)。PCIe MWr TLP中包含將被寫(xiě)入(通常最大為128字節(jié))的滿載荷。因此,MLRd TLP在發(fā)送方向上,就像MWr TLP那樣,也需要一段帶寬。通過(guò)向MW通道分配更多的資源,在發(fā)送(Tx)方向上管道將保持在滿狀態(tài),而接收(Rx)管道則用響應(yīng)MRd請(qǐng)求的數(shù)據(jù)TLP來(lái)填滿,見(jiàn)圖2。
軟件執(zhí)行時(shí)間方面獲得的好處
一個(gè)功能豐富的散/聚DMA控制器通過(guò)實(shí)現(xiàn)其他方案中需要復(fù)雜的算法和/或大量中斷的功能,還能夠減少軟件開(kāi)發(fā)的工作量和CPU的執(zhí)行時(shí)間:
* 所有最先進(jìn)的處理器和操作系統(tǒng),包括實(shí)時(shí)性能最好的操作系統(tǒng)(RTOS),都采用MMU和虛擬存儲(chǔ)器。乃至內(nèi)核都采用虛擬地址。這意味著DMA不能線形地訪問(wèn)系統(tǒng)存儲(chǔ)器中的緩沖器。當(dāng)該緩沖器接近處理時(shí),事實(shí)上它被散布到PAGE_SIZE模塊中的各個(gè)物理存儲(chǔ)器中。一個(gè)散/聚DMA通過(guò)允許每個(gè)緩沖器描述符被映射到存儲(chǔ)器的物理頁(yè)中,來(lái)幫助處理器和軟件驅(qū)動(dòng)器。在本地緩沖器描述符中沒(méi)有散/聚列表,驅(qū)動(dòng)器一次只能移動(dòng)一頁(yè)的數(shù)據(jù),然后才能重新啟動(dòng)DMA進(jìn)行下一頁(yè)的移動(dòng),這樣將很大程度上影響系統(tǒng)性能。
* 通常,一個(gè)系統(tǒng)由多個(gè)執(zhí)行線程組成。這些線程可能都要轉(zhuǎn)移數(shù)據(jù)。如果一個(gè)DMA由多個(gè)通道,并為每個(gè)通道都分配一個(gè)線程,就能通過(guò)這些更多的并行處理來(lái)改善系統(tǒng)性能。
* 如果CPU工作在little-endian模式并轉(zhuǎn)移TCP/IP數(shù)據(jù)包到MAC,通常被迫利用軟件例程來(lái)與網(wǎng)絡(luò)order(big-endian)交換字節(jié)。一個(gè)能夠在硬件中以即時(shí)模式實(shí)現(xiàn)這種轉(zhuǎn)換的DMA,能夠降低軟件的復(fù)雜度并縮短系統(tǒng)設(shè)計(jì)時(shí)間。
* 為了提高效率,PCIe總線接口應(yīng)該盡可能寬(64位),不過(guò)許多外設(shè)卻只具有窄帶寬(16或32位)。如果用DMA進(jìn)行總線重新適配,則對(duì)PCIe接口的性能沒(méi)有影響,在構(gòu)建高帶寬轉(zhuǎn)移到PCIe接口邏輯之前,DMA可以對(duì)較小的外設(shè)進(jìn)行2重或4重訪問(wèn)。
* 它提供了一個(gè)適配層,將基于分組的TLP數(shù)據(jù)流轉(zhuǎn)換成對(duì)線形存儲(chǔ)器的并行總線訪問(wèn)。這對(duì)于復(fù)用已經(jīng)帶有存儲(chǔ)器接口(地址總線,數(shù)據(jù)總線,控制線)的IP模塊的設(shè)計(jì)師來(lái)說(shuō)將帶來(lái)巨大的收益。他們能夠非常容易地將IP模塊配置到DMA服務(wù)的總線上。
本文小結(jié)
利用像散/聚DMA控制器這類(lèi)先進(jìn)的載荷存儲(chǔ)數(shù)據(jù)引擎控制器,F(xiàn)PGA系統(tǒng)設(shè)計(jì)師能夠改進(jìn)與基于PCIe的系統(tǒng)設(shè)計(jì)相關(guān)的軟硬件中普遍存在的吞吐率和延遲方面的缺陷。
評(píng)論