處理器設(shè)計(jì)下一步——單芯片同步多處理技術(shù)

作者：時(shí)間：2008-11-28 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在指定的組織管理技術(shù)下，要將個(gè)別處理器性能發(fā)揮到極限非但不容易，也沒有效率。更快的時(shí)脈、更深的管線和更大的緩沖存儲(chǔ)器會(huì)占用更大的芯片面積同時(shí)增加功耗成本，削弱了原本可提升10%性能的效益。有時(shí)候在沒有選擇的情況下，不得不將時(shí)脈速度提高并將電源和冷卻子系統(tǒng)升級；倘若使用將負(fù)載劃分到多個(gè)處理器的方式，不但可以增加最大整體性能限制，也可簡化處理器設(shè)計(jì)使其更有效率。

目前有許多系統(tǒng)級芯片(SoC)設(shè)計(jì)利用多處理器的優(yōu)勢，但它們均針對特定應(yīng)用或采用松散耦合方式。直到最近，針對軟件多處理方案的SoC設(shè)計(jì)選項(xiàng)依然受到限制。但MIPS32 1004K同步處理系統(tǒng)(CPS) SoC組件的推出，意味著可在單一操作系統(tǒng)環(huán)境下實(shí)現(xiàn)芯片上對稱式多重處理(SMP)。

雖然平行編程很容易讓軟件工程師理解，但并非所有現(xiàn)今的程序代碼都是針對平行處理平臺所編寫，業(yè)界已有許多針對平行軟件的范例，其中有一些對軟件設(shè)計(jì)人員來說也相當(dāng)熟悉。

數(shù)據(jù)平行算法

數(shù)據(jù)平行算法(Data-parallel algorithm)將數(shù)據(jù)組劃分到多處理器，甚至到若干個(gè)CPU中。在教科書中，可將大型資料組看作一個(gè)大量輸入文件或數(shù)據(jù)數(shù)組；但在嵌入式系統(tǒng)中，它可能意味著高I/O和事件服務(wù)頻寬。在某些SoC架構(gòu)中，多個(gè)輸入數(shù)據(jù)來源(如網(wǎng)絡(luò)接口端口)可以被靜態(tài)地分配到針對自然平行數(shù)據(jù)、執(zhí)行相同驅(qū)動(dòng)程序/路由程序代碼的多個(gè)處理器中。

當(dāng)在單一資料數(shù)組或輸入流中利用多處理器性能時(shí)，用于分割并管理資料的平行算法就很常見。這種算法對于單處理器來說通常不是最理想的，但由于具備了更靈活的頻寬運(yùn)算特性，因此可提供效率補(bǔ)償。這些針對平行運(yùn)算算法均具備靈活性，但要是將一個(gè)工作程序轉(zhuǎn)換成一個(gè)平行資料算法也許不具任何意義，甚至是相當(dāng)困難或是不可能實(shí)現(xiàn)的，而這完全取決于程序相依性這類因素。如果絕大部分的應(yīng)用程序運(yùn)算都僅采用很少的常規(guī)運(yùn)算循環(huán)來實(shí)現(xiàn)，那么，為提高性能，系統(tǒng)設(shè)計(jì)師也許要明確地建置資料平行算法。

隨著用于PC、工作站和服務(wù)器的多核心X86芯片問世，新的數(shù)據(jù)庫和工具套件應(yīng)運(yùn)而生，使得平行算法得以輕易地在少量的處理器上實(shí)現(xiàn)。許多用于嵌入式架構(gòu)的數(shù)據(jù)庫和工具套件都是開放且可攜的，如MIPS為GCC所做的C/C++以及Fortran擴(kuò)展，也正逐漸成為標(biāo)準(zhǔn)GNU編譯器的一部分。

平行控制編程

平行控制編程(Control-parallel programming)并非根據(jù)輸入，而是根據(jù)任務(wù)分割工作。若將一個(gè)以100人制造一臺汽車為單位的汽車制造工廠比喻為一個(gè)100信道平行數(shù)據(jù)算法，并將平行控制程序比喻為一個(gè)具有100人的組裝線工作站，各工作站負(fù)責(zé)百分之一的工作量，通常組裝線的效率會(huì)比較高，但組裝一臺車的工作量就只有這么多，這樣的限制在科學(xué)程序代碼擴(kuò)充到幾千個(gè)處理器時(shí)非常顯著，然而對于平行SoC架構(gòu)而言這并不是個(gè)問題。

軟件工程師通常將程序劃分成若干個(gè)階段以易于編碼、除錯(cuò)和維護(hù)，并減少指令內(nèi)存和快取的工作量。通常，平行控制分解早已設(shè)在可見的操作系統(tǒng)(OS)任務(wù)層。在類似于Unix的系統(tǒng)中，單一命令‘cc’會(huì)依序呼叫C語言前置處理器、編譯器、組譯器和連結(jié)程序。它們之中的幾個(gè)可以同時(shí)執(zhí)行，每個(gè)連續(xù)程序利用前一個(gè)階段的輸出作為輸入，在類似于Unix這樣的OS內(nèi)使用檔案或軟件管線。

當(dāng)獨(dú)立分解的執(zhí)行任務(wù)尚未完成時(shí)，需進(jìn)行一些軟件工程，使應(yīng)用程序在OS和底層硬件上是可見的，并能在任務(wù)間明確地傳遞資料。但是不應(yīng)該需要對階段算法進(jìn)行重寫。粗粒度的任務(wù)分解可透過檔案、網(wǎng)絡(luò)應(yīng)用程序(socket)或管線的進(jìn)程通訊來實(shí)現(xiàn)。而針對細(xì)粒度的控制，如Posix執(zhí)行緒API——pthreads，可由許多OS支持，包括Linux、Windows以及許多實(shí)時(shí)操作系統(tǒng)。

復(fù)雜的、模塊化的多任務(wù)嵌入式軟件系統(tǒng)時(shí)常會(huì)展現(xiàn)出意外的同步。整體系統(tǒng)任務(wù)很可能涉及到對應(yīng)不同輸入的不同責(zé)任等多項(xiàng)任務(wù)。若沒有一個(gè)時(shí)間共享的OS，各任務(wù)就必須在個(gè)別處理器上執(zhí)行。在一個(gè)時(shí)間共享的單處理器上，它們在輪流時(shí)間中執(zhí)行；在一個(gè)具有SMP操作系統(tǒng)的多核心處理器上，它們能在可利用的處理器上同步執(zhí)行。

圖1a：復(fù)雜的模塊化多任務(wù)嵌入式軟件系統(tǒng)時(shí)常會(huì)展現(xiàn)出意外的同步。有了一個(gè)時(shí)間共享的OS，各任務(wù)就必須在個(gè)別處理器上執(zhí)行。在一個(gè)時(shí)間共享的單處理器上，它們在輪流時(shí)間中執(zhí)行；在具有SMP操作系統(tǒng)的多處理器上，它們在可利用的處理器上同步執(zhí)行。圖1b：在SMP操作系統(tǒng)中，所有的處理器都面對相同的內(nèi)存、I/O組件和全域OS狀態(tài)。在單CPU上利用時(shí)間分段執(zhí)行的多任務(wù)程序，將能同時(shí)在一個(gè)SMP系統(tǒng)中的CPU上執(zhí)行。

分布式處理

分布式典型運(yùn)算在網(wǎng)絡(luò)客戶服務(wù)器模式中很常見，它在某些時(shí)候不被認(rèn)為是‘平行’的?？蛻舳朔?wù)器程序設(shè)計(jì)基本上是一種控制流程分解的形式。程序任務(wù)并不是獨(dú)自執(zhí)行所有的運(yùn)算，而是將工作請求發(fā)送到針對特定工作設(shè)計(jì)的特殊系統(tǒng)任務(wù)?？蛻舳朔?wù)器程序設(shè)計(jì)大多都在LAN和WAN上完成，但SMP SoC也遵循相同的范例。未作修改的客戶端服務(wù)器二進(jìn)制數(shù)據(jù)可透過芯片上的TCP/IP或空回繞網(wǎng)絡(luò)(loopback network)接口進(jìn)行通訊，或者使用更有效率的方法，利用區(qū)域通訊協(xié)議在內(nèi)存中傳遞緩沖資料。

這些方法可能會(huì)被單獨(dú)或組合使用，以藉助SMP的性能優(yōu)勢。有人甚至可能會(huì)建構(gòu)一個(gè)分布式SMP服務(wù)器的平行數(shù)據(jù)數(shù)組，且各數(shù)組均建置一個(gè)控制流程管線。

在SoC系統(tǒng)中，可以對處理器的靜態(tài)實(shí)體分解任務(wù)進(jìn)行平行處理，處理器的平行任務(wù)可于硬件中完成，這可以減少軟件開銷和實(shí)體尺寸，但卻不能提供靈活性。

如果可以將一個(gè)嵌入式應(yīng)用靜態(tài)地分解成客戶端和服務(wù)器，并通過芯片互連進(jìn)行通訊，那么只需要使用信息傳遞程序代碼建置一個(gè)共享協(xié)議，以便將系統(tǒng)互相連系。信息傳遞協(xié)議可提供一個(gè)抽象層，使或多或少的處理器配置都能執(zhí)行一般的應(yīng)用程序代碼，但無論任何配置，處理器的負(fù)載平衡就如同硬件分割一樣是靜態(tài)的。要達(dá)到更靈活的平行系統(tǒng)程序設(shè)計(jì)，可利用具有共享資源多核心處理器系統(tǒng)上的軟件任務(wù)分配來實(shí)現(xiàn)。

在SMP操作系統(tǒng)中，所有的處理器都面對相同的內(nèi)存、I/O組件和全域OS狀態(tài)，這使得處理器間的程序移轉(zhuǎn)更簡單、更有效率，也更容易平衡負(fù)載。不需要額外的編程或系統(tǒng)管理，在單CPU上利用時(shí)間分段執(zhí)行的多任務(wù)程序，將能同時(shí)在一個(gè)SMP系統(tǒng)中的CPU上執(zhí)行。如同Linux，一個(gè)SMP的排程器可切換處理器的程序。

執(zhí)行多個(gè)處理程序的Linux應(yīng)用程序不需要修改，就可以利用SMP平行特性，而且通常不需要進(jìn)行重新編譯。SMP Linux環(huán)境為可用處理器之間的調(diào)整提供了許多工具，如提高/降低任務(wù)的優(yōu)先級，或是對于在處理器子集上執(zhí)行任意任務(wù)加以限制。要使用不同的實(shí)時(shí)排程體制，必須要有適當(dāng)?shù)暮诵闹С帧?

類似Unix的OS能為應(yīng)用程序提供一些針對相關(guān)任務(wù)優(yōu)先級排程的控制，甚至在單核心處理器時(shí)間共享系統(tǒng)中也是如此。傳統(tǒng)的外部命令和系統(tǒng)呼叫指令在Linux系統(tǒng)中被強(qiáng)化，藉由更精致的機(jī)制排定任務(wù)優(yōu)先級、任務(wù)組或特定系統(tǒng)使用者。另外，在多核心處理器配置中，任一Linux任務(wù)都具有一個(gè)參數(shù)，用來指定那一組處理器可排定任務(wù)。預(yù)設(shè)參數(shù)即為整個(gè)系統(tǒng)處理器組，但這種具有類似于CPU的系統(tǒng)處理器組卻是可控制的。

SMP范例要求所有處理器找尋所有相同地址下的內(nèi)存；對于低性能的處理器，必須透過將所有處理器的指令預(yù)取和加載/儲(chǔ)存流通量，置放在一個(gè)共享的內(nèi)存和I/O總線上來達(dá)成。然而這種模式隨著處理器的增加而失去效用，因?yàn)榭偩€會(huì)成為瓶頸。即使在單核心處理器系統(tǒng)中，高性能嵌入式核心的指令和數(shù)據(jù)頻寬需求也支配了主存儲(chǔ)器和處理器間的緩沖存儲(chǔ)器。

在一個(gè)每顆處理器均具備獨(dú)立快取的系統(tǒng)中，其本質(zhì)上已不屬于SMP，當(dāng)一個(gè)處理器的快取保存了內(nèi)存中唯一一個(gè)最近位置值的復(fù)制數(shù)據(jù)時(shí)，這時(shí)不對稱就產(chǎn)生了，必須加入快取一致性協(xié)議來恢復(fù)對稱。

在一個(gè)所有處理器都連接到一個(gè)公共總線的簡單系統(tǒng)中，快取控制器可監(jiān)控總線，以得知哪一個(gè)高速緩存保存了指定內(nèi)存位置的最新版本。在更先進(jìn)的系統(tǒng)中，是利用交換結(jié)構(gòu)的點(diǎn)對點(diǎn)的連接將處理器連接到內(nèi)存，因此快取一致性需要更高度的支持。一致性管理單元應(yīng)該對內(nèi)存執(zhí)行施加全域指令，產(chǎn)生干涉訊號來維護(hù)處理器核心間的高速緩存一致性。

像Linux這樣的SMP OS可自由地轉(zhuǎn)移任務(wù)，動(dòng)態(tài)地均衡處理器負(fù)載。在嵌入式SoC中，絕大部份的整體運(yùn)算可以在中斷服務(wù)中執(zhí)行。好的負(fù)載均衡和性能調(diào)整必須對發(fā)生中斷服務(wù)的地方進(jìn)行控制。Linux OS具有一個(gè)類似于IRQ的控制接口，可讓使用者和程序確認(rèn)哪一個(gè)處理器負(fù)責(zé)指定的中斷服務(wù)。

快取憶體一致性基礎(chǔ)架構(gòu)很實(shí)用，不僅在SMP的處理器間，在處理器和I/O DMA信道之間也相當(dāng)有用。若是使用軟件的方式，便需要在每個(gè)I/O DMA作業(yè)之前或之后利用CPU來處理DMA緩沖器，對于I/O密集的應(yīng)用而言，性能將大受影響；而使用I/O一致性硬件將I/O DMA連接到內(nèi)存的方式，可以對DMA串流進(jìn)行排序，并與一致的加載/儲(chǔ)存流程整合在一起，免除了軟件的開銷。

快取一致性管理單元應(yīng)該對處理器、I/O和內(nèi)存間的內(nèi)存串流施加命令，這可增加處理器內(nèi)存存取時(shí)間的周期，透過管線停滯產(chǎn)生處理器周期損失的結(jié)果。然而，一些如在單一核心上使用硬件多執(zhí)行緒的方法，可允許單核心執(zhí)行并行的指令串流，以增加管線的效率。

各核心的執(zhí)行緒看起來就如同OS軟件中完善的CPU，包括具有獨(dú)立的中斷輸入。執(zhí)行緒共享相同的緩沖存儲(chǔ)器和功能單元并插入到它們的管線執(zhí)行中。若一個(gè)執(zhí)行緒停滯了，另一個(gè)可以繼續(xù)執(zhí)行，讓一致性內(nèi)存子系統(tǒng)延遲周期循環(huán)下去，否則將會(huì)遺失。管理多核心的相同SMP OS可以管理它們的硬件執(zhí)行緒，針對SMP編寫的軟件可運(yùn)用多執(zhí)行緒處理，反之也然。

若兩個(gè)執(zhí)行緒同時(shí)爭取一個(gè)管線，其性能相較于在許多獨(dú)立核心上兩個(gè)執(zhí)行緒來得更低，應(yīng)該對SMP Linux核心進(jìn)行負(fù)載均衡最佳化。對于功耗最佳化，排程器可以將工作一次一個(gè)加載到一個(gè)核心的虛擬處理器上，使其它的處理器處于低功耗狀態(tài)。在性能最佳化方面，可以將工作分配到許多核心上，然后將多執(zhí)行緒加載到每個(gè)核心中，直到所有的核心都有一個(gè)進(jìn)展中的任務(wù)為止。

利用芯片上多處理功能可實(shí)現(xiàn)高SoC性能。SMP平臺和軟件提供了一個(gè)具有靈活性的高性能運(yùn)算平臺，能大幅提升單一處理器的速度，而這通常只需要稍微、或者根本不需要修改應(yīng)用程序代碼。

新聞中心

處理器設(shè)計(jì)下一步——單芯片同步多處理技術(shù)

評論

相關(guān)推薦

技術(shù)專區(qū)