GPU如何工作：PowerVR/高通Adreno/ARM Mali的渲染模式分析

作者：時(shí)間：2016-06-20 來源：愛活網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

編者按：對(duì)大多數(shù)讀者來說，GPU架構(gòu)甚至GPU是啥，的確完全可以不需要了解，只要看上去外觀比較合眼緣就可以讓他們毫不猶豫地掏腰包購買。

　　TBDR是如何實(shí)現(xiàn)HSR的呢?

本文引用地址：http://2s4d.com/article/201606/292810.htm

　　不過幾何體壓縮并非TBDR的賣點(diǎn)，TBDR的真正賣點(diǎn)是可以實(shí)現(xiàn)完全消除不可見三角形的片元渲染，那么它是如何做到這一點(diǎn)的呢?

　　(Kristof Beets)

　　根據(jù)現(xiàn)在供職于ImgTec擔(dān)任商業(yè)開發(fā)總監(jiān)的Kristof Beets在 2001年(就在這一年他加盟PowerVR，任職開發(fā)者關(guān)系協(xié)調(diào)工程師，該文似乎是他在PowerVR實(shí)習(xí)期間撰寫的)的一篇文章，PowerVR的HSR實(shí)現(xiàn)方式應(yīng)該是這樣的：

　　1、從Tile Buffer中獲得第一個(gè)指針，基于這個(gè)指針就能拾取到Scene Buffer中所有三角形的數(shù)據(jù)。

　　這一步可以實(shí)現(xiàn)預(yù)拾取并將數(shù)據(jù)存放在一個(gè)GPU的片上緩存里，這個(gè)高速緩存可以稱作為On-Chip Tile buffer(片上塊元緩存)，用作區(qū)別于片外的圖元列表Tile Buffer，雖然都是塊元緩存，都是對(duì)應(yīng)16*16個(gè)像素，但是存放的東西完全不一樣(一個(gè)是從指針解引用后獲得的三角形數(shù)據(jù)和計(jì)算好的深度值，另一個(gè)則是圖元列表)。

　　2、使用這個(gè)三角形的數(shù)據(jù)計(jì)算出被該三角形覆蓋的Tile中每個(gè)像素的Z值(深度值)。

　　3、這些深度值數(shù)據(jù)以及對(duì)應(yīng)于第一個(gè)三角形的指針被一起存放在GPU內(nèi)的高速緩存里。

　　4、重復(fù)上面的步驟，獲得第二個(gè)三角形的數(shù)據(jù)以及該Tile中被其覆蓋的像素的深度值，對(duì)第二個(gè)三角形覆所蓋像素的深度值和第一個(gè)三角形所覆蓋像素的深度值進(jìn)行比較，如果新的深度值更接近于視口(表明是可看見的)，就更新深度值以及三角形(指向新的三角形)。

　　5、重復(fù)上述的步驟，直到覆蓋該Tile的所有三角形數(shù)據(jù)以及深度信息更新完畢。

　　6、此時(shí)，GPU的片上高速緩存存放的就是用于確定像素色彩的三角形。

　　前面的Scene Buffer以及Tile Buffers都是存放在GPU外的，而上面步驟中絕大部分操作都是GPU內(nèi)部的高速緩存上進(jìn)行的(除了從Scene Buffer中載入該塊元的三角形數(shù)據(jù)外)，速度會(huì)非常快。

　　渲染一個(gè)塊元需時(shí)256個(gè)周期(根據(jù)Kristof Beets文章提到16x32的塊元需時(shí)512個(gè)周期推算)：

　　1、數(shù)據(jù)拾取可以采用流水線結(jié)構(gòu)，因此不存在性能懲罰;

　　2、篩選(計(jì)算Z值)需時(shí)一個(gè)周期，這個(gè)步驟也可以采用流水線結(jié)構(gòu)，每個(gè)三角形的檢查和塊元更新可以在一個(gè)周期內(nèi)完成。

　　因此除非時(shí)出現(xiàn)極端狀況，256個(gè)周期的渲染時(shí)間是可以掩蓋掉塊元中含有256個(gè)三角形執(zhí)行篩選動(dòng)作的耗時(shí)，在一個(gè)16x16的塊元內(nèi)出現(xiàn)256個(gè)三角形的情況目前來說應(yīng)該還是很少見。

　　按照這樣的思路可以推算出 1920x1080 60FPS下能實(shí)現(xiàn)的每秒三角形篩選能力是：

　　1920x1080 * 60FPS = 124，416，000 Mtriangles/s

　　根據(jù)上面的算式可以得出在像PowerVR SGX 5上每個(gè)塊元含有高達(dá)256個(gè)三角形的情況下，要滿足60FPS速率時(shí)的三角形篩選個(gè)數(shù)為124百萬三角形，現(xiàn)實(shí)的游戲中幾乎沒有這樣的情況會(huì)出現(xiàn)，因?yàn)槟壳暗闹瞥虩o法做到一個(gè)全程勝任這個(gè)三角形規(guī)模真實(shí)游戲的移動(dòng)GPU。

　　在知名的三維性能測(cè)試軟件3DMark里有一個(gè)支持在手機(jī)上進(jìn)行測(cè)試的icestorm場(chǎng)景，其三角形規(guī)模在Extreme模式時(shí)候的為每幀28，000個(gè)，達(dá)到60FPS時(shí)就是每秒1.68百萬三角形/秒，對(duì)于手機(jī)來說這個(gè)測(cè)試已經(jīng)算是比較嚴(yán)苛了，但是此時(shí)三角形規(guī)模也就是每個(gè)塊元大約3.5個(gè)三角形，遠(yuǎn)遠(yuǎn)低于每周期256個(gè)三角形的處理能力。

　　PowerVR的渲染

　　完成塊元渲染后，在塊元幀緩存中的數(shù)據(jù)會(huì)被寫入到顯存(在手機(jī)中通常顯存和系統(tǒng)內(nèi)存共享)中。在這個(gè)寫入動(dòng)作執(zhí)行的時(shí)候，會(huì)一并執(zhí)行抖動(dòng)操作(只執(zhí)行一次而非多次)。如果在臺(tái)PC上，如果指定了超取樣抗鋸齒，在這一步還會(huì)執(zhí)行一個(gè)向下取樣的操作，將畫面縮小到指定的屏幕分辨率。

　　在完成了一個(gè)塊元的渲染后，這個(gè)塊元的像素會(huì)被傳輸?shù)斤@存(對(duì)于采用一體內(nèi)存架構(gòu)的移動(dòng)設(shè)備來說，這塊顯存是從主內(nèi)存中分配的)。

　　然后，GPU繼續(xù)下一個(gè)塊元的渲染，直到整幀畫面渲染完畢后，以雙緩存方式運(yùn)作的Scene Buffer開始把下一幀的塊元遞交給渲染單元執(zhí)行后續(xù)工位處理，周而復(fù)始。

　　相較于非TBDR的GPU微架構(gòu)來說，PowerVR或者說TBDR能對(duì)整個(gè)畫面(場(chǎng)景)進(jìn)行判別，確定哪些三角形覆蓋的片元需要渲染，而“傳統(tǒng)”的立即渲染架構(gòu)無法實(shí)現(xiàn)這一點(diǎn)。

　　Kristof Beets的原文還介紹了infinite plane(無限大平面)和HSR的關(guān)系，所謂的infinite plane并不難理解，你可以想象一下：在一個(gè)三維空間里存在著一塊無限大的平面，這塊平面顯然會(huì)把這個(gè)三維空間一分為二。

　　如果我們?cè)谶@個(gè)三維空間多弄幾個(gè)這樣的平面并使其相交，也就可以構(gòu)建出一個(gè)幾何體模型出來了(例如只要六個(gè)相交的無限大平面就能構(gòu)造出一個(gè)多邊形數(shù)很少的立方體)。

　　這樣的建模技術(shù)和常見的三角形建模是有很大區(qū)別的，所以很難找到合適的建模工具，其應(yīng)用非常受限，而且隨著模型越來越復(fù)雜，無限大平面的優(yōu)勢(shì)也就沒啥感覺了(在Youtube上有一段采用PowerVR PCX2渲染一個(gè)由35個(gè)無限大平面構(gòu)建的甜甜圈的視頻，幀率只有47 fps)，三角形此時(shí)是更合理的選擇。

　　好好的三角形不用，為啥要折騰這個(gè)無限大平面呢?可能的原因是在當(dāng)時(shí)看來，這樣的技術(shù)可以節(jié)省在Scene Buffer里要存放的三角形數(shù)：

　　在幾何階段，PowerVR會(huì)根據(jù)從視點(diǎn)發(fā)出的一條“測(cè)量光”確定最前和最后的平面相交點(diǎn)，藉此得出一個(gè)渲染計(jì)算約束椎體(effect volume)，使得這些無限大平面變成有限的平面，加上隱面消除技術(shù)，幾何體外突出的平面也被消隱掉。

　　較少的多邊形、可以和TBDR的隱面消除技術(shù)完美配合，于是無限大平面建模的合理性也就因此存在了。

　　據(jù)說在PowerVR Series 2以后就不在支持無限大平面，目前為止只有世嘉 DreamCast中的那枚PowerVR芯片是具備無限大平面建模能力的圖形芯片，所以無限大平面這個(gè)部分我們完全不需要考慮，這里介紹主要是為了強(qiáng)調(diào)一下 PowerVR的特點(diǎn)——近乎完美的隱面消除能力(如果不涉及阿爾法混合、阿爾法測(cè)試的話，因?yàn)檫@兩項(xiàng)操作會(huì)導(dǎo)致HSR失效)。

　　我們上面費(fèi)了很多口舌來闡述PowerVR的最主要特色TBDR，接下來就讓我們說說當(dāng)前以及即將推出的PowerVR GPU到底會(huì)長成什么樣子。

　　ImgTec PowerVR Rogue

　　ImgTec在2012年發(fā)布了名為PowerVR Rogue的第六代PowerVR微架構(gòu)，現(xiàn)在市場(chǎng)上許多手機(jī)里的GPU都是基于該微架構(gòu)的變種，例如紅米Note 3/Note2、魅藍(lán) Metal、魅族 MX5里的PowerVR G6200。蘋果iPhone 6s Plus的GPU經(jīng)過各種驗(yàn)尸手段查證后確認(rèn)為PowerVR GT7600，這個(gè)GT7600被PowerVR定義為第七代PowerVR(PowerVR Series 7 或者 Rogue 7)微架構(gòu)。毫無疑問，不論檔次高低，現(xiàn)在許多手機(jī)、平板電腦中都有基于PowerVR的GPU。

　　ImgTec屬于經(jīng)營、開發(fā)知識(shí)產(chǎn)權(quán)的芯片公司，本身并不直接售賣芯片，透過研發(fā)大量芯片內(nèi)核，然后將其授權(quán)給需要的第三方公司，收取授權(quán)金來維持公司的運(yùn)營，因此他們會(huì)弄一大堆內(nèi)核，以滿足不同廠商、市場(chǎng)的需求。

　　理論上這樣的運(yùn)管方式只牽涉到研發(fā)費(fèi)用和市場(chǎng)拓展費(fèi)用，弄一大堆內(nèi)核IP的并不會(huì)造成實(shí)體產(chǎn)品那樣的庫存壓力。

　　ImgTec在2012年發(fā)布了代號(hào)Rogue的PowerVR Series6微架構(gòu)，最低端的是G60X0和G61X0(x為其中一個(gè)數(shù)字編號(hào)，不同編號(hào)型號(hào)配置均不一樣)，對(duì)應(yīng)的D3D規(guī)格只能夠支持DX9特性級(jí)別。

　　在型號(hào)的含義方面，G6050里有0.5個(gè)正常規(guī)格的USC(通用著色器簇)，61X0 里含有1個(gè)USC。USC 是PowerVR Series 6引入的統(tǒng)一著色簇簡稱，區(qū)別于以往的PowerVR Series 5時(shí)候的USSE。

　　前面我們所說的TBDR是指渲染流程的方式，而通用著色器簇則是指具體微架構(gòu)里將若干個(gè)計(jì)算、貼圖部件綁定在一起的單元，一個(gè)USC 就類似于CPU中傳統(tǒng)概念上的一個(gè)內(nèi)核，正如我們前面所說的，它對(duì)應(yīng)的就是通用計(jì)算標(biāo)準(zhǔn)OpenCL中的術(shù)語就是Compute Unit。

　　下圖是PowerVR最新的PowerVR Series 7XT的微架構(gòu)圖：

　　GPU廠商在設(shè)計(jì)GPU的時(shí)候都會(huì)把延伸性作為重要的設(shè)計(jì)因素，因?yàn)檫@樣能確保軟件、硬件資源的最充分利用，上圖的USC規(guī)?？梢砸罁?jù)具體的應(yīng)用情況作調(diào)整，例如iPhone 6s采用的GT7600就具備6個(gè)USC(或者說6個(gè)CU)。

　　上圖的PowerVR Series 7XT屬于目前ImgTec最強(qiáng)大的GPU微架構(gòu)，蘋果公司的iPhone 6s列就是采用基于該GPU微架構(gòu)的GT7600。

　　作為PowerV RSeries 7的GT7600，提供了FP16(半精度)的原生支持，所以如果程序采用了FP16的話，性能會(huì)較FP32快一倍，對(duì)于手機(jī)應(yīng)用來說，F(xiàn)P16 提供了10位的有效值和5位的指數(shù)，是可以滿足許多情況下的圖形渲染計(jì)算的需求。

　　要正確使用這類FP16需要比FP32更多的技巧，像當(dāng)年NVIDIA的NV3X就提供了FP32 + FP16設(shè)計(jì)，但是在和AMD R300的性能競(jìng)爭中一直處于下風(fēng)，維持NV3X拉力的主要靠NVIDIA和各個(gè)游戲開發(fā)商緊密的合作關(guān)系。

　　上表中的GFLOPS指標(biāo)是指GPU計(jì)算單元運(yùn)行于1GHz時(shí)候的情況，不過我們目前尚未有可靠的iPhone 6s系列GPU運(yùn)行頻率規(guī)格，wiki百科上寫的蘋果A9 GPU為450MHz(此時(shí)的單精度浮點(diǎn)性能是172 GFLOPS)或者533MHz也只能是參考。

　　根據(jù)GFXBench的ALU測(cè)試結(jié)果，iPhone6s Plus(GT7600，6 USC)是 12781fps，iPhone6 Plus(GX6450，4 USC)是5847 fps，這意味著前者的計(jì)算性能是后者的兩倍左右，考慮到ImgTec曾經(jīng)表示PowerVR Series 7XT浮點(diǎn)性能在同頻、同規(guī)模下的性能是PowerVRSeries 6XT 1.6 倍，這個(gè)測(cè)試結(jié)果表明iPhone 6s Plus的GT7600頻率很可能和iPhone 6 Plus的GX6450相當(dāng)。

　　業(yè)界也有人認(rèn)為iPhone 6s系A(chǔ)9采用的并非GT7600，原因是開發(fā)文檔缺乏一些PowerVR Series 7XT存在的Tessellation等特性以及采用Metal作為API，這其實(shí)因?yàn)镻owerVR的授權(quán)本來就允許廠商自行定制驅(qū)動(dòng)，像 Intel的GMA系列GPU就沒有開放TBDR這樣的PowerVR最核心技術(shù)，而且Tessellation對(duì)于這個(gè)級(jí)別的GPU而言意義也不是很大(有多少人用過iPhone 6 GX6450里的那個(gè)Tessellation?)，所以不必太為此糾結(jié)。

新聞中心

GPU如何工作：PowerVR/高通Adreno/ARM Mali的渲染模式分析

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)