AMD公布推土機、山貓新架構(gòu)大量細節(jié)
美國加州帕洛阿爾托市舉行的第22屆Hot Chips高性能芯片大會上,AMD如約公布了“推土機”(Bulldozer)、“山貓”(Bobcat)兩款全新處理器架構(gòu)的更多技術(shù)細節(jié)。AMD院士兼推土機總設(shè)計師Mike Butler、AMD院士兼山貓總設(shè)計師Brad Burgess均出席會議并分別發(fā)表了相關(guān)演講。
本文引用地址:http://2s4d.com/article/112051.htm推土機架構(gòu)主攻性能和擴展性,面向主流客戶端和服務(wù)器領(lǐng)域,山貓架構(gòu)的重點則是靈活性、低功耗和小尺寸,將用于低功耗設(shè)備、小型設(shè)備、云客戶端。
推土機將采用新的模塊化設(shè)計,每個模塊擁有兩個四管線核心,彼此共享一個浮點調(diào)度器和兩個128位乘法累加單元(FMAC)。兩個核心都擁有自己的整數(shù)調(diào)度器、一級數(shù)據(jù)緩存,并預(yù)取、解碼單元和二級緩存。 新架構(gòu)還將有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。
因為除了高性能計算領(lǐng)域之外浮點運算量并不多,這種浮點調(diào)度器共享設(shè)計能大大節(jié)省晶體管、核心面積、功耗,降低成本;兩個FMAC單元既可以被每個核心單獨使用,也可以合并組成一個256位FMAC單元,當然這需要程序代碼做相應(yīng)改變。為了獲得最大程度的性能功耗比,推土機架構(gòu)還會在共享、專用單元之間動態(tài)切換。
AMD宣稱,這種共享模塊化設(shè)計的多線程執(zhí)行效率要大大優(yōu)于同步多線程(SMT)和芯片多處理(CMP)。SMT最典型的實例就是Intel的超線程技術(shù),它強制兩個線程進入一個核心,線程之間會爭奪資源,影響效率;CMP則是一個線程對應(yīng)多個專用核心,浪費資源。
推土機的模塊可以通過HyperTransport高速點對點總線多個累加在一起,組成更多核心產(chǎn)品,比如代號 英特拉格斯的Opteron 6200系列服務(wù)器處理器就有6-8個模塊、12-16個核心,代號巴倫西亞的Opteron 4200系列則有3-4個模塊、6-8個核心,它們會分別取代現(xiàn)有的8-12核心Opteron 6100系列、4-6核心的Opteron 4100系列,均采用GlobalFoundries 32nm SOI工藝制造。
AMD表示,模塊化設(shè)計能夠加速芯片開發(fā)、提高產(chǎn)品靈活性,同時對硬件、操作系統(tǒng)、應(yīng)用軟件來說都是透明的。
此外推土機還是一個非常強調(diào)效能的架構(gòu),支持更先進的電源管理技術(shù)。因為浮點單元上的共享,每個模塊內(nèi)第二個浮點核心所需要的電路只占總核心面積的12%,從芯片級別上講這只會給整個內(nèi)核增加5%的電路。更多的核心、更少的空間,這顯然有利于提高單位功耗、單位成本的性能。
簡單地說,推土機是AMD徹底重新設(shè)計的核心,將成為AMD下一代高性能處理器技術(shù),用于客戶端和服務(wù)器領(lǐng)域,相比于Opteron 6100系列會增加33%的核心、大約50%的性能。
再來看山貓,這是一種小尺寸、高效能、低功耗的x86核心,同時具有出色的性能,可在不同設(shè)計、制造工藝上輕松移植。
山貓核心使用的是亂序執(zhí)行引擎(Atom是順序執(zhí)行),集成兩個x86解碼器、高級分支預(yù)測期、完整亂序指令執(zhí)行、完整亂序載入與存儲引擎、高性能浮點單元、32KB一級緩存、512KB二級緩存,完整支持ISA、SSE1/2/3、SSSE3指令集和虛擬化技術(shù),單個核心功耗可降至1W以下,估計能以不到一半的核心面積達到當今主流性能的90%。
評論