英特爾放棄同時(shí)封裝 CPU、GPU、內(nèi)存計(jì)劃

作者：時(shí)間：2023-05-26 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

英特爾將 CPU、GPU 和內(nèi)存芯片拼接在一個(gè)稱為 XPU 的單一封裝上的宏偉計(jì)劃已經(jīng)暫緩。英特爾超級(jí)計(jì)算集團(tuán)副總裁杰夫·麥克維 (Jeff McVeigh) 透露，該公司的 Falcon Shores 平臺(tái)不僅會(huì)遲到，而且不會(huì)是一個(gè) XPU。

本文引用地址：http://2s4d.com/article/202305/447026.htm

英特爾最初計(jì)劃其 Falcon Shores 芯片同時(shí)具有 GPU 和 CPU 內(nèi)核，從而創(chuàng)建該公司的第一個(gè)用于高性能計(jì)算的「XPU」。幾個(gè)月前英特爾宣布這款產(chǎn)品將轉(zhuǎn)向純 GPU 設(shè)計(jì)并將芯片推遲到 2025 年，這讓行業(yè)感到震驚——因?yàn)榱硗鈨杉姨幚砥骶揞^ AMD 的 Instinct MI300 和英偉達(dá)的 Grace Hopper 都具有混合 CPU+GPU 設(shè)計(jì)。

麥克維說(shuō)：「之前將 CPU 和 GPU 集成到 XPU 中的努力還為時(shí)過(guò)早，」他認(rèn)為，自從 Falcon Shores 詳細(xì)介紹以來(lái)，市場(chǎng)在這一年發(fā)生了巨大變化，以至于繼續(xù)進(jìn)行下去不再有意義。麥克維將這種選擇比作登山?！府?dāng)在登山的時(shí)候，如果天氣變壞，你感覺(jué)不對(duì)，你不會(huì)僅僅因?yàn)樗谀抢锞腿ロ敺?。你?huì)推遲到當(dāng)你準(zhǔn)備好了，當(dāng)生態(tài)系統(tǒng)準(zhǔn)備好了，當(dāng)氣候準(zhǔn)備好了。」

根據(jù)麥克維的說(shuō)法，當(dāng)今的 AI 和 HPC 工作負(fù)載過(guò)于動(dòng)態(tài)，無(wú)法進(jìn)行集成?！府?dāng)工作負(fù)載固定時(shí)，當(dāng)你非常清楚它們不會(huì)發(fā)生巨大變化時(shí)，集成就很棒，」他補(bǔ)充道。雖然 Falcon Shores 不會(huì)成為 XPU，但這并不意味著英特爾不會(huì)在適當(dāng)?shù)臅r(shí)候重啟該項(xiàng)目。

英特爾發(fā)布了新的 HPC 和 AI 路線圖，其中沒(méi)有顯示 Gaudi3 處理器的繼任者——相反，Gaudi 和 GPU 與 Falcon Shores GPU 合并，因?yàn)樗^承了英特爾首屈一指的 HPC 和 AI 芯片。英特爾表示，「計(jì)劃整合 Habana 和 AXG 產(chǎn)品 [GPU] 路線圖」，但整合的細(xì)節(jié)很少。

采用標(biāo)準(zhǔn)以太網(wǎng)交換，很像英特爾專注于 AI 的 Gaudi 架構(gòu)，數(shù)量不詳?shù)?HBM3 內(nèi)存，以及「I/O 旨在擴(kuò)展」，這可能意味著 Falcon Shores 將配備不同的內(nèi)存容量選項(xiàng)。英特爾確實(shí)表示 Falcon 將配備高達(dá) 288GB 的 HBM3 和 9.8TB/s 的總內(nèi)存吞吐量。正如預(yù)期的那樣，它將支持較小的數(shù)據(jù)類型，如 FP8 和 BF16。

對(duì)于英特爾來(lái)說(shuō)，英特爾放慢 GPU 發(fā)布節(jié)奏意味著它將不得不利用舊產(chǎn)品與英偉達(dá)和 AMD 的混合架構(gòu)產(chǎn)品競(jìng)爭(zhēng)。

AMD MI300

1 月，AMD 展示了其迄今為止對(duì)加速處理單元 (APU) 的最佳外觀，這是 AMD 對(duì) CPU-GPU 架構(gòu)的專業(yè)術(shù)語(yǔ)。

根據(jù) AMD 在 1 月份分享的封裝照片，該芯片將配備 24 個(gè) Zen 4 內(nèi)核——與 11 月份在 AMD 的 Epyc 4 Genoa 平臺(tái)中使用的相同——分布在兩個(gè)由六個(gè) GPU 芯片和八個(gè)高帶寬內(nèi)存組成的小芯片上模塊總共有 128GB。

在性能方面，AMD 聲稱該芯片提供的「AI 性能」是 Frontier 超級(jí)計(jì)算機(jī)中使用的 MI250X 的 8 倍，同時(shí)每瓦性能也提高了 5 倍。根據(jù) The Next Platform 的說(shuō)法，考慮到對(duì)具有稀疏性的 8 位浮點(diǎn) (FP8) 數(shù)學(xué)的支持，這將使該芯片的性能與四個(gè) MI250X GPU 相當(dāng)，并且可能使該芯片功耗處于 900W 左右如果屬實(shí)，那么 MI300A 將成為一款很「熱」的芯片，幾乎肯定需要液體冷卻才能馴服。對(duì)于 HPC 系統(tǒng)來(lái)說(shuō)，這應(yīng)該不是問(wèn)題，其中大部分已經(jīng)使用直接液體冷卻，但可能會(huì)迫使遺留數(shù)據(jù)中心升級(jí)其設(shè)施，否則就有可能被拋在后面。

英偉達(dá) Grace Hopper

從技術(shù)上講，AMD 并不是唯一一家為數(shù)據(jù)中心追求 CPU-GPU 組合架構(gòu)的公司。AMD 將與英偉達(dá)的 Grace Hopper 芯片展開競(jìng)爭(zhēng)。

MI300 和 Grace Hopper 是截然不同的路線。英偉達(dá)解決這個(gè)特殊問(wèn)題的方法是使用其專有的 900GBps NVLink-C2C 互連將其 72 核 Arm 兼容的 Grace CPU 與 GH100 芯片配對(duì)。雖然這消除了 PCIe 作為兩個(gè)組件之間的瓶頸，但它們是不同的，每個(gè)都有自己的內(nèi)存。GH100 芯片有自己的 HBM3 內(nèi)存，而 Grace GPU 耦合到 512GB 的 LPDDR5，適用于 500GBps 的內(nèi)存帶寬。

另一方面，MI300A 看起來(lái)是一個(gè)誠(chéng)實(shí)的 APU，能夠?qū)ぶ废嗤?HBM3 內(nèi)存，而無(wú)需通過(guò)互連來(lái)回復(fù)制它。

哪種方法會(huì)帶來(lái)更好的性能，哪些工作負(fù)載尚未得到解決，但唯一確定的事英特爾不會(huì)在這場(chǎng)戰(zhàn)斗中占據(jù)一席之地。

英特爾表示，它將利用 CXL 接口，使其客戶能夠利用可組合的架構(gòu)，該架構(gòu)可以在其定制設(shè)計(jì)中將各種 CPU/GPU 比率結(jié)合在一起。然而，CXL 接口僅在元素之間提供 64 GB/s 的吞吐量，而像 Nvidia 的 Grace Hopper 這樣的定制 CPU+GPU 設(shè)計(jì)可以在 CPU 和 GPU 之間提供高達(dá) 1 TB/s 的內(nèi)存吞吐量。對(duì)于許多類型的工作負(fù)載——尤其是需要大量?jī)?nèi)存帶寬的 AI 工作負(fù)載，這比 CXL 實(shí)現(xiàn)具有性能和效率優(yōu)勢(shì)。更不用說(shuō)元素之間固有的低延遲連接和其他優(yōu)勢(shì)，如更高的性能密度。