英特爾大幅更改芯片路線圖：放棄XPU

發(fā)布人：旺材芯片時(shí)間：2023-05-24 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：內(nèi)容由半導(dǎo)體行業(yè)觀察（ID：icbank）編譯自hpcwire，謝謝。

在雄心勃勃的將 CPU 和 GPU 集成到芯片中的計(jì)劃突然逆轉(zhuǎn)后，英特爾終于提供了有關(guān)其超級(jí)計(jì)算芯片路線圖的大規(guī)模更改的具體細(xì)節(jié)。

該芯片制造商分享了即將推出的名為 Falcon Shores 的芯片的更多細(xì)節(jié)，該芯片最初被定為 XPU（統(tǒng)一的 CPU 和 GPU）。Falcon Shores 現(xiàn)在是一款純 GPU 產(chǎn)品，并針對科學(xué)和 AI 計(jì)算進(jìn)行了重新配置。

“我之前推動(dòng)并強(qiáng)調(diào)將 CPU 和 GPU 集成到 XPU 中還為時(shí)過早。原因是，我們覺得我們所處的市場比我們一年前想象的要活躍得多，”英特爾公司副總裁兼超級(jí)計(jì)算事業(yè)部總經(jīng)理 Jeff McVeigh 在新聞發(fā)布會(huì)上說。

新的 Falcon Shores 芯片是面向高性能計(jì)算和 AI 的下一代獨(dú)立 GPU。它包括來自 Gaudi 系列的 AI 處理器（在 Falcon Shores 發(fā)布時(shí)將是第 3 版），還包括標(biāo)準(zhǔn)以太網(wǎng)交換、HBM3 內(nèi)存和大規(guī)模 IO。

“這提供了跨供應(yīng)商的靈活性，可以將 Falcon Shores GPU 與其他 CPU 以及 CPU 與 GPU 的結(jié)合起來，同時(shí)仍然提供非常通用的基于 GPU 的編程接口，并在 CPU 和 GPU 之間共享 CXL，以提高生產(chǎn)力和性能對于這些代碼，”McVeigh 說。

Falcon Shores GPU 是代號(hào)為 Ponte Vecchio 的 Max 系列 GPU 的繼任者，現(xiàn)在將于 2025 年推出。英特爾在 3 月份廢棄了代號(hào)為 Rialto Bridge 的超級(jí)計(jì)算機(jī) GPU，該 GPU 是 Ponte Vecchio 的指定后續(xù)產(chǎn)品。

McVeigh 說，計(jì)算環(huán)境還不成熟，無法實(shí)施 XPU 戰(zhàn)略，并補(bǔ)充說，圍繞生成式人工智能和大型語言模型的創(chuàng)新——其中大部分來自商業(yè)領(lǐng)域——引發(fā)了英特爾關(guān)于如何構(gòu)建下一代超級(jí)計(jì)算芯片的思維轉(zhuǎn)變。

與此同時(shí)，英特爾還發(fā)布了新的 HPC 和 AI 路線圖，其中沒有顯示 Gaudi3 處理器的繼任者——相反，Gaudi 和 GPU 與 Falcon Shores GPU 合并，因?yàn)樗^承了英特爾首屈一指的 HPC 和 AI 芯片。英特爾告訴我們，它“計(jì)劃整合 Habana 和 AXG 產(chǎn)品 [GPU] 路線圖”，但整合的細(xì)節(jié)很少。

Gaudi 計(jì)算架構(gòu)與標(biāo)準(zhǔn) GPU 有很大不同，因此其計(jì)算架構(gòu)似乎無法完全集成到 GPU 中。因此，英特爾可以將Gaudi設(shè)計(jì)的較小部分（例如其網(wǎng)絡(luò)接口或其他 IP 塊）整合到其 GPU 中?；仡櫼幌拢⑻貭枮?Habana Labs 支付了 20 億美元，并取消了其 3.5 億美元收購 Nervana 的產(chǎn)品，以專注于 Gaudi 芯片。

然而，如上所示，F(xiàn)alcon Shores 的原始計(jì)劃確實(shí)包括通過將不同數(shù)量的 CPU 或 GPU 塊放入四塊設(shè)計(jì)中來調(diào)整 CPU/GPU 的能力，從而允許它配置最佳混合各種工作量。此外，從設(shè)計(jì)上講，處于前沿的超級(jí)計(jì)算機(jī)是針對手頭任務(wù)的高度專業(yè)化設(shè)計(jì)，針對架構(gòu)的軟件調(diào)整只是運(yùn)行超級(jí)計(jì)算機(jī)業(yè)務(wù)的常規(guī)部分。這些因素意味著 CPU/GPU 比率并不是英特爾從設(shè)計(jì)中移除 CPU 內(nèi)核的唯一原因。

生成式 AI 和 LLM 將在科學(xué)計(jì)算中得到廣泛采用，CPU 和 GPU 的解耦將為具有不同工作負(fù)載的客戶提供更多選擇。

“當(dāng)您身處工作負(fù)載瞬息萬變的動(dòng)態(tài)市場時(shí)，您真的不想強(qiáng)迫自己走固定 CPU 與 GPU 的道路。你不想修復(fù)供應(yīng)商甚至所使用的架構(gòu)……x86，Arm?！?McVeigh說。

CPU 和 GPU 的集成可以降低成本并節(jié)省電力，但它會(huì)將客戶鎖定在供應(yīng)商和配置上。但這將隨著新的 Falcon Shores 的出現(xiàn)而改變，McVeigh表示，他補(bǔ)充說：“我們只是覺得要對今天的市場進(jìn)行清算，現(xiàn)在還不是整合的時(shí)候?！?/p>

雖然在不久的將來不會(huì)將 CPU 和 GPU 合并用于超級(jí)計(jì)算，但英特爾并沒有放棄這個(gè)想法。

“我們會(huì)在合適的時(shí)間，”McVeigh說，并補(bǔ)充道，“當(dāng)天氣合適的時(shí)候，我們會(huì)這樣做。我們只是覺得這不適合下一代?！?/p>

獨(dú)立的 GPU 還將為供應(yīng)商提供更大的靈活性，讓他們可以使用具有 x86 以外的不同 CPU 的 GPU 構(gòu)建系統(tǒng)。英特爾已達(dá)成協(xié)議，可能會(huì)在其工廠生產(chǎn)基于 Arm 的芯片。

服務(wù)器設(shè)計(jì)也有望隨著 CXL（Compute Express Link）互連而改變，這鼓勵(lì)組件解耦，因此 GPU、AI 芯片和其他加速器可以輕松訪問大型存儲(chǔ)和內(nèi)存池。

“問題是，這通常落在我們的 OEM 合作伙伴的肩上，他們希望如何將我們的 GPU 與其他供應(yīng)商的 CPU 集成，但我們?yōu)閷?shí)現(xiàn)這一目標(biāo)敞開大門，并利用 PCI Express 等標(biāo)準(zhǔn)接口，和 CXL 等等，使我們能夠非常有效地做到這一點(diǎn)，”McVeigh說。

但英特爾面臨來自 AMD 的 Instinct MI300 的挑戰(zhàn)，該產(chǎn)品預(yù)計(jì)將于今年晚些時(shí)候發(fā)貨，并將為勞倫斯利弗莫爾國家實(shí)驗(yàn)室的 2 exaflops（峰值）超級(jí)計(jì)算機(jī) El Capitan 提供動(dòng)力。Nvidia 目前在商業(yè)生成人工智能市場占據(jù)主導(dǎo)地位，該公司的 H100 GPU 在谷歌、Facebook 和微軟運(yùn)營的數(shù)據(jù)中心運(yùn)行。

英特爾將利用 Falcon Shores 的 GPU 編程模型，類似于 Nvidia 采用的 CUDA 編程框架。英特爾的 OneAPI 工具包有一系列編譯器、庫和編程工具，可以在 Falcon Shores GPU、Gaudi AI 處理器和英特爾將放入超級(jí)計(jì)算芯片的其他加速器上執(zhí)行。

OneAPI 中名為 SYCL 的工具可以編譯超級(jí)計(jì)算和 AI 應(yīng)用程序，以在 Intel、Nvidia 和 AMD 的一系列硬件上運(yùn)行。它還可以通過剝離特定于 CUDA 的代碼來重新編譯為 Nvidia GPU 編寫的應(yīng)用程序。例如，LRZ 從 Fortran 移植了 DPEcho 天體物理學(xué)代碼，并且能夠在 Intel 和 Nvidia GPU 上有效運(yùn)行（下面的基準(zhǔn)測試幻燈片）。

英特爾分享了除 GPU 課程修正之外的其他披露信息。

該芯片制造商為其 Aurora 超級(jí)計(jì)算機(jī)交付了超過 10,624 個(gè)采用 HBM 的 Xeon Max 系列芯片計(jì)算節(jié)點(diǎn)，其中包括 21,248 個(gè) CPU 節(jié)點(diǎn)、63,744 個(gè) GPU、10.9PB 的 DDR 內(nèi)存和 230PB 的存儲(chǔ)空間。

“在全面優(yōu)化、交付代碼和驗(yàn)收方面，我們還有很多工作要做。但這是一個(gè)至關(guān)重要的里程碑，我們……非常高興能夠?qū)崿F(xiàn)，”McVeigh說。

這個(gè)里程碑對英特爾來說很重要，因?yàn)?Aurora 的部署已經(jīng)被推遲。這臺(tái)有望突破 2 exaflops（峰值）門檻的超級(jí)計(jì)算機(jī)將無法躋身今年 5 月全球最快超級(jí)計(jì)算機(jī) Top500 榜單。

“我們真正專注于推出整個(gè)系統(tǒng)……穩(wěn)定并運(yùn)行……獲得真正的工作負(fù)載，而不僅僅是運(yùn)行和運(yùn)行的基準(zhǔn)。我們預(yù)計(jì)到 11 月，我們將在 Top500 系統(tǒng)中提供強(qiáng)大的產(chǎn)品，”McVeigh 說。

最近在戴爾主辦的網(wǎng)絡(luò)研討會(huì)上，Rick Stevens（阿貢實(shí)驗(yàn)室）分享說，F(xiàn)rontier 每年將為關(guān)鍵的科學(xué)工作負(fù)載貢獻(xiàn)大約 7800 萬個(gè)四 GPU 小時(shí)。

包括英特爾、HPE 和阿貢國家實(shí)驗(yàn)室在內(nèi)的主要 HPC 參與者正在聯(lián)手開發(fā)一種名為 AuroraGPT 的科學(xué)計(jì)算大型語言模型，該模型建立在 1 萬億個(gè)參數(shù)的基礎(chǔ)模型之上，比 ChatGPT 大得多，后者是建立在 GPT-3 基礎(chǔ)模型之上。

生成式人工智能技術(shù)將基于可用的科學(xué)數(shù)據(jù)和文本以及代碼庫，并像商業(yè)大型語言模型一樣發(fā)揮作用。目前尚不清楚該技術(shù)是否會(huì)是多模態(tài)，并生成圖像和視頻。如果它是多模態(tài)的，一個(gè)例子可能是研究人員提出問題，人工智能提供響應(yīng)，或者使用人工智能生成科學(xué)圖像。

LLM將用于“推動(dòng)科學(xué)發(fā)展并利用 Aurora 進(jìn)行訓(xùn)練，其推論將成為系統(tǒng)部署方式的關(guān)鍵部分，”McVeigh 說。

AuroraGPT 可用于材料、癌癥和氣候科學(xué)的研究。基礎(chǔ)模型包括 Megatron 和 DeepSpeed 變壓器。

英特爾還宣布將推出一款通用基板 (UBB) 系統(tǒng)，該系統(tǒng)最初采用基于 Supermicro 和 Inspur 的設(shè)計(jì)，配備八個(gè) Ponte Vecchio Max 系列 GPU（如標(biāo)題圖片所示）。這些服務(wù)器針對 AI 部署，McVeigh 表示支持 8-GPU 配置。該產(chǎn)品于今年早些時(shí)候推出，預(yù)計(jì)將在第三季度推出。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

英特爾大幅更改芯片路線圖：放棄XPU

相關(guān)推薦

技術(shù)專區(qū)