博客專欄

EEPW首頁 > 博客 > 英特爾大幅更改芯片路線圖:放棄XPU

英特爾大幅更改芯片路線圖:放棄XPU

發(fā)布人:旺材芯片 時間:2023-05-24 來源:工程師 發(fā)布文章
來源內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自hpcwire,謝謝。

在雄心勃勃的將 CPU 和 GPU 集成到芯片中的計劃突然逆轉(zhuǎn)后,英特爾終于提供了有關(guān)其超級計算芯片路線圖的大規(guī)模更改的具體細節(jié)。


該芯片制造商分享了即將推出的名為 Falcon Shores 的芯片的更多細節(jié),該芯片最初被定為 XPU(統(tǒng)一的 CPU 和 GPU)。Falcon Shores 現(xiàn)在是一款純 GPU 產(chǎn)品,并針對科學(xué)和 AI 計算進行了重新配置。



“我之前推動并強調(diào)將 CPU 和 GPU 集成到 XPU 中還為時過早。原因是,我們覺得我們所處的市場比我們一年前想象的要活躍得多,”英特爾公司副總裁兼超級計算事業(yè)部總經(jīng)理 Jeff McVeigh 在新聞發(fā)布會上說。


新的 Falcon Shores 芯片是面向高性能計算和 AI 的下一代獨立 GPU。它包括來自 Gaudi 系列的 AI 處理器(在 Falcon Shores 發(fā)布時將是第 3 版),還包括標(biāo)準(zhǔn)以太網(wǎng)交換、HBM3 內(nèi)存和大規(guī)模 IO。


“這提供了跨供應(yīng)商的靈活性,可以將 Falcon Shores GPU 與其他 CPU 以及 CPU 與 GPU 的結(jié)合起來,同時仍然提供非常通用的基于 GPU 的編程接口,并在 CPU 和 GPU 之間共享 CXL,以提高生產(chǎn)力和性能對于這些代碼,”McVeigh 說。


Falcon Shores GPU 是代號為 Ponte Vecchio 的 Max 系列 GPU 的繼任者,現(xiàn)在將于 2025 年推出。英特爾在 3 月份廢棄了代號為 Rialto Bridge 的超級計算機 GPU,該 GPU 是 Ponte Vecchio 的指定后續(xù)產(chǎn)品。


McVeigh 說,計算環(huán)境還不成熟,無法實施 XPU 戰(zhàn)略,并補充說,圍繞生成式人工智能和大型語言模型的創(chuàng)新——其中大部分來自商業(yè)領(lǐng)域——引發(fā)了英特爾關(guān)于如何構(gòu)建下一代超級計算芯片的思維轉(zhuǎn)變。


圖片


與此同時,英特爾還發(fā)布了新的 HPC 和 AI 路線圖,其中沒有顯示 Gaudi3 處理器的繼任者——相反,Gaudi 和 GPU 與 Falcon Shores GPU 合并,因為它繼承了英特爾首屈一指的 HPC 和 AI 芯片。英特爾告訴我們,它“計劃整合 Habana 和 AXG 產(chǎn)品 [GPU] 路線圖”,但整合的細節(jié)很少。


Gaudi 計算架構(gòu)與標(biāo)準(zhǔn) GPU 有很大不同,因此其計算架構(gòu)似乎無法完全集成到 GPU 中。因此,英特爾可以將Gaudi設(shè)計的較小部分(例如其網(wǎng)絡(luò)接口或其他 IP 塊)整合到其 GPU 中?;仡櫼幌?,英特爾為 Habana Labs 支付了 20 億美元,并取消了其 3.5 億美元收購 Nervana 的產(chǎn)品,以專注于 Gaudi 芯片。


圖片


然而,如上所示,F(xiàn)alcon Shores 的原始計劃確實包括通過將不同數(shù)量的 CPU 或 GPU 塊放入四塊設(shè)計中來調(diào)整 CPU/GPU 的能力,從而允許它配置最佳混合各種工作量。此外,從設(shè)計上講,處于前沿的超級計算機是針對手頭任務(wù)的高度專業(yè)化設(shè)計,針對架構(gòu)的軟件調(diào)整只是運行超級計算機業(yè)務(wù)的常規(guī)部分。這些因素意味著 CPU/GPU 比率并不是英特爾從設(shè)計中移除 CPU 內(nèi)核的唯一原因。


生成式 AI 和 LLM 將在科學(xué)計算中得到廣泛采用,CPU 和 GPU 的解耦將為具有不同工作負載的客戶提供更多選擇。


“當(dāng)您身處工作負載瞬息萬變的動態(tài)市場時,您真的不想強迫自己走固定 CPU 與 GPU 的道路。你不想修復(fù)供應(yīng)商甚至所使用的架構(gòu)……x86,Arm。” McVeigh說。


CPU 和 GPU 的集成可以降低成本并節(jié)省電力,但它會將客戶鎖定在供應(yīng)商和配置上。但這將隨著新的 Falcon Shores 的出現(xiàn)而改變,McVeigh表示,他補充說:“我們只是覺得要對今天的市場進行清算,現(xiàn)在還不是整合的時候?!?/p>


雖然在不久的將來不會將 CPU 和 GPU 合并用于超級計算,但英特爾并沒有放棄這個想法。


“我們會在合適的時間,”McVeigh說,并補充道,“當(dāng)天氣合適的時候,我們會這樣做。我們只是覺得這不適合下一代?!?/p>


獨立的 GPU 還將為供應(yīng)商提供更大的靈活性,讓他們可以使用具有 x86 以外的不同 CPU 的 GPU 構(gòu)建系統(tǒng)。英特爾已達成協(xié)議,可能會在其工廠生產(chǎn)基于 Arm 的芯片。


服務(wù)器設(shè)計也有望隨著 CXL(Compute Express Link)互連而改變,這鼓勵組件解耦,因此 GPU、AI 芯片和其他加速器可以輕松訪問大型存儲和內(nèi)存池。


“問題是,這通常落在我們的 OEM 合作伙伴的肩上,他們希望如何將我們的 GPU 與其他供應(yīng)商的 CPU 集成,但我們?yōu)閷崿F(xiàn)這一目標(biāo)敞開大門,并利用 PCI Express 等標(biāo)準(zhǔn)接口,和 CXL 等等,使我們能夠非常有效地做到這一點,”McVeigh說。


但英特爾面臨來自 AMD 的 Instinct MI300 的挑戰(zhàn),該產(chǎn)品預(yù)計將于今年晚些時候發(fā)貨,并將為勞倫斯利弗莫爾國家實驗室的 2 exaflops(峰值)超級計算機 El Capitan 提供動力。Nvidia 目前在商業(yè)生成人工智能市場占據(jù)主導(dǎo)地位,該公司的 H100 GPU 在谷歌、Facebook 和微軟運營的數(shù)據(jù)中心運行。


英特爾將利用 Falcon Shores 的 GPU 編程模型,類似于 Nvidia 采用的 CUDA 編程框架。英特爾的 OneAPI 工具包有一系列編譯器、庫和編程工具,可以在 Falcon Shores GPU、Gaudi AI 處理器和英特爾將放入超級計算芯片的其他加速器上執(zhí)行。


OneAPI 中名為 SYCL 的工具可以編譯超級計算和 AI 應(yīng)用程序,以在 Intel、Nvidia 和 AMD 的一系列硬件上運行。它還可以通過剝離特定于 CUDA 的代碼來重新編譯為 Nvidia GPU 編寫的應(yīng)用程序。例如,LRZ 從 Fortran 移植了 DPEcho 天體物理學(xué)代碼,并且能夠在 Intel 和 Nvidia GPU 上有效運行(下面的基準(zhǔn)測試幻燈片)。


圖片


英特爾分享了除 GPU 課程修正之外的其他披露信息。


該芯片制造商為其 Aurora 超級計算機交付了超過 10,624 個采用 HBM 的 Xeon Max 系列芯片計算節(jié)點,其中包括 21,248 個 CPU 節(jié)點、63,744 個 GPU、10.9PB 的 DDR 內(nèi)存和 230PB 的存儲空間。


“在全面優(yōu)化、交付代碼和驗收方面,我們還有很多工作要做。但這是一個至關(guān)重要的里程碑,我們……非常高興能夠?qū)崿F(xiàn),”McVeigh說。


圖片


這個里程碑對英特爾來說很重要,因為 Aurora 的部署已經(jīng)被推遲。這臺有望突破 2 exaflops(峰值)門檻的超級計算機將無法躋身今年 5 月全球最快超級計算機 Top500 榜單。


“我們真正專注于推出整個系統(tǒng)……穩(wěn)定并運行……獲得真正的工作負載,而不僅僅是運行和運行的基準(zhǔn)。我們預(yù)計到 11 月,我們將在 Top500 系統(tǒng)中提供強大的產(chǎn)品,”McVeigh 說。


最近在戴爾主辦的網(wǎng)絡(luò)研討會上,Rick Stevens(阿貢實驗室)分享說,F(xiàn)rontier 每年將為關(guān)鍵的科學(xué)工作負載貢獻大約 7800 萬個四 GPU 小時。


包括英特爾、HPE 和阿貢國家實驗室在內(nèi)的主要 HPC 參與者正在聯(lián)手開發(fā)一種名為 AuroraGPT 的科學(xué)計算大型語言模型,該模型建立在 1 萬億個參數(shù)的基礎(chǔ)模型之上,比 ChatGPT 大得多,后者是建立在 GPT-3 基礎(chǔ)模型之上。


生成式人工智能技術(shù)將基于可用的科學(xué)數(shù)據(jù)和文本以及代碼庫,并像商業(yè)大型語言模型一樣發(fā)揮作用。目前尚不清楚該技術(shù)是否會是多模態(tài),并生成圖像和視頻。如果它是多模態(tài)的,一個例子可能是研究人員提出問題,人工智能提供響應(yīng),或者使用人工智能生成科學(xué)圖像。


LLM將用于“推動科學(xué)發(fā)展并利用 Aurora 進行訓(xùn)練,其推論將成為系統(tǒng)部署方式的關(guān)鍵部分,”McVeigh 說。


AuroraGPT 可用于材料、癌癥和氣候科學(xué)的研究。基礎(chǔ)模型包括 Megatron 和 DeepSpeed 變壓器。


英特爾還宣布將推出一款通用基板 (UBB) 系統(tǒng),該系統(tǒng)最初采用基于 Supermicro 和 Inspur 的設(shè)計,配備八個 Ponte Vecchio Max 系列 GPU(如標(biāo)題圖片所示)。這些服務(wù)器針對 AI 部署,McVeigh 表示支持 8-GPU 配置。該產(chǎn)品于今年早些時候推出,預(yù)計將在第三季度推出。


圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 英特爾

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉