英特爾AI Gaudi 3 加速器：比 Nvidia H100慢但更便宜

作者：時(shí)間：2024-09-26 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Intel 今天正式推出了適用于 AI 工作負(fù)載的 Gaudi 3 加速器。新處理器在 AI 和 HPC 方面的速度比 Nvidia 流行的 H100 和 H200 GPU 慢，因此英特爾將其 Gaudi 3 的成功押注在其較低的價(jià)格和較低的總擁有成本（TCO）上。
Intel 的 Gaudi 3 處理器使用兩個(gè)小芯片，其中包含 64 個(gè)張量處理器內(nèi)核（TPC、256x256 MAC 結(jié)構(gòu)，帶 FP32 累加器）、八個(gè)矩陣乘法引擎（MME，256 位寬矢量處理器）和 96MB 片上 SRAM 緩存，帶寬為 19.2 TB/s。此外，Gaudi 3 還集成了 24 200 GbE 網(wǎng)絡(luò)接口和 14 個(gè)媒體引擎，后者能夠處理 H.265、H.264、JPEG 和 VP9 以支持視覺(jué)處理。該處理器配備 128GB HBM2E 內(nèi)存，分為八個(gè)內(nèi)存堆棧，提供 3.67 TB/s 的巨大帶寬。

本文引用地址：http://2s4d.com/article/202409/463263.htm

與 Gaudi 3 相比，英特爾的 Gaudi 2 代表了巨大的改進(jìn)，Gaudi 2 具有 24 個(gè) TPC、兩個(gè) MME 和攜帶 96GB 的 HBM2E 內(nèi)存。但是，英特爾似乎簡(jiǎn)化了 TPC 和 MME，因?yàn)?Gaudi 3 處理器僅支持 FP8 矩陣運(yùn)算以及 BFloat16 矩陣和向量運(yùn)算（即不再有 FP32、TF32 和 FP16）。
在性能方面，英特爾表示，Gaudi 3 可以在 600W TDP 左右的情況下提供高達(dá) 1856 BF16/FP8 矩陣 TFLOPS 以及高達(dá) 28.7 BF16 矢量 TFLOPS。與 Nvidia 的 H100 相比，至少在紙面上，Gaudi 3 的 BF16 矩陣性能略低（1,856 對(duì) 1,979 TFLOPS），F(xiàn)P8 矩陣性能低兩倍（1,856 對(duì) 3,958 TFLOPS），BF16 矢量性能明顯較低（28.7 對(duì) 1,979 TFLOPS）。
比原始規(guī)格更重要的是 Gaudi 3 的實(shí)際性能。它需要與 AMD 的 Instinct MI300 系列以及 Nvidia 的 H100 和 B100/B200 處理器競(jìng)爭(zhēng)。而這還有待觀察，因?yàn)楹艽蟪潭壬先Q于軟件和其他因素。目前，英特爾展示了一些幻燈片，聲稱與 Nvidia 的 H3 相比，Gaudi 100 可以提供顯著的性價(jià)比優(yōu)勢(shì)。
今年早些時(shí)候，英特爾表示，基于基板上八個(gè) Gaudi 3 處理器的加速器套件將花費(fèi) 125,000 美元，這意味著每個(gè)處理器的成本約為 15,625 美元。相比之下，Nvidia H100 卡目前的售價(jià)為 30,678 美元，因此英特爾確實(shí)計(jì)劃比其競(jìng)爭(zhēng)對(duì)手擁有很大的價(jià)格優(yōu)勢(shì)。然而，由于基于 Blackwell 的 B100/B200 GPU 可能提供的巨大性能優(yōu)勢(shì)，這家藍(lán)色公司是否能夠保持其相對(duì)于競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)還有待觀察。
“對(duì) AI 的需求正在導(dǎo)致數(shù)據(jù)中心的大規(guī)模變革，該行業(yè)正在尋求硬件、軟件和開(kāi)發(fā)人員工具的選擇，”英特爾執(zhí)行副總裁兼數(shù)據(jù)中心和人工智能事業(yè)部總經(jīng)理 Justin Hotard 說(shuō)。隨著我們推出具有 P-core（性能核）和 Gaudi 3 AI 加速器的 Xeon 6，Intel 正在實(shí)現(xiàn)一個(gè)開(kāi)放的生態(tài)系統(tǒng)，使我們的客戶能夠以更高的性能、效率和安全性實(shí)施其所有工作負(fù)載。
英特爾的 Gaudi 3 AI 加速器將從 IBM Cloud 和 Intel Tiber Developer Cloud 獲得。此外，基于英特爾至強(qiáng) 6 和高迪 3 的系統(tǒng)將于第四季度從戴爾、慧與和 Supermicro 全面上市，戴爾和 Supermicro 的系統(tǒng)將于 10 月發(fā)貨，Supermicro 的機(jī)器將于 12 月發(fā)貨。

新聞中心

英特爾AI Gaudi 3 加速器：比 Nvidia H100慢但更便宜

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)