Nvidia 推出了一個新的 CPU 和 GPU AI 處理器——GB200 Grace Blackwell NVL4
Nvidia 的 GB200 NVL4 解決方案通過在單個主板上實現(xiàn)四個 B200 GPU 和兩個 Grace CPU,將事情提升到一個新的水平。
Nvidia 發(fā)布了兩款產(chǎn)品:GB200 NVL4,這是一款具有兩個 Grace CPU 的怪物四通道 B200 GPU 模塊(超級芯片有四個 B200 GPU和兩個 Grace CPU)以及針對風(fēng)冷數(shù)據(jù)中心的 H200 NVL PCIe GPU。
GB200 Grace Blackwell NVL4 超級芯片是標準(非 NVL4)雙 GPU 變體的更有效的變體,具有多達四個與 NVLink 相連的 B200 Blackwell GPU 和兩個基于 Grace ARM 的 CPU,全部位于一個主板上。該解決方案針對 HPC 和 AI 混合工作負載,具有高達 1.3TB 的一致性內(nèi)存。Nvidia 宣傳 GB200 NVL4 的模擬性能是 Nvidia GH200 NVL4 的 2.2 倍,訓(xùn)練是 1.8 倍,推理性能是 Nvidia GH200 NVL4 的 1.8 倍,是其直接前身。
英偉達表示,GB200 NVL4 超級芯片將于 2024 年下半年從各種供應(yīng)商處提供,例如微星、華碩、技嘉、緯創(chuàng)資通、和碩、華擎機架、聯(lián)想、惠普企業(yè)等。
Nvidia 的 H200 NVL 是一款雙插槽風(fēng)冷 GPU,具有 PCIe 5.0 連接 (128 GB/s)。該冷卻器針對機架安裝解決方案進行了優(yōu)化,采用流通式設(shè)計,其中進氣從右向左流動;沒有鼓風(fēng)機式風(fēng)扇。
性能比較 Nvidia 即將推出的 SXM 外形尺寸的 H200 略差。H200 NVL 的額定 FP64 為 30 TFLOPS,F(xiàn)P32 的額定值為 60 TFLOPS。Tensor 核心性能的額定值為 FP64 的 60 TFLOPS、TF32 的 835 TFLOPS、BFLOAT16的 1671 TFLOPS、FP16 的 1671 TFLOPS、FP8 的 3341 TFLOPS 和 INT8 的 3341 TFLOP。
然而,Nvidia 表示 H200 NVL 比它所取代的 H100 NVL 快得多。它具有 1.5 倍的內(nèi)存容量和 1.2 倍的內(nèi)存帶寬,為 HPC 工作負載提供高達 1.7 倍的推理性能和 1.3 倍的性能。Nvidia 還與 Ampere 進行了快速比較,指出 H200 NVL 比 Ampere 的同等 GPU 快 2.5 倍。
H200 NVL PCIe GPU 針對絕大多數(shù)數(shù)據(jù)中心配置進行了優(yōu)化,包括風(fēng)冷服務(wù)器機架。Nvidia 表示,根據(jù)一項調(diào)查,大約 70% 的企業(yè)機架使用風(fēng)冷和 20kW 或更低的功率。作為 PCIe GPU,數(shù)據(jù)中心提供商可以重復(fù)使用其現(xiàn)有機架,并且只需更換 GPU,從而減少浪費并顯著降低升級硬件的成本。H200 NVL 還配備了 NVLink,每個 GPU 提供高達 900 GB/s 的帶寬,使系統(tǒng)提供商能夠在單個鉆機中連接多達四個 GPU 以提高性能。
評論