博客專欄

EEPW首頁(yè) > 博客 > MLPerf測(cè)試結(jié)果公布:英偉達(dá)B200推理性能達(dá)MI300X的4倍

MLPerf測(cè)試結(jié)果公布:英偉達(dá)B200推理性能達(dá)MI300X的4倍

發(fā)布人:芯智訊 時(shí)間:2024-10-23 來(lái)源:工程師 發(fā)布文章

image.png

8月29日消息,英偉達(dá)發(fā)布了其 Blackwell B200芯片首個(gè)MLPerf Inference 4.1測(cè)試(在Llama 2 70B大模型上)結(jié)果,顯示B200的性能是達(dá)到了上一代的Hopper H100的4倍,即性能提升了300%。與此同時(shí),AMD也公布了8個(gè)MI300X GPU在相同測(cè)試中的成績(jī),達(dá)到了與英偉達(dá)DGX H100(集成了8個(gè)H100)相當(dāng)?shù)某煽?jī)。這也凸顯了英偉達(dá)在AI芯片市場(chǎng)領(lǐng)導(dǎo)地位。

具體來(lái)說(shuō),單個(gè)英偉達(dá)Blackwell B200 GPU 在AI推理測(cè)試中,可以每秒生成 10,755 個(gè)Token,在離線參考測(cè)試中可以每秒生成11,264 個(gè)Token。作為對(duì)比,雖然基于4個(gè)Hopper H100 GPU的服務(wù)器提供了接近的結(jié)果,但是單個(gè)H00 GPU每秒生成的Token數(shù)僅有B200 GPU的約1/4。這也證明了英偉達(dá)的說(shuō)法,即單個(gè)Blackwell B200 GPU的速度達(dá)到了單個(gè)Hopper H100 GPU 的約3.7至4倍。但我們需要剖析這些數(shù)字以更好地理解它們。

image.png

首先,英偉達(dá)的Blackwell B200 處理器使用的是 FP4 精度,因?yàn)槠涞谖宕?Tensor Core 支持該格式,而基于 Hopper 的 H100 則僅支持和使用 FP8。MLPerf 指南允許這些不同的格式,但 Blackwell B200中的 FP4 性能使其相比 FP8 吞吐量翻了一番,因此這是第一個(gè)需要注意的重要事項(xiàng)。

接下來(lái),英偉達(dá)在使用單個(gè) B200 與四個(gè) H100 GPU對(duì)比 方面有些不公平。因?yàn)閿U(kuò)展從來(lái)都不是完美的,因此單個(gè) GPU 往往是每個(gè) GPU 性能的最佳情況。MLPerf 4.1 沒(méi)有列出單個(gè) GPU H100 結(jié)果,只有一個(gè) B200 結(jié)果,因此它們之間的對(duì)比并不公平。然而,單個(gè) H200 的性能達(dá)到了每秒4,488 個(gè)Token,這意味著 B200 在該特定測(cè)試中,速度達(dá)到了H100的 2.5 倍,即快了150%。

另外,雙方之間HBM容量和帶寬的差異也是關(guān)鍵因素,并且存在很大的代際差異。經(jīng)過(guò)測(cè)試的 B200 GPU 配備 180GB HBM3E 內(nèi)存,H100 SXM 配備 80GB HBM(某些配置高達(dá) 96GB),H200 配備 96GB HBM3 和高達(dá) 144GB 的 HBM3E。具有 96GB HBM3 的單個(gè) H200 在離線模式下僅達(dá)到了 3,114 個(gè)Token/秒。

因此,數(shù)字格式、GPU 數(shù)量、內(nèi)存容量和配置存在潛在差異,這些差異會(huì)影響“高達(dá) 4 倍”的數(shù)字。其中許多差異僅僅是因?yàn)?Blackwell B200 是一款具有更新架構(gòu)的新芯片,而所有這些都影響了其最終性能。

回到配備 141GB HBM3E 內(nèi)存的英偉達(dá)H200,它不僅在以 Llama 2 70B 大型語(yǔ)言模型為特色的生成式 AI 基準(zhǔn)測(cè)試中也表現(xiàn)出色,而且在數(shù)據(jù)中心類別的每一項(xiàng)測(cè)試中都表現(xiàn)出色。出于顯而易見(jiàn)的原因,在利用 GPU 內(nèi)存容量的測(cè)試中,它的速度明顯快于 H100。

再來(lái)看,AMD公布的MLPerf Inference 4.1測(cè)試(在Llama 2 70B大模型上)中其MI300X的成績(jī)。搭配AMD Genoa CPU及8個(gè)MI300X的服務(wù)器在該AI推理測(cè)試中,性能達(dá)到了每秒21028個(gè)Token,而在離線參考測(cè)試中,性能達(dá)到了每秒223514個(gè)Token;其搭配AMD Turin CPU及8個(gè)MI300X的服務(wù)器在AI推理測(cè)試中,性能達(dá)到了每秒22021個(gè)Token,在離線參考測(cè)試中,性能達(dá)到了24110個(gè)Token。

image.png

image.png

可以看到,這些測(cè)試當(dāng)中,8卡的MI300X系統(tǒng)達(dá)到了接近英偉達(dá)DGX H100系統(tǒng)的成績(jī),差異大概在2-3%以內(nèi)。如果看單個(gè)MI300X GPU的性能,在服務(wù)器中每秒生成2520個(gè)Token,離線測(cè)試中每秒可生成3062個(gè)Token,達(dá)到了與英偉達(dá)H100 GPU相當(dāng)?shù)乃健?/p>

綜合比較單個(gè)AMD MI300X與英偉達(dá)H200和B200的MLPerf Inference 4.1測(cè)試(在Llama 2 70B大模型上)測(cè)試成績(jī)來(lái)看,英偉達(dá)B200的成績(jī)也是遙遙領(lǐng)先于MI300X和H200,其性能平均達(dá)到了MI300X的4倍左右,也達(dá)到了H200的約2.5倍左右。這也進(jìn)一步凸顯了英偉達(dá)B200性能的領(lǐng)先性。

image.png

同樣需要指出的是,AMD MI300X配備了更大的192GB HBM,而B(niǎo)200則是180GB HBM,當(dāng)然,MI300X的TDP功耗要更低,為750W。而英偉達(dá)H200和B200的TDP功耗則高達(dá)1000W。

編輯:芯智訊-浪客劍



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 芯片

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉