英偉達(dá)最強(qiáng)AI芯片曝重大設(shè)計(jì)缺陷，中國(guó)特供版意外曝光！

發(fā)布人：旺材芯片時(shí)間：2024-08-05 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

【導(dǎo)讀】因設(shè)計(jì)缺陷，英偉達(dá)最強(qiáng)AI芯片Blackwell，真的要延期發(fā)貨了。金主爸爸們哀聲一片，所有預(yù)定計(jì)劃預(yù)計(jì)要拖延至少三個(gè)月。
英偉達(dá)GPU，一直是OpenAI等大模型公司研發(fā)AI的命脈。
而現(xiàn)在，由于Blackwell GPU的設(shè)計(jì)缺陷，英偉達(dá)發(fā)貨時(shí)間不得不推遲3個(gè)月，甚至更長(zhǎng)的時(shí)間。
Information獨(dú)家報(bào)道稱，最近幾周，臺(tái)積電工程師在為Blackwell芯片量產(chǎn)做準(zhǔn)備時(shí)，才發(fā)現(xiàn)了缺陷。

就在上周，老黃曾在SIGGRAPH上表示，英偉達(dá)已經(jīng)向世界各地客戶遞交Blackwell工程樣本。

他滿臉輕松的樣子，根本沒(méi)有暗示任何意想不到的延誤。

，時(shí)長(zhǎng)00:16

那么，芯片設(shè)計(jì)究竟哪里出現(xiàn)了缺陷？

GB200包含了2個(gè)Blackwell GPU和1個(gè)Grace CPU。問(wèn)題所在，就是連接2個(gè)Blackwell GPU的關(guān)鍵電路上。
正是這一問(wèn)題，才導(dǎo)致臺(tái)積電生產(chǎn)GB200良率下降。

最新芯片推遲發(fā)貨，意味著對(duì)于Meta、谷歌、微軟等科技大廠來(lái)說(shuō)，AI訓(xùn)練進(jìn)程將會(huì)受到影響。
而且，他們數(shù)據(jù)中心建設(shè)也將不可避免地延期。
據(jù)稱，Blackwell芯片大量出貨，預(yù)計(jì)要到明年第一季度。
在SemiAnalysis最新報(bào)告中，同樣詳細(xì)闡述了英偉達(dá)面臨的技術(shù)挑戰(zhàn)，推遲發(fā)貨后的時(shí)間表，以及新系統(tǒng)MGX GB200A Ultra NVL36。

Blackwell推遲三月，哀聲一片

還記得GTC 2024大會(huì)上，老黃手捧最強(qiáng)Blackwell架構(gòu)GPU，向世界宣告了最強(qiáng)的性能野獸。
5月，他曾公開(kāi)表示，「計(jì)劃在今年晚些時(shí)候，將大量出貨Blackwell架構(gòu)的芯片」。
甚至，他還在財(cái)報(bào)會(huì)議上信心滿滿地表示，「今年我們會(huì)看到大量的Blackwell收入」。
英偉達(dá)股東們更是對(duì)Blackwell GPU寄予厚望。

來(lái)自Keybanc Capital Markets的分析師估算，Blackwell芯片將為英偉達(dá)數(shù)據(jù)中心帶來(lái)，將從2024年的475億美元，提升到2025年超2000億美元的收入。
也就是說(shuō)，Blackwell系列GPU，對(duì)于英偉達(dá)未來(lái)的銷量和收入起著決定性作用。
卻沒(méi)想到，設(shè)計(jì)缺陷直接影響了英偉達(dá)在今年下半年，以及明年上半年的生產(chǎn)目標(biāo)。
參與Blackwell芯片設(shè)計(jì)內(nèi)部人士透露，英偉達(dá)正與臺(tái)積電進(jìn)行測(cè)試芯片生產(chǎn)運(yùn)行，來(lái)盡快解決難題。
不過(guò)目前，英偉達(dá)的彌補(bǔ)措施是，繼續(xù)延長(zhǎng)Hopper系列芯片發(fā)貨量，盡可能按計(jì)劃在今年下半年加速生產(chǎn)Blackwell GPU。

豪擲數(shù)百億美金，AI訓(xùn)練延期

不僅如此，這個(gè)鏈?zhǔn)叫?yīng)，將對(duì)大模型開(kāi)發(fā)商、數(shù)據(jù)中心云服務(wù)提供商，造成了致命的打擊。
為了訓(xùn)AI，Meta、微軟、谷歌等金主爸爸們，不惜重金斥資數(shù)百億美元，訂購(gòu)了大量Blackwell芯片。
谷歌已經(jīng)訂購(gòu)了超40萬(wàn)個(gè)GB200，外加服務(wù)器硬件，谷歌訂單成本遠(yuǎn)超100億美元。
今年，這家巨頭已經(jīng)在芯片和其他設(shè)備財(cái)產(chǎn)上，支出預(yù)計(jì)約為500億美元，比去年增長(zhǎng)了超過(guò)50%。
另外，Meta也下了至少100億美元的訂單，而微軟訂單規(guī)模近幾周增加了20%。
不過(guò)，這兩家公司的具體訂單規(guī)模，尚未得知。
知情人士透露，微軟計(jì)劃到2025年第一季度，要為OpenAI準(zhǔn)備5.5萬(wàn)-6.5萬(wàn)個(gè)GB200芯片。
而且，微軟管理層原計(jì)劃在25年1月，向OpenAI提供Blackwell驅(qū)動(dòng)的服務(wù)器。

現(xiàn)在看來(lái)，原計(jì)劃需要推遲到3月，或者來(lái)年春天。
按原本預(yù)定的時(shí)間，他們將在2025年第一季度開(kāi)始運(yùn)行新超算集群。
包括OpenAI在內(nèi)AI公司，都在等著使用新芯片開(kāi)發(fā)開(kāi)發(fā)下一代LLM。
因?yàn)榇竽Ｐ偷挠?xùn)練還需要多倍的算力，從而能夠更好回答復(fù)雜問(wèn)題、自動(dòng)化多步任務(wù)，生成更逼真的視頻。
可以說(shuō)，下一代超強(qiáng)AI，就指望著英偉達(dá)最新的AI芯片了。

史上罕見(jiàn)的延遲

不過(guò)，這次大規(guī)模芯片訂單延遲，不僅在所有人意料之外，更是罕見(jiàn)的。
臺(tái)積電最初計(jì)劃在第三季度，開(kāi)始量產(chǎn)Blackwell芯片，并從第四季度開(kāi)始大規(guī)模向英偉達(dá)客戶發(fā)貨。
內(nèi)部人士透露，Blackwell芯片現(xiàn)在預(yù)計(jì)將在第四季度進(jìn)入量產(chǎn)階段，如果沒(méi)有進(jìn)一步的問(wèn)題，服務(wù)器將在隨后的季度內(nèi)大規(guī)模出貨。

其實(shí)，早在2020年，英偉達(dá)旗艦GPU早期版本，也因?yàn)橐恍﹩?wèn)題不得不延遲。
但當(dāng)時(shí)英偉達(dá)所面臨的風(fēng)險(xiǎn)較低，客戶們并不急于訂單到貨，而且從數(shù)據(jù)中心中實(shí)現(xiàn)盈利也相對(duì)較少。
而這次，在量產(chǎn)前發(fā)現(xiàn)重大設(shè)計(jì)缺陷，確實(shí)非常罕見(jiàn)。
芯片設(shè)計(jì)師通常會(huì)與臺(tái)積電晶圓廠合作，進(jìn)行多次生產(chǎn)測(cè)試和模擬，以確保產(chǎn)品的可行性和順利的制造過(guò)程，然后才會(huì)接受客戶的大量訂單。
對(duì)于臺(tái)積電來(lái)說(shuō)，停止生產(chǎn)線，并重新設(shè)計(jì)一個(gè)即將量產(chǎn)的產(chǎn)品，也并不多見(jiàn)。他們專為GB200量產(chǎn)做了充分準(zhǔn)備，包括分配專門的機(jī)器產(chǎn)能。
而現(xiàn)在，在問(wèn)題解決之前，這些機(jī)器人不得不暫時(shí)閑置。
設(shè)計(jì)缺陷還將影響英偉達(dá)NVLink服務(wù)器機(jī)架的生產(chǎn)和交付，因?yàn)樨?fù)責(zé)服務(wù)器的公司必須等待新的芯片樣品，才能最終確定服務(wù)器機(jī)架設(shè)計(jì)。

被迫推出重制版

技術(shù)挑戰(zhàn)也讓英偉達(dá)不得不緊急開(kāi)發(fā)一套全新的系統(tǒng)及組件架構(gòu)，比如MGX GB200A Ultra NVL36。
而這種全新的設(shè)計(jì)，也將對(duì)數(shù)十家上下游供應(yīng)商產(chǎn)生了重大影響。

作為Blackwell系列中技術(shù)最先進(jìn)的芯片，英偉達(dá)在系統(tǒng)層面上對(duì)GB200做出了大膽的技術(shù)選擇。
這個(gè)72 GPU機(jī)架的功率密度達(dá)到了前所未有的每機(jī)架125kW。相比之下，數(shù)據(jù)中心大多數(shù)架只有12kW到20kW。
如此復(fù)雜的系統(tǒng)，也導(dǎo)致了許多與電力傳輸問(wèn)題、過(guò)熱、水冷供應(yīng)鏈增長(zhǎng)、快速斷開(kāi)的水冷系統(tǒng)泄漏以及各種電路板復(fù)雜性問(wèn)題相關(guān)的問(wèn)題，并讓一些供應(yīng)商和設(shè)計(jì)師措手不及。
不過(guò)，這并不是導(dǎo)致英偉達(dá)減少產(chǎn)量或重大路線圖調(diào)整的原因。
真正影響出貨的核心問(wèn)題是——英偉達(dá)Blackwell架構(gòu)的設(shè)計(jì)本身。

Blackwell封裝是第一個(gè)使用臺(tái)積電的CoWoS-L技術(shù)進(jìn)行大規(guī)模量產(chǎn)設(shè)計(jì)的封裝。
CoWoS-L需要使用帶有局部硅互連（LSI）和嵌入橋接芯片的RDL中介層，來(lái)橋接封裝內(nèi)各種計(jì)算和存儲(chǔ)之間的通信。

相比起目前采用的CoWoS-S技術(shù)，CoWoS-L要復(fù)雜得多，但它是未來(lái)。
英偉達(dá)和臺(tái)積電制定了一個(gè)非常激進(jìn)的增長(zhǎng)計(jì)劃，每季度超過(guò)一百萬(wàn)顆芯片的目標(biāo)。
但各種各樣的問(wèn)題，也因此出現(xiàn)了。
其中一個(gè)問(wèn)題是將多個(gè)細(xì)間距凸點(diǎn)橋嵌入有機(jī)中介層和硅中介層中，可能會(huì)導(dǎo)致硅芯片、橋、有機(jī)中介層和基板之間的熱膨脹系數(shù)（CTE）不匹配，導(dǎo)致翹曲。

橋接芯片的布局需要非常高的精度，特別是涉及到2個(gè)主要計(jì)算芯片之間的橋接時(shí)，因?yàn)檫@些橋接對(duì)于支持10 TB/s的芯片間互連至關(guān)重要。
據(jù)傳，一個(gè)主要的設(shè)計(jì)問(wèn)題與橋接芯片有關(guān)。同時(shí)，頂部幾層全局布線金屬層和芯片的凸點(diǎn)也需要重新設(shè)計(jì)。這是導(dǎo)致多個(gè)月延遲的主要原因之一。
另一個(gè)問(wèn)題是，臺(tái)積電沒(méi)有足夠的CoWoS-L產(chǎn)能。
過(guò)去幾年中，臺(tái)積電建立了大量的CoWoS-S產(chǎn)能，其中英偉達(dá)占了大部分份額。
現(xiàn)在，隨著英偉達(dá)迅速將需求轉(zhuǎn)向CoWoS-L，臺(tái)積電正在為CoWoS-L建造一個(gè)新的工廠AP6，并在AP3改造現(xiàn)有的CoWoS-S產(chǎn)能。
為此，臺(tái)積電需要改造舊的CoWoS-S產(chǎn)能，否則這些產(chǎn)能將被閑置，而CoWoS-L的增長(zhǎng)速度將會(huì)更慢。而這個(gè)改造過(guò)程將使得增長(zhǎng)變得非常不均勻。
結(jié)合這兩個(gè)問(wèn)題，臺(tái)積電顯然是無(wú)法按照英偉達(dá)的需求供應(yīng)足夠的Blackwell芯片。
因此，英偉達(dá)幾乎將所有產(chǎn)能都集中在GB200 NVL 36x2和NVL72機(jī)架規(guī)模系統(tǒng)上。并取消了搭載B100和B200的HGX計(jì)算模組。

作為替代，英偉達(dá)將推出一款基于B102芯片并配有4層HBM顯存的Blackwell GPU——B200A，用以滿足中低端AI系統(tǒng)的需求。
有趣的是，這款B102芯片也將用于中國(guó)「特供版」的B20上。
由于B102是一個(gè)單片計(jì)算芯片，因此英偉達(dá)不僅可以將其封裝在CoWoS-S上，而且還能讓除臺(tái)積電以外的其他供應(yīng)商進(jìn)行2.5D封裝，如Amkor、ASE SPIL和三星。
B200A將以700W和1000W的HGX形態(tài)出現(xiàn)，配備高達(dá)144GB的HBM3E顯存和高達(dá)4 TB/s的帶寬。值得注意的是，這比H200的顯存帶寬要少。
接下來(lái)是中級(jí)增強(qiáng)版——Blackwell Ultra。
標(biāo)準(zhǔn)的CoWoS-L Blackwell Ultra，即B210或B200 Ultra，不僅在顯存刷新方面達(dá)到高達(dá)288GB的12層HBM3E，還在FLOPS性能方面提升了高達(dá)50%。
B200A Ultra則會(huì)有更高的FLOPS，但在顯存上不會(huì)進(jìn)行升級(jí)。
除了有和原版B200A一樣的HGX配置外，B200A Ultra還引入了一個(gè)全新的MGX NVL 36形態(tài)。

在訓(xùn)練少于5000個(gè)GPU的工作負(fù)載時(shí)，HGX Blackwell的性能/TCO非常出色。
盡管如此，由于基礎(chǔ)設(shè)施更加靈活，MGX NVL36仍是許多下一代模型的理想選擇。
由于Llama 3 405B已經(jīng)接近H200 HGX服務(wù)器的極限，下一代MoE LLAMA 4肯定無(wú)法適應(yīng)單個(gè)Blackwell HGX服務(wù)器節(jié)點(diǎn)。
再結(jié)合上對(duì)于MGX B200A Ultra NVL36價(jià)格的估計(jì)，SemiAnalysis認(rèn)為HGX B200A賣得不會(huì)太好。

MGX GB200A Ultra NVL36架構(gòu)

MGX GB200A NVL36 SKU是一款風(fēng)冷40kW/機(jī)架服務(wù)器，配備36個(gè)通過(guò)NVLink完全互連的GPU。
其中，每個(gè)機(jī)架將配備9個(gè)計(jì)算托盤和9個(gè)NVSwitch托盤。每個(gè)計(jì)算托盤為2U，包含1個(gè)Grace CPU和4個(gè)700W的B200A Blackwell GPU。每個(gè)1U NVSwitch托盤則只有1個(gè)交換機(jī)ASIC，每個(gè)交換機(jī)ASIC的帶寬為28.8 Tbit/s。
相比之下，GB200 NVL72 / 36x2包含2個(gè)Grace CPU和4個(gè)1200W的Blackwell GPU。

由于每個(gè)機(jī)架僅為40kW并可采用空氣冷卻，因此現(xiàn)有的數(shù)據(jù)中心運(yùn)營(yíng)商可以在不重新調(diào)整基礎(chǔ)設(shè)施的情況下輕松部署MGX NVL36。
與GB200 NVL72 / 36x2不同的是，4個(gè)GPU對(duì)1個(gè)CPU的比例，意味著每個(gè)GPU只能獲得一半的C2C帶寬。
因此，MGX NVL36無(wú)法使用C2C互連，而是需要采用集成的ConnectX-8 PCIe交換機(jī)來(lái)完成GPU與CPU的通信。
此外，與所有其他現(xiàn)有的AI服務(wù)器（HGX H100/B100/B200, GB200 NVL72 / 36x2, MI300）不同，每個(gè)后端NIC現(xiàn)在將負(fù)責(zé)2個(gè)GPU。
這意味著盡管ConnectX-8 NIC設(shè)計(jì)可以提供800G的后端網(wǎng)絡(luò)，但每個(gè)GPU只能訪問(wèn)400G的后端InfiniBand/RoCE帶寬。（同樣也是在GB200 NVL72 / 36x2的一半）

GB200 NVL72/NVL36x2計(jì)算托盤的核心是Bianca板，其包含2個(gè)Blackwell B200 GPU和1個(gè)Grace CPU。
由于每個(gè)計(jì)算托盤配有2個(gè)Bianca板，因此總共會(huì)搭載2個(gè)Grace CPU和4個(gè)1200W的Blackwell GPU。

相比之下，MGX GB200A NVL36的CPU和GPU將會(huì)位于不同的PCB上，類似于HGX服務(wù)器的設(shè)計(jì)。
但與HGX服務(wù)器不同的是，每個(gè)計(jì)算托盤的4個(gè)GPU將被細(xì)分為2個(gè)2-GPU板。每個(gè)2-GPU板則搭載了類似Bianca板的Mirror Mezz連接器。
然后，這些Mirror Mezz連接器將用于連接到ConnectX-8中間板，并將ConnectX-8 ASIC與其集成的PCIe交換機(jī)連接到GPU、本地NVMe存儲(chǔ)和Grace CPU。
由于ConnectX-8 ASIC距離GPU非常近，因此GPU和ConnectX-8 NIC之間并不需要重新定時(shí)器。而HGX H100/B100/B200需要。
此外，由于Grace CPU和Blackwell GPU之間沒(méi)有C2C互連，因此Grace CPU會(huì)位于一個(gè)完全獨(dú)立的PCB上，即CPU主板。該主板將包含BMC連接器、CMOS電池、MCIO連接器等。

每個(gè)GPU的NVLink帶寬將為每個(gè)方向900GB/s，這與GB200 NVL72 / 36x2相同。按每FLOP計(jì)算，這顯著增加了GPU到GPU的帶寬，使MGX NVL36在某些工作負(fù)載中更具優(yōu)勢(shì)。
由于只有一層交換機(jī)連接36個(gè)GPU，因此僅需9個(gè)NVSwitch ASIC即可提供無(wú)阻塞網(wǎng)絡(luò)。
此外，由于每個(gè)1U交換托盤只有1個(gè)28.8Tbit/s的ASIC，因此非常容易進(jìn)行空氣冷卻。比如Quantum-2 QM9700這樣的25.6Tbit/s 1U交換機(jī)就可以。

在后端網(wǎng)絡(luò)上，由于每個(gè)計(jì)算托盤只有2個(gè)800G端口，因此它將使用2軌優(yōu)化的行尾網(wǎng)絡(luò)。
對(duì)于每8個(gè)GB200A NVL36機(jī)架，將有2個(gè)Quantum-X800 QM3400交換機(jī)。

在每個(gè)GPU 700W的情況下，GB200A NVL36每個(gè)機(jī)架的功耗可能在40kW左右，即2U空間散熱4kW。
如此一來(lái)，將需要專門設(shè)計(jì)的散熱片和高速風(fēng)扇來(lái)進(jìn)行空氣冷卻。

部署MGX GB200A NVL 36的挑戰(zhàn)

由于GB200A NVL36完全依靠風(fēng)冷，而且在2U機(jī)箱前端除了PCIe形態(tài)的NIC外，還要有一個(gè)專用的PCIe交換機(jī)，這將顯著增加熱管理的挑戰(zhàn)。
因此，在GB200A NVL36上進(jìn)行定制后端NIC基本上是不可能的。
由于許多機(jī)器學(xué)習(xí)依賴項(xiàng)是為x86 CPU編譯和優(yōu)化的，且Grace CPU和Blackwell GPU位于單獨(dú)的PCB上，因此很可能還會(huì)有一個(gè)x86 + B200A NVL36版本。
不過(guò)，x86 CPU雖然可以提供更高的峰值性能，但功耗也會(huì)相應(yīng)高出100W，從而極大增加了OEM的熱管理挑戰(zhàn)。
此外，考慮到Grace CPU的銷量問(wèn)題，即便英偉達(dá)推出了x86 B200A NVL36解決方案，他們也會(huì)push客戶去選擇GB200A NVL36。
當(dāng)然，GB200A NVL36也有自己的賣點(diǎn)——每機(jī)架40kW的風(fēng)冷系統(tǒng)。
畢竟，很多客戶并不能負(fù)擔(dān)得起每機(jī)架約125 kW的GB200 NVL72（或總功耗超過(guò)130kW的36x2）所需的液冷和電力基礎(chǔ)設(shè)施。
H100的TDP為700W，目前使用的是4U高的3DVC，而1000W的H200使用的是6U高的3DVC。
相比之下，MGX B200A NVL36的TDP也是700W但機(jī)箱只有2U，空間相當(dāng)受限。因此將需要一個(gè)水平擴(kuò)展的陽(yáng)臺(tái)狀散熱片來(lái)增加散熱片的表面積。

除了需要更大的散熱片外，風(fēng)扇還需要提供比GB200 NVL72 / 36x2 2U計(jì)算托盤或HGX 8 GPU設(shè)計(jì)更強(qiáng)的氣流。
根據(jù)估計(jì)，在40kW機(jī)架中，15%到17%的總系統(tǒng)功率將用于內(nèi)部機(jī)箱風(fēng)扇。相比之下，HGX H100的風(fēng)扇也只消耗總系統(tǒng)功率的6%到8%。
由于需要大量的風(fēng)扇功率來(lái)使 MGX GB200A NVL36 正常工作，這是一種效率極低的設(shè)計(jì)。

為什么取消GB200A NVL64

在英偉達(dá)最終確定MGX GB200A NVL36之前，他們也在嘗試設(shè)計(jì)一個(gè)空氣冷卻的NVL64機(jī)架——功耗60kW，搭載64個(gè)通過(guò)NVLink完全互連的GPU。
然而，在經(jīng)過(guò)廣泛的工程分析之后，SemiAnalysis認(rèn)為這個(gè)產(chǎn)品并不可行，且不會(huì)上市。
在提議的NVL64 SKU中，有16個(gè)計(jì)算托盤和4個(gè)NVSwitch托盤。每個(gè)計(jì)算托盤是2U，包含1個(gè)Grace CPU和4個(gè)700W的Blackwell GPU，就像MGX GB200A NVL36一樣。
主要的修改在于NVSwitch托盤——英偉達(dá)沒(méi)有將GB200每個(gè)托盤的2個(gè)NVSwitch減少到1個(gè)，而是嘗試將其增加到4個(gè)ASIC交換機(jī)。

顯然，僅靠空氣冷卻功耗如此之高的龐然大物幾乎是不可能的。（英偉達(dá)提出的是60kW，SemiAnalysis估算是70kW）
這通常需要使用后門熱交換器，但這破壞了空氣冷卻機(jī)架架構(gòu)的意義，因?yàn)槿匀灰蕾囉谝豪涔?yīng)鏈。此外，這種解決方案仍然需要大多數(shù)數(shù)據(jù)中心進(jìn)行設(shè)施級(jí)別的改造，以便將冷卻水輸送到后門熱交換器。
另一個(gè)非常棘手的熱問(wèn)題是NVSwitch托盤將在1個(gè)1U機(jī)箱中包含4個(gè)28.8Tbit/s的ASIC交換機(jī)，需要近1500W的散熱功率。
單獨(dú)來(lái)看，1U機(jī)箱實(shí)現(xiàn)1500W并不困難。但是，當(dāng)考慮到從ASIC交換機(jī)到背板連接器的Ultrapass飛線會(huì)阻擋大量氣流，冷卻挑戰(zhàn)就變得非常大了。
鑒于空氣冷卻的MGX NVL機(jī)架需要以極快的速度推向市場(chǎng)，英偉達(dá)試圖在設(shè)計(jì)開(kāi)始后6個(gè)月內(nèi)就交付產(chǎn)品。然而，對(duì)于一個(gè)已經(jīng)資源緊張的行業(yè)來(lái)說(shuō)，設(shè)計(jì)新的交換托盤和供應(yīng)鏈?zhǔn)欠浅＠щy的。

GB200A NVL64的另一個(gè)主要問(wèn)題是每個(gè)機(jī)架有64個(gè)800G后端端口，但每個(gè)XDR Quantum-X800 Q3400交換機(jī)搭載的是72個(gè)800G下游端口。也就是說(shuō)，每個(gè)交換機(jī)將有16個(gè)800G端口空置。
在昂貴的后端交換機(jī)上有空置端口會(huì)顯著影響網(wǎng)絡(luò)性能和總擁有成本，因?yàn)榻粨Q機(jī)非常昂貴，尤其是像Quantum-X800這樣高端口密度的模塊化交換機(jī)。

此外，在同一個(gè)NVLink域中使用64個(gè)GPU并不理想。
表面上看，64是一個(gè)很好的數(shù)字，因?yàn)樗?、4、8、16和32作為公因數(shù)，這對(duì)于不同的并行配置來(lái)說(shuō)非常合適。
例如，張量并行TP=8，專家并行EP=8，或TP=4，完全分片數(shù)據(jù)并行FSDP=16。
不幸的是，由于硬件的不可靠性，英偉達(dá)建議每個(gè)NVL機(jī)架至少保留1個(gè)計(jì)算托盤作為備用，以便在維護(hù)時(shí)將GPU下線并作為熱備份使用。
如果每個(gè)機(jī)架沒(méi)有至少1個(gè)計(jì)算托盤處于熱備用狀態(tài)，即使是1個(gè)GPU故障也會(huì)導(dǎo)致整個(gè)機(jī)架被迫停用相當(dāng)長(zhǎng)的時(shí)間。這類似于在8-GPU的HGX H100服務(wù)器上，只要有1個(gè)GPU故障，就會(huì)迫使所有8個(gè)H100停用。
如果保留至少一個(gè)計(jì)算托盤作為熱備份，意味著每個(gè)機(jī)架只有60個(gè)GPU能夠處理工作負(fù)載。這樣一來(lái)，剛剛提到的那些優(yōu)勢(shì)就不復(fù)存在了。

而NVL36×2或NVL72則搭載了72個(gè)GPU，也就是說(shuō)，用戶不僅可以把2個(gè)計(jì)算托盤作為熱備用，而且每個(gè)機(jī)架上仍有64個(gè)GPU可供使用。
GB200A NVL36則可以有1個(gè)計(jì)算托盤作為熱備用，此時(shí)有2、4、8、16作為并行方案的公因數(shù)。

對(duì)供應(yīng)鏈的影響

根據(jù)SemiAnalysis的推測(cè)，GB200 NVL72 / 36x2的出貨量會(huì)減少或推遲，B100和B200 HGX的出貨量則會(huì)大幅減少。
同時(shí)，Hopper的出貨量將在2024年第四季度至2025年第一季度有所增加。
此外，GPU的訂單將在下半年從HGX Blackwell和GB200 NVL36x2轉(zhuǎn)移到MGX GB200A NVL36上。
這將影響所有的ODM和組件供應(yīng)商，因?yàn)槌鲐浐褪杖胗?jì)劃將在2024年第三季度至2025年第二季度發(fā)生顯著變化。

來(lái)源：新智元

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

英偉達(dá)最強(qiáng)AI芯片曝重大設(shè)計(jì)缺陷，中國(guó)特供版意外曝光！

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

英偉達(dá)最強(qiáng)AI芯片曝重大設(shè)計(jì)缺陷，中國(guó)特供版意外曝光！

相關(guān)推薦

技術(shù)專區(qū)

英偉達(dá)最強(qiáng)AI芯片曝重大設(shè)計(jì)缺陷，中國(guó)特供版意外曝光！