光進(jìn)銅退，已成定局？

發(fā)布人：傳感器技術(shù) 時(shí)間：2024-09-15 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

如今，眾所周知的是，用于連接分布式系統(tǒng)的交換機(jī)并不是網(wǎng)絡(luò)中最昂貴的部分，而光收發(fā)器和光纖電纜才是成本的主要部分。由于這一點(diǎn)，以及光學(xué)元件運(yùn)行時(shí)溫度高且經(jīng)常發(fā)生故障，人們除非必要，否則不會(huì)使用光學(xué)元件。

因此，我們有了銅纜，越來(lái)越多地直接從交換機(jī) ASIC 及其連接的設(shè)備驅(qū)動(dòng)，用于短距離傳輸，以及光纜用于長(zhǎng)距離傳輸，這些設(shè)備是為 AI 和 HPC 系統(tǒng)提供 1000、10000 或 100000 臺(tái)設(shè)備所必需的。早在 5 月份，當(dāng)Broadcom 推出其“Thor 2”網(wǎng)絡(luò)接口卡芯片時(shí)，以及在 Nvidia 于 3 月份推出GB200 NVL72 機(jī)架式系統(tǒng)之后，我們就曾打趣過(guò)這個(gè)問(wèn)題，在可以的時(shí)候使用銅纜，在必須的時(shí)候使用光纜。Broadcom 和 Nvidia 都會(huì)告訴你，機(jī)器的經(jīng)濟(jì)性和可靠性取決于這種方法。

GB200 NVL72 系統(tǒng)將這一原則發(fā)揮到了極致。該系統(tǒng)使用 5184 條大銅纜將 72 個(gè)“Blackwell”GPU 捆綁在一起，形成一個(gè)全對(duì)全共享內(nèi)存配置，NVL72 系統(tǒng)核心的九臺(tái) NVLink Switch 4 交換機(jī)中的 200 Gb/秒 SerDes 可以通過(guò)銅線(xiàn)直接驅(qū)動(dòng)每個(gè) Blackwell GPU 上的 1.8 TB/秒 NVLink 5 端口，無(wú)需重定時(shí)器，當(dāng)然也不需要長(zhǎng)途數(shù)據(jù)中心網(wǎng)絡(luò)中使用的光收發(fā)器。

據(jù) Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹，與使用光收發(fā)器和重定時(shí)器相比，這種方法非常有效，可節(jié)省約 20 千瓦的電力，將機(jī)架功耗從原來(lái)的 120 千瓦降至 100 千瓦。（黃仁勛最初給出的規(guī)格說(shuō)明稱(chēng)，NVL72 的功率為 120 千瓦，但現(xiàn)在的規(guī)格表顯示，如果使用全銅互連，機(jī)架級(jí)節(jié)點(diǎn)的功率為 100 千瓦。我們認(rèn)為，他在講話(huà)時(shí)未使用光學(xué)器件，因此節(jié)省了 20 千瓦的功率。）

無(wú)論如何，這張 NVL72 節(jié)點(diǎn)的圖片足以讓您想在商品市場(chǎng)上購(gòu)買(mǎi)銅：

Ayar Labs 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官馬克·韋德 (Mark Wade) 卻不相信這些，該公司發(fā)明了名為 TeraPHY 的光學(xué) I/O 芯片以及用于驅(qū)動(dòng)該芯片的名為 SuperNova 的外部激光光源。

“我認(rèn)為銅纜已經(jīng)不起作用了，”韋德在本周的人工智能硬件峰會(huì)上發(fā)表主題演講之前向The Next Platform解釋道。“目前沒(méi)有一家公司在應(yīng)用層面真正實(shí)現(xiàn)了顯著的經(jīng)濟(jì)產(chǎn)出。問(wèn)題不在于銅纜何時(shí)失效，光學(xué)器件何時(shí)成本持平并變得可靠。銅纜已經(jīng)無(wú)法以經(jīng)濟(jì)的方式支持人工智能工作負(fù)載。是的，投資者資助的淘金熱已經(jīng)持續(xù)了兩年，這確實(shí)推動(dòng)了玩家硬件的所有利潤(rùn)。但銅纜已經(jīng)無(wú)法支持高效、經(jīng)濟(jì)、高性能的人工智能工作負(fù)載系統(tǒng)。該行業(yè)實(shí)際上正在努力擺脫技術(shù)已經(jīng)失敗的困境，硬件制造商需要大幅提高這些系統(tǒng)的成本效益吞吐量。否則，我們都將走向互聯(lián)網(wǎng)式的危機(jī)?！?/p>

顯然，這些話(huà)非常有說(shuō)服力，尤其是考慮到 Nvidia、AMD、臺(tái)灣半導(dǎo)體制造公司、SK 海力士、三星、美光科技等 GPU 加速器供應(yīng)鏈各部分的訂單量和實(shí)力。但請(qǐng)聽(tīng)聽(tīng)韋德的說(shuō)法，因?yàn)樗麑⑻岢鲆粋€(gè)有趣的案例。

Ayar Labs 顯然有既得利益，可以迫使公司轉(zhuǎn)向封裝在 GPU 上的光學(xué) I/O 以及將它們互連的交換機(jī)，為了證明這一點(diǎn)，該公司構(gòu)建了一個(gè)系統(tǒng)架構(gòu)模擬器，該模擬器不僅關(guān)注各種技術(shù)的進(jìn)給和速度，還關(guān)注它們?cè)?chewing on和 generating tokens方面的盈利能力。

現(xiàn)在，Wade 承認(rèn)，這個(gè)用 Python 編寫(xiě)且尚未命名的模擬器并不是“周期精確的 RTL 模擬器”（cycle accurate RTL simulator），但表示它的設(shè)計(jì)旨在整合一大堆關(guān)鍵組件的規(guī)格——GPU 速度和饋送、HBM 內(nèi)存和容量、封裝外 I/O、網(wǎng)絡(luò)、CPU 主機(jī)、GPU 的 DRAM 擴(kuò)展內(nèi)存等等——并預(yù)測(cè)各種 AI 基礎(chǔ)模型的性能以及處理每個(gè)token的相對(duì)成本。

AI 系統(tǒng)架構(gòu)模擬器關(guān)注三個(gè)性能指標(biāo)，而不僅僅是大多數(shù)人談?wù)摰膬蓚€(gè)。它們是吞吐量和交互性，每個(gè)人都對(duì)此著迷，但也將處理的盈利能力納入考量。提醒一下：

顯然，Ayar Labs 認(rèn)為 AI 集群節(jié)點(diǎn)的所有關(guān)鍵元素——CPU、GPU、擴(kuò)展 DRAM 內(nèi)存以及用于連接 GPU 的節(jié)點(diǎn)內(nèi)擴(kuò)展交換——都應(yīng)該使用光學(xué)而不是電互連，具體來(lái)說(shuō)，AI 服務(wù)器應(yīng)該使用由其 SuperNova 激光器泵浦（pumped ）的 TeraPHY 設(shè)備。

但在我們開(kāi)始進(jìn)行系統(tǒng)架構(gòu)比較之前，Wade 為他的論點(diǎn)添加了另一個(gè)層次，區(qū)分了三種不同類(lèi)型的 AI 應(yīng)用領(lǐng)域：

第一種是批處理（ batch processing），其中查詢(xún)組被捆綁在一起并一起處理，就像五十年前的大型機(jī)事務(wù)更新一樣。（好吧，就像大型機(jī)在今天的夜班期間所做的大量工作一樣。）批處理級(jí)別需要每秒 25 個(gè)tokens或更少的交互級(jí)別。人機(jī)交互（我們習(xí)慣于以生成文本或圖像的 API 形式公開(kāi)的應(yīng)用程序）需要以每秒 25 到 50 個(gè)tokens的速度運(yùn)行。而機(jī)器對(duì)機(jī)器代理應(yīng)用程序的圣杯，其中各種 AI 以高速相互通信以解決特定問(wèn)題 - 需要每秒 50 個(gè)tokens以上的交互率（interactivity rates）。

后一種應(yīng)用在使用電氣互連的經(jīng)濟(jì)實(shí)惠的系統(tǒng)上很難實(shí)現(xiàn)，正如 Ayar Labs 模擬器所示。公平地說(shuō)，像 Nvidia 這樣的公司之所以如此粗暴地使用電氣互連和銅線(xiàn)，是因?yàn)閭€(gè)別光學(xué)元件的可靠性和成本問(wèn)題仍需要解決。

但 Wade 表示，這些問(wèn)題正在得到解決，而且其 TeraPHY 和 SuperNova 組合可以與 2026 年及以后推出的 GPU 一代相交叉。

話(huà)雖如此，讓我們來(lái)看看 Blackwell GPU 的饋送和速度，以及Nvidia 2026 年路線(xiàn)圖上的未來(lái)“Rubin”GPU 以及 2027 年內(nèi)存升級(jí)，可能會(huì)采用當(dāng)前的電氣/銅線(xiàn)方式和假設(shè)的光纖/光纖方式進(jìn)行架構(gòu)?？匆幌逻@個(gè)：

Nvidia GB200 節(jié)點(diǎn)有一個(gè)“Grace”CG100 Arm CPU 和一對(duì) Blackwell GB100 GPU 加速器，因此顯示的計(jì)算容量是規(guī)格表上的一半。看起來(lái) GB200 將獲得 192 GB 的 HBM 容量和 8 TB/秒的完整帶寬，而 HGX B100 和 HGX B200 卡將獲得容量?jī)H為 180 GB 的 Blackwell。至少目前如此。擴(kuò)展電氣 I/O 來(lái)自每個(gè) Blackwell 芯片上的 NVLink 5 控制器，該控制器有 18 個(gè)端口，運(yùn)行速度為 224 Gb/秒，為 Blackwell GPU 提供 900 GB/秒的總傳輸和接收帶寬（總計(jì) 1.8 TB/秒）。

Wade 對(duì) Rubin GPU 的外觀做了一些假設(shè)，我們認(rèn)為它很有可能由四個(gè)通過(guò) NVLink 6-C2C SerDes 互連的受限光罩（reticle-limited） GPU 芯片組成，就像 Blackwell 是兩個(gè)通過(guò) NVLink 5-C2C SerDes 互連的受限光罩 GPU 一樣。我們知道 Rubin HBM 內(nèi)存將提升至 288 GB，我們和 Wade 都預(yù)計(jì) Rubin 設(shè)備中的帶寬將提升至每臺(tái)設(shè)備約 10 TB/秒。（2027 年，Rubin Ultra kicker 中的帶寬可能會(huì)進(jìn)一步提升至 12 TB/秒。）可以合理地假設(shè) NVLink 6 端口將再次將電氣互連的性能提高一倍，達(dá)到單向 1.8 TB/秒，這可能是通過(guò)將每個(gè)端口的信號(hào)量增加一倍來(lái)實(shí)現(xiàn)的。

Ayar Labs 模擬器用 TeraPHY 光纖鏈路替換 NVLink 6-C2C，這樣，每個(gè)方向的帶寬將增加 5.7 倍，達(dá)到 5 TB/秒。模擬器還假設(shè)，與機(jī)架式 Blackwell 系統(tǒng)中使用的 NVSwitch 4 ASIC 相比，NVSwitch 5 芯片在 Rubin 一代中的性能將翻倍，而 Nvidia 將再次直接從 NVSwitch 5 芯片中驅(qū)動(dòng)電信號(hào)。如果您通過(guò) Ayar Labs AI 系統(tǒng)架構(gòu)模擬器運(yùn)行這兩個(gè)假設(shè)的 Nvidia 場(chǎng)景，并測(cè)量吞吐量和盈利能力（在互聯(lián)網(wǎng)時(shí)代我們稱(chēng)之為每 SWaP 的美元，SWaP 是空間、瓦特和功率的縮寫(xiě)），在一系列交互中，您會(huì)得到這張漂亮的圖表：

正如您所看到的，在具有電信號(hào)的 64 GPU 系統(tǒng)中，從 Blackwell 轉(zhuǎn)移到 Rubin 并沒(méi)有真正在一定交互水平的吞吐量方面產(chǎn)生太大的變化，并且每瓦特每單位工作成本也不會(huì)有太大變化?？雌饋?lái)，對(duì)于給定的工作單位，Rubin 的成本將與 Blackwell 相同，至少對(duì)于 Wade 所做的假設(shè)而言是如此。（考慮到現(xiàn)在在 AI 領(lǐng)域的高層，時(shí)間就是金錢(qián)，這對(duì)我們來(lái)說(shuō)是合理的。）

現(xiàn)在事情會(huì)變得有趣起來(lái)。讓我們看看 OpenAI 的 GPT-4 大型語(yǔ)言模型如何在 Ayar Labs 模擬器中針對(duì)不同規(guī)模的不同 Nvidia GPU 在盈利能力與交互性方面對(duì)運(yùn)行推理進(jìn)行對(duì)比：

這張圖表非常有趣。

首先，它表明八路 Hopper H100 節(jié)點(diǎn)對(duì)于批量 GenAI 來(lái)說(shuō)是可以接受的，并且?guī)缀鯚o(wú)法進(jìn)行人機(jī)對(duì)話(huà)。有了 32 個(gè) GH200 超級(jí)芯片集群（配備 141 GB HBM3E 內(nèi)存），批量 GenAI 的成本大大降低，性能相對(duì)于較小的 H100 節(jié)點(diǎn)也有了很大的提高。配備 64 個(gè) GPU 的 GB200 節(jié)點(diǎn)開(kāi)始真正彎曲曲線(xiàn)，但在 64 個(gè) GPU 的情況下，GB200 和未來(lái)的 GR200 之間的差異并不明顯。

但是，看看當(dāng) Rubin 推出光學(xué) I/O 而不是電氣 NVLink 端口和電氣 NVSwitch 端口時(shí)會(huì)發(fā)生什么，并且機(jī)器擴(kuò)展到 256 個(gè)連貫的 GPU，這在銅纜中是不可能的，因?yàn)槟鸁o(wú)法將那么多 GPU 彼此靠近以進(jìn)行互連。機(jī)器對(duì)機(jī)器的多模型處理不僅成為可能。（再次，我們將指出：不要將機(jī)器聯(lián)網(wǎng)…… TeraPHY 確實(shí)如此。）假設(shè)的 Rubin GPU 的盈利能力和吞吐量相互作用的曲線(xiàn)在使用光學(xué) I/O 時(shí)要好得多。

這張圖表表明了一些事情：Ayar Labs 正在試圖讓 Nvidia 收購(gòu)它，或者試圖讓 Nvidia 使用其 OIO 芯片，或者嘗試過(guò)但失敗了，并利用這個(gè)故事試圖讓 AMD 收購(gòu)它。英特爾現(xiàn)在連一杯咖啡都買(mǎi)不起。

現(xiàn)在，讓我們來(lái)看看 OpenAI 在 2026 年左右推出的最先進(jìn)的 GPT 模型，我們假設(shè)它將被稱(chēng)為 GPT-6，但為了安全起見(jiàn)，Wade 將其稱(chēng)為 GPT-X。

隨著 2026 年 GPT-X 的推出，該模型的復(fù)雜度將翻倍，達(dá)到 32 個(gè)不同的模型（稱(chēng)為專(zhuān)家模型），而 Wade 預(yù)計(jì)模型的層數(shù)將從 GPT-4 的 120 層增加到 128 層。（我們認(rèn)為層數(shù)可能會(huì)更高，可能高達(dá) 192 層；我們拭目以待）。標(biāo)記序列長(zhǎng)度將保持穩(wěn)定，輸入為 32k，輸出為 8K，文本嵌入的模型維數(shù)將翻倍，達(dá)到 20,480。

如下所示，現(xiàn)有的 Hopper 和 Blackwell 配置從 8 個(gè) GPU 擴(kuò)展到 64 個(gè) GPU，所有機(jī)器都被推入批量性能領(lǐng)域，只有采用銅 NVLink 互連的 Rubin 機(jī)架式機(jī)器才能進(jìn)入人機(jī)領(lǐng)域。但是，借助節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間的光學(xué) I/O 以及擴(kuò)展到 256 個(gè) Rubin GPU，Nvidia 可以構(gòu)建一臺(tái)可以擴(kuò)展到人機(jī)和機(jī)器對(duì)機(jī)器領(lǐng)域的推理機(jī)，同時(shí)在交互性和成本方面提供可接受的改進(jìn)。

該圖表是 Ayar Labs、Eliyan、Avicena、Lightmatter 和 Celestial AI 等公司的廣告。我們強(qiáng)烈懷疑 Rubin 會(huì)將 NVLink 轉(zhuǎn)移到光學(xué)互連，坦率地說(shuō)，考慮到Nvidia 多年前所做的原型設(shè)計(jì)以及 Nvidia 已經(jīng)與 Ayar Labs 以及很可能與上面提到的其他一些公司合作的工作，我們已經(jīng)預(yù)料到這樣的機(jī)器了。

NVLink 只是一種協(xié)議，現(xiàn)在或許是時(shí)候?qū)⑵滢D(zhuǎn)移到光學(xué)傳輸中了。我們迫不及待地想看看 Nvidia 會(huì)在這里做些什么。在機(jī)架中塞入更多 GPU 并將功率密度提高到 200 千瓦或人們談?wù)摰寞偪竦?500 千瓦可能不是答案。光學(xué)互連會(huì)將這個(gè)鐵芯稍微隔開(kāi)一點(diǎn)，也許足以防止光學(xué)器件出現(xiàn)不良行為。

來(lái)源：內(nèi)容來(lái)自Timothy Prickett Morgan

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

光進(jìn)銅退，已成定局？

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

博客專(zhuān)欄

光進(jìn)銅退，已成定局？

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

光進(jìn)銅退，已成定局？