新聞中心

EEPW首頁(yè) > 網(wǎng)絡(luò)與存儲(chǔ) > 設(shè)計(jì)應(yīng)用 > Nvidia 對(duì)組合封裝光學(xué)器件的認(rèn)可意味著時(shí)機(jī)成熟

Nvidia 對(duì)組合封裝光學(xué)器件的認(rèn)可意味著時(shí)機(jī)成熟

作者: 時(shí)間:2025-03-28 來(lái)源:IEEE 收藏

期待已久的新興計(jì)算機(jī)網(wǎng)絡(luò)組件可能終于迎來(lái)了它的時(shí)刻。在 上周于圣何塞舉行的 GTC 大會(huì)上,該公司宣布將生產(chǎn)一款光網(wǎng)絡(luò)交換機(jī),旨在大幅降低 AI 數(shù)據(jù)中心的功耗。該系統(tǒng)稱為 (CPO) 交換機(jī),每秒可以將數(shù)十 TB 從一個(gè)機(jī)架中的計(jì)算機(jī)路由到另一個(gè)機(jī)架中的計(jì)算機(jī)。與此同時(shí),初創(chuàng)公司 Micas Networks 宣布,它正在使用基于 Broadcom 技術(shù)的 CPO 交換機(jī)進(jìn)行批量生產(chǎn)。

本文引用地址:http://2s4d.com/article/202503/468786.htm

在當(dāng)今的數(shù)據(jù)中心中,計(jì)算機(jī)機(jī)架中的網(wǎng)絡(luò)交換機(jī)由專用芯片組成,這些芯片與插入系統(tǒng)的光收發(fā)器電氣連接。(機(jī)架內(nèi)的連接是電氣的,但一些初創(chuàng)公司希望改變這一點(diǎn)??刹灏问瞻l(fā)器結(jié)合了激光器、光電路、數(shù)字信號(hào)處理器和其他電子設(shè)備。它們與交換機(jī)建立電氣鏈路,并在交換機(jī)側(cè)的電子位和沿光纖飛過(guò)數(shù)據(jù)中心的光子之間轉(zhuǎn)換數(shù)據(jù)。

共封裝通過(guò)將光/電數(shù)據(jù)轉(zhuǎn)換盡可能靠近開關(guān)芯片來(lái)提高帶寬和降低功耗。這簡(jiǎn)化了設(shè)置,并通過(guò)減少所需的獨(dú)立組件數(shù)量和電子信號(hào)必須傳輸?shù)木嚯x來(lái)節(jié)省功耗。先進(jìn)的封裝技術(shù)允許芯片制造商用多個(gè)硅光收發(fā)器小芯片包圍網(wǎng)絡(luò)芯片。光纖直接連接到封裝上。因此,除激光器外,所有組件都集成到一個(gè)封裝中,激光器由于使用非硅材料和技術(shù)制造,因此保持外部。(即便如此,CPO 在 硬件中的每 8 個(gè)數(shù)據(jù)鏈路中只需要一個(gè)激光器。

“具有 400000 個(gè) GPU 的 AI 超級(jí)計(jì)算機(jī)實(shí)際上是一臺(tái) 24 兆瓦的激光器?!薄?nbsp;Ian Buck, 公司

盡管這項(xiàng)技術(shù)看起來(lái)很有吸引力,但它的經(jīng)濟(jì)性使其無(wú)法部署。“我們一直在等待 CPO,”加州大學(xué)圣巴巴拉分校 (University of California Santa Barbara) 的共封裝光學(xué)專家兼 IEEE 研究員 Clint Schow 說(shuō),他已經(jīng)研究這項(xiàng)技術(shù) 20 年了。談到 Nvidia 對(duì)技術(shù)的認(rèn)可,他說(shuō)該公司“不會(huì)這樣做,除非 [GPU 密集型數(shù)據(jù)中心] 無(wú)力花費(fèi)電力。所涉及的工程是如此復(fù)雜,Schow 認(rèn)為除非“用老辦法做事”是不值得的。

事實(shí)上,Nvidia 指出,即將到來(lái)的 AI 數(shù)據(jù)中心的功耗是一個(gè)動(dòng)機(jī)。Nvidia 超大規(guī)模和高性能計(jì)算副總裁 Ian Buck 表示,在 AI 數(shù)據(jù)中心,可插拔消耗的“占 GPU 總計(jì)算能力的 10%,令人震驚”。在一個(gè)擁有 400,000 GPU 的工廠中,這將轉(zhuǎn)化為 40 兆瓦,其中一半以上僅用于為可插拔光學(xué)收發(fā)器中的激光器供電?!耙慌_(tái)擁有 400000 個(gè) GPU 的 AI 超級(jí)計(jì)算機(jī)實(shí)際上是一臺(tái) 24 兆瓦的激光器,”他說(shuō)。

光調(diào)制器

Broadcom 的方案與 Nvidia 的方案之間的一個(gè)根本區(qū)別是光調(diào)制器技術(shù),該技術(shù)將電子位編碼到光束上。在硅光子學(xué)中,有兩種主要類型的調(diào)制器——Broadcom 使用的 Mach-Zender 調(diào)制器,它是可插拔光學(xué)器件的基礎(chǔ),以及 Nvidia 選擇的微環(huán)諧振器。在前者中,通過(guò)波導(dǎo)傳播的光被分成兩個(gè)平行的臂。然后,每個(gè)臂都可以通過(guò)施加的電場(chǎng)進(jìn)行調(diào)制,從而改變通過(guò)的光的相位。然后,臂重新連接形成單個(gè)波導(dǎo)。根據(jù)這兩個(gè)信號(hào)現(xiàn)在是同相還是異相,它們將相互抵消或合并。因此,電子位可以編碼到光上。

微環(huán)調(diào)制器要緊湊得多。環(huán)形波導(dǎo)不是沿兩條平行路徑分割光線,而是懸掛在光線主路徑的一側(cè)。如果光的波長(zhǎng)可以在環(huán)中形成駐波,它將被虹吸掉,從主波導(dǎo)中過(guò)濾掉該波長(zhǎng)。與磁環(huán)共振的確切波長(zhǎng)取決于結(jié)構(gòu)的折射率,該折射率可以通過(guò)電子方式控制。

然而,微環(huán)的緊湊性是有代價(jià)的。微環(huán)調(diào)制器對(duì)溫度敏感,因此每個(gè)調(diào)制器都需要一個(gè)內(nèi)置的加熱電路,必須仔細(xì)控制并消耗功率。另一方面,馬赫-Zender 器件要大得多,導(dǎo)致更多的光線損失和一些設(shè)計(jì)問(wèn)題,Schow 說(shuō)。

期待已久的新興計(jì)算機(jī)網(wǎng)絡(luò)組件可能終于迎來(lái)了它的時(shí)刻。在 上周于圣何塞舉行的 Nvidia GTC 大會(huì)上,該公司宣布將生產(chǎn)一款光網(wǎng)絡(luò)交換機(jī),旨在大幅降低 AI 數(shù)據(jù)中心的功耗。該系統(tǒng)稱為共封裝光學(xué)器件 (CPO) 交換機(jī),每秒可以將數(shù)十 TB 從一個(gè)機(jī)架中的計(jì)算機(jī)路由到另一個(gè)機(jī)架中的計(jì)算機(jī)。與此同時(shí),初創(chuàng)公司 Micas Networks 宣布,它正在使用基于 Broadcom 技術(shù)的 CPO 交換機(jī)進(jìn)行批量生產(chǎn)。

在當(dāng)今的數(shù)據(jù)中心中,計(jì)算機(jī)機(jī)架中的網(wǎng)絡(luò)交換機(jī)由專用芯片組成,這些芯片與插入系統(tǒng)的光收發(fā)器電氣連接。(機(jī)架內(nèi)的連接是電氣的,但一些初創(chuàng)公司希望改變這一點(diǎn)??刹灏问瞻l(fā)器結(jié)合了激光器、光電路、數(shù)字信號(hào)處理器和其他電子設(shè)備。它們與交換機(jī)建立電氣鏈路,并在交換機(jī)側(cè)的電子位和沿光纖飛過(guò)數(shù)據(jù)中心的光子之間轉(zhuǎn)換數(shù)據(jù)。

共封裝光學(xué)器件通過(guò)將光/電數(shù)據(jù)轉(zhuǎn)換盡可能靠近開關(guān)芯片來(lái)提高帶寬和降低功耗。這簡(jiǎn)化了設(shè)置,并通過(guò)減少所需的獨(dú)立組件數(shù)量和電子信號(hào)必須傳輸?shù)木嚯x來(lái)節(jié)省功耗。先進(jìn)的封裝技術(shù)允許芯片制造商用多個(gè)硅光收發(fā)器小芯片包圍網(wǎng)絡(luò)芯片。光纖直接連接到封裝上。因此,除激光器外,所有組件都集成到一個(gè)封裝中,激光器由于使用非硅材料和技術(shù)制造,因此保持外部。(即便如此,CPO 在 Nvidia 硬件中的每 8 個(gè)數(shù)據(jù)鏈路中只需要一個(gè)激光器。

“具有 400000 個(gè) GPU 的 AI 超級(jí)計(jì)算機(jī)實(shí)際上是一臺(tái) 24 兆瓦的激光器?!薄?nbsp;Ian Buck,Nvidia 公司

盡管這項(xiàng)技術(shù)看起來(lái)很有吸引力,但它的經(jīng)濟(jì)性使其無(wú)法部署?!拔覀円恢痹诘却?CPO,”加州大學(xué)圣巴巴拉分校 (University of California Santa Barbara) 的共封裝光學(xué)專家兼 IEEE 研究員 Clint Schow 說(shuō),他已經(jīng)研究這項(xiàng)技術(shù) 20 年了。談到 Nvidia 對(duì)技術(shù)的認(rèn)可,他說(shuō)該公司“不會(huì)這樣做,除非 [GPU 密集型數(shù)據(jù)中心] 無(wú)力花費(fèi)電力。所涉及的工程是如此復(fù)雜,Schow 認(rèn)為除非“用老辦法做事”是不值得的。

事實(shí)上,Nvidia 指出,即將到來(lái)的 AI 數(shù)據(jù)中心的功耗是一個(gè)動(dòng)機(jī)。Nvidia 超大規(guī)模和高性能計(jì)算副總裁 Ian Buck 表示,在 AI 數(shù)據(jù)中心,可插拔光學(xué)器件消耗的“占 GPU 總計(jì)算能力的 10%,令人震驚”。在一個(gè)擁有 400,000 GPU 的工廠中,這將轉(zhuǎn)化為 40 兆瓦,其中一半以上僅用于為可插拔光學(xué)收發(fā)器中的激光器供電?!耙慌_(tái)擁有 400000 個(gè) GPU 的 AI 超級(jí)計(jì)算機(jī)實(shí)際上是一臺(tái) 24 兆瓦的激光器,”他說(shuō)。

光調(diào)制器

Broadcom 的方案與 Nvidia 的方案之間的一個(gè)根本區(qū)別是光調(diào)制器技術(shù),該技術(shù)將電子位編碼到光束上。在硅光子學(xué)中,有兩種主要類型的調(diào)制器——Broadcom 使用的 Mach-Zender 調(diào)制器,它是可插拔光學(xué)器件的基礎(chǔ),以及 Nvidia 選擇的微環(huán)諧振器。在前者中,通過(guò)波導(dǎo)傳播的光被分成兩個(gè)平行的臂。然后,每個(gè)臂都可以通過(guò)施加的電場(chǎng)進(jìn)行調(diào)制,從而改變通過(guò)的光的相位。然后,臂重新連接形成單個(gè)波導(dǎo)。根據(jù)這兩個(gè)信號(hào)現(xiàn)在是同相還是異相,它們將相互抵消或合并。因此,電子位可以編碼到光上。

微環(huán)調(diào)制器要緊湊得多。環(huán)形波導(dǎo)不是沿兩條平行路徑分割光線,而是懸掛在光線主路徑的一側(cè)。如果光的波長(zhǎng)可以在環(huán)中形成駐波,它將被虹吸掉,從主波導(dǎo)中過(guò)濾掉該波長(zhǎng)。與磁環(huán)共振的確切波長(zhǎng)取決于結(jié)構(gòu)的折射率,該折射率可以通過(guò)電子方式控制。

然而,微環(huán)的緊湊性是有代價(jià)的。微環(huán)調(diào)制器對(duì)溫度敏感,因此每個(gè)調(diào)制器都需要一個(gè)內(nèi)置的加熱電路,必須仔細(xì)控制并消耗功率。另一方面,馬赫-Zender 器件要大得多,導(dǎo)致更多的光線損失和一些設(shè)計(jì)問(wèn)題,Schow 說(shuō)。

Schow 說(shuō),Nvidia 成功地將基于微環(huán)的硅光子引擎商業(yè)化是“一項(xiàng)了不起的工程壯舉”。

Nvidia CPO 交換機(jī)

據(jù) Nvidia 稱,在新的 AI 數(shù)據(jù)中心采用 CPO 交換機(jī)將使激光器數(shù)量增加四分之一,將傳輸數(shù)據(jù)的功率效率提高 3.5 倍,將信號(hào)從一臺(tái)計(jì)算機(jī)準(zhǔn)時(shí)傳輸?shù)搅硪慌_(tái)計(jì)算機(jī)的可靠性提高 63 倍,使網(wǎng)絡(luò)對(duì)中斷的彈性提高 10 倍,并允許客戶將部署新數(shù)據(jù)中心硬件的速度提高 30%。

Nvidia 首席執(zhí)行官黃仁勛表示:“通過(guò)將硅光子學(xué)直接集成到交換機(jī)中,Nvidia 打破了超大規(guī)模和企業(yè)網(wǎng)絡(luò)的舊限制,并為擁有數(shù)百萬(wàn)個(gè) GPU 的 AI 工廠打開了大門。

該公司計(jì)劃推出兩類交換機(jī),即 Spectrum-X 和 Quantum-X。該公司表示,Quantum-X 將于今年晚些時(shí)候推出,它基于 Infiniband 網(wǎng)絡(luò)技術(shù),這是一種更面向高性能計(jì)算的網(wǎng)絡(luò)方案。它從 144 個(gè)端口中的每個(gè)端口提供 800 Gb/s,其兩個(gè) CPO 芯片是液冷而不是風(fēng)冷,越來(lái)越多的新 AI 數(shù)據(jù)中心也是如此。網(wǎng)絡(luò) ASIC 包括 Nvidia 的 SHARP FP8 技術(shù),該技術(shù)允許 CPU 和 GPU 將某些任務(wù)卸載到網(wǎng)絡(luò)芯片。

Spectrum-X 是一種基于以太網(wǎng)的交換機(jī),可以從總共 128 或 512 個(gè)端口提供每秒約 100 TB 的總帶寬,從 512 或 2048 個(gè)端口提供 400 Tb/s 的總帶寬。硬件制造商預(yù)計(jì)將于 2026 年準(zhǔn)備好 Spectrum-X 交換機(jī)。

Nvidia 多年來(lái)一直致力于基礎(chǔ)光子學(xué)技術(shù)。但是,需要與 11 個(gè)合作伙伴(包括 TSMC、Corning 和 Foxconn)合作,才能實(shí)現(xiàn)商業(yè)化狀態(tài)。

Nvidia 光互連產(chǎn)品總監(jiān) Ashkan Seyedi 強(qiáng)調(diào),這些合作伙伴帶來(lái)的技術(shù)必須經(jīng)過(guò)協(xié)同優(yōu)化以滿足 AI 數(shù)據(jù)中心需求,而不是簡(jiǎn)單地從這些合作伙伴的現(xiàn)有技術(shù)組裝而成,這一點(diǎn)非常重要。

“CPO 實(shí)現(xiàn)的創(chuàng)新和節(jié)能與您的包裝方案、包裝合作伙伴和包裝流程密切相關(guān),”Seyedi 說(shuō)?!靶路f性不僅在于直接的光學(xué)元件,還在于它們?nèi)绾我愿弋a(chǎn)量、可測(cè)試的方式進(jìn)行封裝,您可以以合理的成本進(jìn)行管理?!?/p>

測(cè)試尤為重要,因?yàn)樵撓到y(tǒng)是許多昂貴組件的集成。例如,Quantum-X 系統(tǒng)中的兩個(gè) CPO 中每個(gè) CPO 都有 18 個(gè)硅光子學(xué)小芯片。每個(gè)激光器都必須連接到 2 個(gè)激光器和 16 根光纖。Seyedi 說(shuō),該團(tuán)隊(duì)必須開發(fā)幾個(gè)新的測(cè)試程序才能正確無(wú)誤并追蹤錯(cuò)誤悄然出現(xiàn)的位置。

Micas Networks 交換機(jī)


An advanced switch system labeled Micas.

Micas Networks 已經(jīng)投入生產(chǎn),其交換機(jī)基于 Broadcom 的 CPO 技術(shù)。云母網(wǎng)絡(luò)


Broadcom 光學(xué)系統(tǒng)部門產(chǎn)品營(yíng)銷高級(jí)經(jīng)理 Robert Hannah 解釋說(shuō),Broadcom 為其 Bailly CPO 開關(guān)選擇了更成熟的 Mach-Zender 調(diào)制器,部分原因是它是一種更加標(biāo)準(zhǔn)化的技術(shù),可能使其更容易與現(xiàn)有的可插拔收發(fā)器基礎(chǔ)設(shè)施集成。

Mica 的系統(tǒng)使用單個(gè) CPO 組件,該組件由 Broadcom 的 Tomahawk 5 以太網(wǎng)交換芯片組成,周圍環(huán)繞著八個(gè) 6.4 Tb/s 硅光子學(xué)光引擎。風(fēng)冷硬件現(xiàn)已全面投產(chǎn),領(lǐng)先于 Nvidia 的 CPO 開關(guān)。

Hannah 稱 Nvidia 的參與是對(duì) Micas 和 Broadcom 時(shí)機(jī)的認(rèn)可?!皫啄昵?,我們決定滑到冰球要去的地方,”Micas 的首席運(yùn)營(yíng)官 Mitch Galbraith 說(shuō)。他說(shuō),隨著數(shù)據(jù)中心運(yùn)營(yíng)商爭(zhēng)先恐后地為其基礎(chǔ)設(shè)施供電,CPO 的時(shí)代似乎已經(jīng)到來(lái)。

與配備標(biāo)準(zhǔn)可插拔收發(fā)器的系統(tǒng)相比,新交換機(jī)有望節(jié)省 40% 的功耗。然而,Mica 企業(yè)戰(zhàn)略副總裁 Charlie Hou 表示,CPO 更高的可靠性同樣重要。他說(shuō),“鏈路抖動(dòng)”是可插拔光鏈路瞬態(tài)故障的術(shù)語(yǔ),是導(dǎo)致本已非常長(zhǎng)的 AI 訓(xùn)練運(yùn)行延長(zhǎng)的罪魁禍?zhǔn)字?。CPO 預(yù)計(jì)鏈路抖動(dòng)會(huì)更少,因?yàn)樾盘?hào)路徑中的組件較少,以及其他原因。

未來(lái)的 CPO

Schow 建議,數(shù)據(jù)中心希望從 CPO 中獲得的大型節(jié)能產(chǎn)品大多是一次性的好處。在那之后,“我認(rèn)為這將成為新常態(tài)。然而,對(duì)電子設(shè)備其他功能的改進(jìn)將使 CPO 制造商至少在一段時(shí)間內(nèi)繼續(xù)提高帶寬。

Schow 懷疑單個(gè)硅調(diào)制器(在 Nvidia 的光子引擎中以 200 Gb/s 的速度運(yùn)行)是否能夠超過(guò) 400 Gb/s。然而,其他材料,如鈮酸鋰和磷化銦,應(yīng)該能夠超過(guò)這個(gè)數(shù)字。訣竅是以經(jīng)濟(jì)實(shí)惠的方式將它們與硅組件集成,總部位于圣巴巴拉的 OpenLight 和其他小組正在研究這一點(diǎn)。

與此同時(shí),可插拔光學(xué)器件并沒有停滯不前。本周,Broadcom 推出了一種新的數(shù)字信號(hào)處理器,該處理器可能會(huì)導(dǎo)致 1.6 Tb/s 收發(fā)器的功耗降低 20% 以上,部分原因是采用了更先進(jìn)的硅工藝。

Avicena、Ayar Labs 和 Lightmatter 等初創(chuàng)公司正在努力將光學(xué)互連一直引入 GPU 本身。前兩者開發(fā)了小芯片,旨在與 GPU 或其他處理器放在相同的封裝中。Lightmatter 更進(jìn)一步,使硅光子學(xué)引擎成為未來(lái)芯片 3D 堆疊的封裝基板。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉