新聞中心

EEPW首頁 > 網絡與存儲 > 設計應用 > UALink還是Ultra Ethernet,面向AI的數據中心協議

UALink還是Ultra Ethernet,面向AI的數據中心協議

—— UALink 可縱向擴展,而 Ultra Ethernet 可橫向擴展。
作者:Bryon Moyer 時間:2025-03-18 來源: 收藏

和 HPC 中的計算節(jié)點越來越需要擴展到芯片或封裝之外,以獲取額外的資源來處理不斷增長的工作負載。他們可能會征用機架中的其他節(jié)點(縱向擴展)或使用其他機架中的資源(橫向擴展)。

本文引用地址:http://2s4d.com/article/202503/468265.htm

問題是目前沒有開放的 Scale-up 協議。到目前為止,這項任務一直由專有協議主導,因為大部分最高性能的計算都是在大型使用定制芯片和架構完成的。雖然以太網在橫向擴展方面很受歡迎,但對于 和高性能計算工作負載來說,它并不理想。

但兩種新協議 旨在解決當前縱向擴展和橫向擴展通信的缺陷。 是一種全新的縱向擴展協議,而 則基于以太網構建,用于橫向擴展。

多重通信職責
“計算節(jié)點” 是一個描述某些計算軌跡的抽象概念。它具有有限的容量,可以訪問有限數量的內存和其他可能的資源,例如加速器。就其本身而言,它不足以應對高強度工作負載,并且依賴于其他節(jié)點來分配整體問題。提供交換數據和協調作所需通信的協議通??煞譃槿?。

最低級別的協議是 die-to-die 互連,由于先進的封裝,它在今天具有相關性。軟件包中看起來像單個計算節(jié)點的東西可能是多個小芯片一起工作。實現此目的的協議是 UCIe 和 Bunch of Wires (BoW) 以及一些專有協議。但所有這些通信在包裝之外都是不可見的。

滿載的計算節(jié)點可以看作是連接了計算、內存和加速器的服務器主板。但是,主板上可能有多個處理器,因此系統軟件會確定哪些工作負載在哪些處理器上運行。但這對于訓練 模型所需的任務類型來說還不夠。這需要伸手進入機架或 Pod 以利用更多資源。

目標是組裝多個計算節(jié)點,同時保持單個計算空間的感覺 — 多個處理器和加速器充當具有統一地址的單個大型處理器或加速器。這個中間通信級別是縱向擴展的,這就是 的用武之地。它與 PCIe 和 CXL 一起工作,但只有 UALink 具有統一分配資源的作用。

“UALink 旨在連接您的主要 GPU 單元,以實現 GPU 到 GPU 的擴展,”Synopsys 高性能計算 IP 解決方案產品管理副總裁 Michael Posner 說?!八荚谠黾訋挷p少該連接的延遲?!?/p>

GPU 只是加速器的一種類型,UALink 可以廣泛地與任何類型的加速器配合使用。然后,UALink 抽象出加速器之間的劃分。

“我們的想法是將 AI 處理器互連起來,看起來像這個 Pod 中的一個大型處理器,”Synopsys 首席產品經理 Jon Ames 說。

內存訪問是 UALink 角色的重要組成部分。Cadence 硅解決方案集團設計 IP 高級產品營銷組總監(jiān) Arif Khan 在一篇博文中表示:“UALink 優(yōu)化了 pod 中加速器之間的 xPU 到 xPU 內存通信,無論是直接連接還是通過完全連接的高基數開關。

超越機架
機架中的資源之外,其他機架中也有類似的資源。但是,這些機架無法通過將單個機架固定在一起的同一互連進行訪問。以太網通常在機架之間通信,這就是橫向擴展 — 最高通信級別。它類似于 Scale-up,但其覆蓋范圍比 Scale-up 所能提供的更廣泛。此架構在機架內有一個網絡(例如 PCIe),在機架外(或網絡的另一個層)具有另一個網絡。這是縱向擴展和橫向擴展之間的主要區(qū)別。

“超級以太網解決了橫向擴展問題,”Posner 說?!八⒃趥鹘y以太網之上?!?/p>

Khan 對此表示贊同。“跨 Pod 的擴展依賴于 來加速以太網(本質上是替代當今依賴遠程 DMA/RoCE 的批量傳輸),”他說。

圖 1:數據中心互連的四個級別。在整個數據中心中,從一個機架移動到另一個機架構成了橫向擴展通信。在同一機架內進行縱向擴展。在高級處理器封裝中,晶粒間互連處理晶粒間通信。來源:Bryon Moyer/Semiconductor Engineering

die-to-die 協議和其他協議之間的一個根本區(qū)別是鏈路的基本性質 — 串行與并行。UCIe 和 BoW 都是 parallel interface,通常帶有 forwarded clocks。這提供了最低的延遲,同時需要更多的引腳,并使 skew 成為一個更重要的問題。

UALink 和 Ultra Ethernet 使用串行鏈路。這大大減少了必要信號的數量,但它增加了提取 clock 和解析非 non-return-to-zero (NRZ) 格式的 symbol 值的開銷。這種額外的處理是導致 die-to-die 協議提供的鏈接延遲增加的原因。“與任何接口相比,UCIe 和 BoW 等并行接口的 NoC 到 NoC 延遲都非常低,”Siemens EDA 中央工程解決方案總監(jiān) Pratyush Kamal 指出。

縱向擴展:一個綠地
如今,PCIe 和 CXL 可以在機架級別運行,但它們不提供 UALink 創(chuàng)建者正在設計的語義。因此,現有技術由廣泛的專有解決方案組成。每家實施 Scaleup 的公司都必須投入資源來設計協議,而多家公司做同樣的事情會消耗行業(yè)的效率。

“我們看到 UALink 取代了許多專有互連,”Synopsys 的 IP 戰(zhàn)略營銷經理 Ron Lowman 說?!癧創(chuàng)建專有版本的設計師] 使用了從 PCIe 到以太網以及介于兩者之間的一切,并通過定制來處理擴展,UALink 正在解決這個問題?!?/p>

UALink 聯盟于去年秋天正式召開會議,其既定目標是“開發(fā)互連技術規(guī)范,促進 AI 加速器之間的直接加載、存儲和原子作”。事實上,UALink 中的 UA 代表 Ultra Accelerator。它并沒有排除 PCIe 或 CXL,這三者的職責之間存在重疊。但是,UALink 正在專門針對 AI 和 HPC 工作負載進行優(yōu)化。

它由三個主要層組成 — 一個頂部的事務層,用于管理完整事務,一個位于中間的數據鏈路層,用于管理每個躍點,以及一個處理信號的物理層 (PHY)。前兩個是新的,但 PHY 層利用現有的功能來加快實施和采用。

在某種程度上,縱向擴展一直是 PCIe 的領域,但沒有針對 AI 進行優(yōu)化。Lowman 說:“你在 PCIe 中看到的是許多不同的芯片執(zhí)行許多不同的任務,而 UALink 實際上是在嘗試采用 AI 加速器,并將其從 1 擴展到 1,000 來處理單個工作負載?!癠ALink 不具備 PCIe 的所有功能和向后兼容性,但它可以滿足特定的 AI 工作負載需求,例如全局內存尋址和共享內存?!?/p>

UALink 的兩個初始版本將首次亮相,一個是 224 Gbps,另一個可以放寬半速(-200 和 -100 版本)。兩者都將采用以太網 PHY。在初始版本發(fā)布后,計劃推出 -128 版本,該版本將利用 PCIe Gen 7 的 PHY。

該聯盟開發(fā) UALink 并不是為了理想,而是為了快速實現,因為該行業(yè)發(fā)展得如此之快。“AI 硬件軟件的發(fā)展速度比硬件的響應速度要快得多,”Lowman 說。“因此,盡快推出有助于擴大規(guī)模的產品將對整個行業(yè)有益。”

這意味著盡可能多地重復使用現有標準。“我們的想法并不是說以太網和 PCI 是絕對最好的選擇,”Lowman 說?!拔覀兊南敕ㄊ?,我們可以使用標準化協議快速進入市場,該協議可以完成縱向擴展架構所需的基本工作。因此,該聯盟采用了現有的技術。UALink 128 利用了類似 PCIe 的 PHY,UALink 200 利用了基于以太網的 PHY。

預計 UALink 不會挑戰(zhàn) PCIe 或 CXL。“我們已經就 PCIe、CXL 和 UALink 的定位進行了很多對話,我們堅信它們在市場上都有自己的利基市場,”他說。

UALink 1.0 規(guī)范應在下個季度提供,并可免費下載。

橫向擴展:基于以太網
構建 由于能夠很好地處理廣泛的應用程序,以太網已被廣泛采用。但它的一些策略會損害性能,主要是由于尾部延遲。

以太網中的通信延遲不是固定的或可預測的。一個事務可能完成而沒有問題,而另一個事務可能會遇到鏈路擁塞,并丟棄數據包,因此需要重新發(fā)送。盡管大多數事務可以在最短的時間內完成,但這些工作負載需要所有節(jié)點同步才能繼續(xù),并且一個鏈接比其他鏈接花費的時間更長可能會阻礙一切。術語 tail latency 指的是由這些(希望)少數事務引起的延遲。它們是延遲分布的尾部。

在考慮延遲時,還必須認識到 die-to-die 連接增加的延遲不僅僅是物理層延遲?!爸匾氖?NoC 到 NoC 的延遲,而不是 PHY 到 PHY 的延遲,”Kamal 說。

由于通信方式的性質,此問題對于 AI 和 HPC 工作負載尤其嚴重。以太網最常用于傳遞東西向或南北向的數據流。有一種方向性和一種感覺,“我們完成了那個流程,這是我們最后一次看到它。但 AI/HPC 工作負載與發(fā)送數據進行計算,然后返回結果有關。這不僅僅是一條消失的溪流。它是數據輸出和結果,一遍又一遍。它更像是呼吸而不是流動,每次發(fā)送數據都是呼氣,結果是吸氣。每次“呼吸”都涉及節(jié)點之間的多個交易。

“以太網是專門為成為通用網絡而開發(fā)的,”超級以太網聯盟指導委員會主席 J Metz 說。“如果你有南北交通或東西交通,那就太好了。如果你有集群流量執(zhí)行 all-to-all、all-reduce 或任何其他集合,那就不太好了。當你來回傳遞消息,以便它們可以進行自己的處理,然后將其發(fā)送回去時,這更像是那種呼吸環(huán)境。


無花果。 2:Ultra Ethernet 在數據中心網絡中的位置??v向擴展發(fā)生在節(jié)點內,使資源集合看起來像一個虛擬節(jié)點。Ultra Ethernet 擴展這些節(jié)點。雖然此處未說明,但 CPU 和 GPU 都可以參與。來源:Ultra Ethernet Consortium

盡管 Ultra Ethernet 可以通過網絡接口卡 (NIC) 進行連接,但這不是必需的?!敖Y構端點 (FEP) 可以是任何具有結構地址的設備,它可以是加速器本身的合適以太網點,”Metz 說。“FEP 的魔力發(fā)生了,包括擁塞、語義和數據包交付控制?!?/p>

圖 2 展示了一個簡化的數據中心網絡,重點是 GPU 。但 CPU 也可以參與。“AI 工作流程不是鐵板一塊,”Metz 說?!霸诓煌旱?CPU 和 GPU 之間,甚至在集群內部,都存在許多階段。有些工作最好在 CPU 中完成,有些在 GPU 中完成。

超級以太網聯盟 (UEC) 專門針對這種類型的通信,具有一些強制性功能和一些可選功能。給定一個事務,只有終端節(jié)點具有強制行為。這是有意為之的,以便可以使用標準以太網交換機構建 Ultra Ethernet 網絡。雖然沒有提供 Ultra Ethernet 的所有優(yōu)勢,但端點安裝可以繼續(xù)進行,而無需等待新交換機。

向以太網
添加層 標準以太網 指定第 2 層(數據鏈路)及以下層的功能。它不知道事務或終端節(jié)點。它只是逐個躍點移動數據。Ultra Ethernet 在此基礎上增加了第 3 層(網絡)和第 4 層(傳輸)。它是管理事務語義的傳輸層。它必須是安全的嗎?所有數據包都必須按順序到達嗎?它必須可靠嗎?

“傳輸部分是 Ultra Ethernet 的重要組成部分,”Ames 說?!八鼮槟峁┝丝梢詼p少整體系統延遲的機制?!?/p>

層的神圣性在傳統以太網中沒有得到很好的尊重。其他功能已經悄悄滲入了一些層次,而這些層次可能更適合其他層次。Ultra Ethernet 正在努力避免這種情況。“你要確保當你在第二層做某事時,它會做第二層,”Metz 說?!澳阆朐诘谌龑幼鳇c什么,它就是第三層。你不做你不在 MAC 層做路由協議。

第 3 層僅使用互聯網協議 (IP),保持不變?!癧我們]目前沒有解決網絡層問題,”他說?!皬哪撤N意義上說,這很好,因為它有助于簡化流程,并使使用 Clos 或葉脊配置的傳統數據中心環(huán)境變得非常容易。一旦您開始研究 dragonfly、megafly 或 torus [網絡拓撲] 等內容,您將在 HPC 環(huán)境中更頻繁地看到這些,我們就不關注這些了。我們將來必須解決這個問題。

傳輸層是標準的強制性部分,在端點中實現?!霸唇K端節(jié)點將成為核心決策者,然后接收終端節(jié)點將提供 [這些決策] 所需的反饋,”Metz 說。在出現問題數據包的情況下,目標不會發(fā)送通常的 ACK(確認),而是發(fā)送 NACK(否定確認)以及一些診斷信息。

“您可以識別丟失或速度較慢的數據包,并將其發(fā)送回源頭,”Metz 解釋說?!皝碓磳⑵渑c它最初選擇的任何路徑相結合,并在重新提交時選擇了不同的路徑?!?/p>

圖 3: 超級以太網堆棧包括傳輸層和網絡層,其中傳輸層是強制性的。到目前為止,網絡層采用的 IP 沒有變化。數據鏈路層和物理層添加了新的可選功能。藍色元素是必需的,綠色元素與以太網相同,米色元素是可選的。來源:Ultra Ethernet Consortium。

新功能有助于減少尾部延遲
展示 Ultra Ethernet 減少延遲的方法的四項功能是無序交付、鏈路級重試、流量控制和數據包噴射。其中許多交易只是將數據從一個地方發(fā)送到另一個地方,只要數據全部到達那里,它到達的順序就無關緊要。您仍然可以選擇按順序交付,但這不是必需的。

如果某些數據未到達,則無需重新發(fā)送整個事務。目標終端節(jié)點可以識別任何缺失的數據包,只有那些數據包會被重新發(fā)送。此外,如果中間節(jié)點沿路徑收到一個壞數據包,它可以立即請求重試該數據包,而無需在堆棧上移動并在事務級別處理它。

“鏈路級重試可以防止堆棧上層的協議不必確定是否需要重新傳輸某些內容,”Ames 說,并指出了在較低級別響應更快的好處,以及需要只重新發(fā)送壞數據包而不是整個事務。

由于鏈路級重試是一項可選功能,因此在使用新鏈路層升級交換機之前,早期的 Ultra Ethernet 網絡不會具有此功能。

另一個鏈路層修改與流控制有關?!霸阪溌芳墑e有一個基于信用的流量控制機制,”Ames 說。

最后,標準以太網通常會為流或事務選擇一條路徑,并在事務期間堅持使用。如果選擇了擁塞或其他受損的路徑,則該事務可能需要很長時間才能在任何必要的重試后完全到達。數據包噴射是一項可選功能,允許源為每個數據包做出單獨的路徑決策。

Ames 通過將其與標準以太網進行比較來描述它?!叭绻?jié)點 A 與節(jié)點 Q 通信,則通過一條路徑,如果節(jié)點 A 與節(jié)點 X 通信,則可能會采用不同的路徑,”他解釋說。“這就是多路徑在常規(guī)以太網中的工作方式。使用數據包噴射,您可以通過不同的鏈路發(fā)送數據包,網絡將在遠端處理重組。但通常這只是一次數據傳輸,所以如果事情不按順序到達也沒關系。

最終,這些功能提供了更快地移動數據包的選項,并且重試次數更少或更多。某些功能(例如安全性)可能會增加典型事務的延遲,但是當系統等待最后一個數據包到達時,尾部延遲是限制因素,而不是標稱延遲。是的,每筆交易的到達速度可能會慢一點,但由于最后一個數據包的提前到達,每個人都可以更快地開始。

與 UALink
Ultra 以太網的 1.0 規(guī)范類似的時間即將到來?!拔覀冋诳紤]在 4 月或 5 月發(fā)布,”Metz 說?!八鼘λ腥碎_放下載?!币坏┌l(fā)布,就可以快速創(chuàng)建終端節(jié)點,而路由上的交換機可能需要更長的時間來升級。

“最終,為端點使用 ASIC 比為交換機使用 ASIC 更快,”Metz 說?!耙话銇碚f,交換 ASIC 不是單一用途的,開發(fā)周期比端點長得多。它們比端點有更多的功能要求,并且必須經過大量的回歸測試。

盡管 UEC 使用的是由 IEEE 管理的標準以太網,但它計劃持續(xù)保持超級以太網控制,而不是將結果交給 IEEE 處理?!癠EC 是一個標準組織,”Metz 解釋說。“我們確實與 IEEE 建立了合作關系,與他們合作并共享信息,但 Ultra Ethernet 是一種 UEC 協議?!?/p>

挑戰(zhàn)在于,IEEE可以在Ultra Ethernet 1.0鎖定后對其鏈路層進行一些更改?,F在,鏈路層的 IEEE 和超級以太網版本不同,它們可能仍然不同。該組織意識到了這一挑戰(zhàn),并通過與與以太網有關系的組織保持溝通來應對這一挑戰(zhàn)。

“我們正在與 IEEE、OCP、OIF、SNIA、以太網聯盟和 UALink 聯盟合作,我們都在共同努力,以確保不會發(fā)生這種分叉,”Metz 說。UALink Consortium 證實他們正在以類似的方式工作。

事實上,一個方面已經在發(fā)揮作用——為 400 Gbps PHY 做準備,預計可能在 2028/9 年的時間范圍內。這似乎很遙遠,但已經在進行討論,以協調任何將依賴該 PHY 的組織之間的努力。最終,目標是所有衍生產品都可以基于一組統一的基本以太網功能進行構建。

結論
目前尚不清楚 HPC 本身是否能證明在這些新協議中付出的努力是合理的,但 AI 無處不在,而且它更像是 HPC 的殺手級應用程序。HPC 當然可以順勢而為,即使發(fā)送的交易的具體細節(jié)可能與 AI 不同。甚至 AI 也會在不同時間有不同的交易風格。正是出于這個原因,存在各種選項,Ultra Ethernet 允許發(fā)送者選擇適合給定交易的最佳語義。

有趣的是,這兩項努力幾乎同時到期,盡管兩個組織之間沒有協調。鑒于規(guī)范將在 2025 年上半年推出,可能會有一個審查期,在此期間,公司會在采用之前評估規(guī)范。然后將它們加工成硅至少需要一年時間,因此這些協議可能會在 2026 年底開始出現在數據中心。



評論


相關推薦

技術專區(qū)

關閉