新聞中心

EEPW首頁 > 設計應用 > AI網(wǎng)絡架構(gòu)或?qū)⑦M入“無交換機”時代

AI網(wǎng)絡架構(gòu)或?qū)⑦M入“無交換機”時代

作者: 時間:2025-06-12 來源:電子產(chǎn)品世界 收藏

在當今數(shù)字化時代,人工智能()技術(shù)的飛速發(fā)展正在重塑各個領(lǐng)域的基礎設施,其中包括支撐運行的。傳統(tǒng)的數(shù)據(jù)中心為核心,構(gòu)建了層級化的數(shù)據(jù)傳輸路徑。然而,隨著大模型訓練規(guī)模的爆炸性增長,這種傳統(tǒng)正面臨前所未有的挑戰(zhàn)。

本文引用地址:http://2s4d.com/article/202506/471301.htm

大模型訓練帶來了超密集的GPU/GPU通信需求。以目前主流的大語言模型為例,訓練過程中需要在數(shù)千甚至上萬張GPU之間頻繁交換海量數(shù)據(jù)。這些GPU之間的通信不再是傳統(tǒng)意義上的“服務器間通信”,而更像是“芯片間通信”。在這種情況下,數(shù)據(jù)中心已不再是簡單的“服務器的集群”,而是演變?yōu)椤靶酒募骸薄?/p>

想象一下,如果我們把傳統(tǒng)數(shù)據(jù)中心比作一個城市交通系統(tǒng),那么服務器就像是分布在城市各處的辦公樓,而則是連接這些辦公樓的道路。但在AI時代,這個比喻已經(jīng)不再貼切?,F(xiàn)在的AI數(shù)據(jù)中心更像是一個超大型工廠,每個GPU就像工廠中的一個工作站,它們需要高頻率、低延遲地交換半成品,任何傳輸延遲都會顯著影響整體生產(chǎn)效率。

在這種背景下,一個核心問題浮出水面:如果芯片間可以直接連接,還需要存在嗎?這就像是在問:如果工廠中的每個工作站都可以通過傳送帶直接相連,我們還需要中間的物流中轉(zhuǎn)站嗎?這個問題引發(fā)了對“無交換機網(wǎng)絡”可能性的深入思考。

640.jpeg

什么是“無交換機網(wǎng)絡”設想?

所謂“無交換機網(wǎng)絡”并非完全沒有交換功能,而是指不再依賴傳統(tǒng)的ToR(Top of Rack)/Leaf/Spine層級交換機拓撲結(jié)構(gòu)的網(wǎng)絡架構(gòu)。在這種設想中,芯片/節(jié)點之間通過直接互聯(lián)、片上網(wǎng)絡或光互聯(lián)等技術(shù)實現(xiàn)數(shù)據(jù)交換,而不必經(jīng)過多層交換機的轉(zhuǎn)發(fā)。

如果繼續(xù)使用工廠的比喻,傳統(tǒng)網(wǎng)絡架構(gòu)就像是工廠中的物料需要先送到車間集散點,再送到樓層集散中心,最后通過中央物流中心才能到達另一個車間。而“無交換機網(wǎng)絡”則是在工作站之間建立直接的傳送帶,物料可以直接從一個工作站傳送到另一個工作站,大大減少了中轉(zhuǎn)環(huán)節(jié)和時間。

“無交換機網(wǎng)絡”的發(fā)展主要沿著兩條路徑演進:

路徑一:從“交換機集中化”向“連接分布式”演進

這條路徑的代表是NVIDIA的NVLink/NVSwitch技術(shù)。在傳統(tǒng)架構(gòu)中,數(shù)據(jù)交換集中在網(wǎng)絡交換機上進行。而在NVLink/NVSwitch架構(gòu)中,交換功能被分散到各個計算節(jié)點或?qū)S玫慕粨Q芯片上,形成一種分布式的交換網(wǎng)絡。這就像是取消了工廠中的中央物流中心,而是在每個車間或工作站附近設置小型的物料中轉(zhuǎn)站,使物料傳輸路徑更短、更直接。

路徑二:從“網(wǎng)絡設備”向”連接芯片”過渡

這條路徑的代表是晶圓級網(wǎng)絡和Chiplet互聯(lián)技術(shù)。它將網(wǎng)絡功能進一步下沉到芯片級別,甚至集成到計算芯片內(nèi)部。這就像是將物流系統(tǒng)直接集成到工作站內(nèi)部,工作站不僅具備加工功能,還具備物料傳輸和調(diào)度功能。在這種架構(gòu)下,傳統(tǒng)意義上的“網(wǎng)絡”概念被徹底重構(gòu),變成了芯片內(nèi)部或芯片間的直接互聯(lián)。

這兩條路徑雖然出發(fā)點不同,但都指向同一個目標:減少數(shù)據(jù)傳輸?shù)闹虚g環(huán)節(jié),降低延遲,提高帶寬,更好地滿足AI計算對網(wǎng)絡的極高要求。

驅(qū)動“無交換機”趨勢的核心力量

1. GPU計算集群的密度爆炸

隨著AI模型規(guī)模的不斷擴大,GPU計算集群的規(guī)模和密度也呈爆炸式增長。當前主流的大語言模型訓練已經(jīng)從早期的數(shù)百卡規(guī)模擴展到萬卡級AI訓練集群。在這種超大規(guī)模集群中,網(wǎng)絡瓶頸已經(jīng)成為制約性能提升的主要矛盾。

傳統(tǒng)的多層交換網(wǎng)絡架構(gòu)在面對如此密集的計算節(jié)點時,不可避免地引入了額外的延遲、功耗和路徑不可預測性。以一個典型的三層Clos網(wǎng)絡為例,數(shù)據(jù)包從一個GPU傳輸?shù)搅硪粋€GPU可能需要經(jīng)過6-7跳的交換機轉(zhuǎn)發(fā)。每一跳都會增加約1-5微秒的延遲,累積起來就會顯著影響訓練性能。

在我們的工廠比喻中,這就像是隨著工廠規(guī)模的擴大,物流中轉(zhuǎn)站越來越多,物料在各個中轉(zhuǎn)站之間的傳輸時間甚至超過了加工時間本身。工人們大部分時間都在等待物料到達,而不是進行實際生產(chǎn)。這顯然是極其低效的。

此外,多層交換架構(gòu)的功耗問題也不容忽視。據(jù)估計,在大型AI訓練集群中,網(wǎng)絡設備的功耗可能占到總功耗的15-20%。隨著集群規(guī)模的擴大,這一比例還會進一步提高。在能源成本和碳排放日益受到關(guān)注的今天,降低網(wǎng)絡功耗已成為設計高效AI基礎設施的重要考量因素。

2. 封裝技術(shù)演進:Chiplet + Co-Packaged Optics

芯片封裝技術(shù)的革新是推動“無交換機”趨勢的另一個重要力量。傳統(tǒng)的單芯片設計面臨著摩爾定律放緩的挑戰(zhàn),而Chiplet技術(shù)通過將多個小芯片集成在同一封裝內(nèi),為高性能計算提供了新的可能性。

在Chiplet架構(gòu)中,同封異構(gòu)互聯(lián)正在逐步替代傳統(tǒng)的板間通信。數(shù)據(jù)不再需要“上機架”,而是直接“走芯片”,大大減少了通信延遲和功耗。例如,AMD的EPYC處理器采用Chiplet設計,將多個計算芯片通過高速互聯(lián)總線連接在一起,形成一個統(tǒng)一的處理單元。這種設計理念也正在被應用到AI芯片領(lǐng)域。

與Chiplet技術(shù)相輔相成的是Co-Packaged Optics(CPO)技術(shù)。CPO將光學收發(fā)器與交換芯片或處理器集成在同一封裝內(nèi),實現(xiàn)電信號與光信號的高效轉(zhuǎn)換。這種技術(shù)可以顯著提高數(shù)據(jù)傳輸距離和帶寬,同時降低功耗。目前,英特爾、博通等公司都在積極推進CPO技術(shù)的商用化。

回到我們的工廠比喻,這就像是將原本分散在不同車間的工作站整合到同一個超大型工作平臺上,工作站之間通過內(nèi)部傳送帶直接連接,無需經(jīng)過外部物流系統(tǒng)。同時,為了連接較遠距離的工作平臺,我們使用高速傳送帶代替?zhèn)鹘y(tǒng)的物流車輛,實現(xiàn)更快速、更高效的物料傳輸。

3. 網(wǎng)絡智能化趨勢

網(wǎng)絡智能化是推動“無交換機”趨勢的第三個核心力量。傳統(tǒng)網(wǎng)絡架構(gòu)中,路由和轉(zhuǎn)發(fā)決策主要由交換機完成。而隨著DPU(數(shù)據(jù)處理單元)和SmartNIC(智能網(wǎng)卡)的興起,這些功能正在向網(wǎng)絡邊緣遷移。

DPU和SmartNIC提供了“端到端路徑調(diào)度能力”,使得交換轉(zhuǎn)發(fā)功能可以下沉到計算節(jié)點本身。例如,NVIDIA的BlueField DPU和英特爾的IPU都具備強大的網(wǎng)絡處理能力,可以卸載主機CPU的網(wǎng)絡處理負擔,同時提供更靈活的網(wǎng)絡功能。

在這種趨勢下,AI網(wǎng)絡不再依賴集中控制,而是向“邊緣即網(wǎng)絡”的方向演進。每個計算節(jié)點都成為網(wǎng)絡的一部分,具備自主的路由和轉(zhuǎn)發(fā)能力。這種分布式的網(wǎng)絡架構(gòu)更適合AI工作負載的特點,可以根據(jù)實際通信需求動態(tài)調(diào)整網(wǎng)絡路徑,提高網(wǎng)絡利用率。

這就相當于每個工作站都配備了智能調(diào)度系統(tǒng),可以根據(jù)生產(chǎn)需求自主決定物料的傳輸路徑,而不必依賴中央調(diào)度中心。工作站之間可以直接協(xié)商,選擇最優(yōu)的物料傳輸方案,大大提高了生產(chǎn)效率和靈活性。

這三股力量——GPU計算集群的密度爆炸、封裝技術(shù)的演進和網(wǎng)絡智能化趨勢——共同推動著AI網(wǎng)絡架構(gòu)向“無交換機”方向演進。它們從不同角度解決了傳統(tǒng)網(wǎng)絡架構(gòu)面臨的挑戰(zhàn),為AI計算提供了更高效、更靈活的網(wǎng)絡基礎設施。

已有探索:無交換/弱交換架構(gòu)實例

1. NVIDIA NVLink / NVSwitch 架構(gòu)

NVIDIA的NVLink和NVSwitch技術(shù)是當前最成熟的無交換/弱交換架構(gòu)實例之一。NVLink是NVIDIA開發(fā)的高速互連技術(shù),最初用于GPU與GPU之間的直接通信,后來擴展到GPU與CPU、GPU與存儲設備之間的通信。

在最新的H100/H200 GPU架構(gòu)中,第四代NVLink提供了高達900GB/s的雙向帶寬,遠超傳統(tǒng)PCIe接口的帶寬。這使得GPU之間可以高效地共享數(shù)據(jù),而無需通過主機內(nèi)存或外部網(wǎng)絡進行中轉(zhuǎn)。

NVSwitch則是基于NVLink技術(shù)的專用交換芯片,可以將多個GPU連接成一個全連接網(wǎng)絡。在NVIDIA DGX系統(tǒng)中,多個NVSwitch芯片協(xié)同工作,構(gòu)建了一個“芯片網(wǎng)絡”,使得系統(tǒng)內(nèi)的所有GPU都可以以接近本地內(nèi)存訪問的速度相互通信。

以DGX H100為例,一個系統(tǒng)內(nèi)的8個H100 GPU通過NVSwitch全連接,形成一個統(tǒng)一的計算資源池。多個DGX系統(tǒng)之間則通過NVIDIA Quantum-2 InfiniBand網(wǎng)絡連接,構(gòu)成更大規(guī)模的集群。在這種架構(gòu)中,系統(tǒng)內(nèi)部的GPU通信幾乎完全繞過了傳統(tǒng)網(wǎng)絡路徑,大大降低了通信延遲和帶寬限制。

在我們的工廠比喻中,NVLink/NVSwitch架構(gòu)就像是在工廠內(nèi)部建立了一套高速傳送帶系統(tǒng),將相關(guān)工作站直接連接起來,形成一個緊密協(xié)作的工作單元。這些工作單元內(nèi)部的物料傳輸速度極快,幾乎沒有延遲,大大提高了生產(chǎn)效率。

2. Cerebras Wafer-Scale Engine

Cerebras的Wafer-Scale Engine(WSE)代表了另一種極端的無交換架構(gòu)思路——將整個神經(jīng)網(wǎng)絡處理器集成在一個晶圓上,從根本上消除了跨芯片通信的需求。

傳統(tǒng)的AI芯片,如GPU或TPU,都是將一個大型晶圓切割成多個獨立芯片,然后通過封裝和外部互連技術(shù)連接起來。而Cerebras的WSE則保留了整個晶圓的完整性,將其作為一個超大型處理器使用。最新的WSE-2包含2.6萬億個晶體管和85萬個AI優(yōu)化核心,所有核心都在同一片硅上,通過片內(nèi)互連網(wǎng)絡相連。

這種設計完全消除了傳統(tǒng)AI系統(tǒng)中的跨芯片通信瓶頸,構(gòu)建了一個“片內(nèi)AI網(wǎng)絡”,具有幾乎無延遲、無Hop數(shù)的特點。在WSE上訓練神經(jīng)網(wǎng)絡時,所有計算和數(shù)據(jù)傳輸都在同一片硅上完成,無需經(jīng)過任何外部網(wǎng)絡設備。

Cerebras WSE就像是將整個生產(chǎn)線集成在一個超大型工作平臺上,所有工序都在這個平臺上完成,無需任何外部物流。這種設計極大地簡化了生產(chǎn)流程,提高了效率,但也面臨著規(guī)模擴展的挑戰(zhàn)——當需要更大的生產(chǎn)能力時,不能簡單地增加更多工作平臺,而需要設計更大的單一平臺。

但晶圓級設計的良率和成本挑戰(zhàn)較高,可能影響實際大規(guī)模部署。

3. Microsoft Optical Mesh

Optical Mesh是微軟探索的一種基于光互聯(lián)的數(shù)據(jù)中心網(wǎng)絡架構(gòu)。在這種架構(gòu)中,計算節(jié)點通過光纖直接連接,形成一個網(wǎng)狀網(wǎng)絡,減少了傳統(tǒng)交換機的層級。結(jié)合端點智能調(diào)度技術(shù),這種架構(gòu)可以根據(jù)實際通信需求動態(tài)調(diào)整網(wǎng)絡拓撲,提高網(wǎng)絡利用率和靈活性。

微軟的這些探索表明,光互聯(lián)技術(shù)結(jié)合端點調(diào)度可能是重構(gòu)AI數(shù)據(jù)中心通信架構(gòu)的重要方向。光通信的高帶寬、低延遲和低功耗特性,使其成為支撐下一代AI基礎設施的理想選擇。

這好比是用光束代替?zhèn)鹘y(tǒng)的傳送帶連接各個工作站,光束可以根據(jù)需要動態(tài)調(diào)整方向和強度,實現(xiàn)更靈活、更高效的物料傳輸。

4. AWS Nitro架構(gòu)中的極簡網(wǎng)絡分層

亞馬遜AWS的Nitro架構(gòu)代表了另一種弱交換網(wǎng)絡思路——通過功能卸載和軟件定義,實現(xiàn)“極少交換機+ 軟件網(wǎng)絡路徑控制”的網(wǎng)絡架構(gòu)。

在Nitro架構(gòu)中,傳統(tǒng)服務器的網(wǎng)絡、存儲和安全功能被卸載到專用的Nitro卡上,這些卡類似于DPU,具備強大的網(wǎng)絡處理能力。Nitro卡接管了虛擬機與外部網(wǎng)絡的通信,實現(xiàn)了網(wǎng)絡功能的虛擬化和軟件定義。

這種架構(gòu)大大簡化了物理網(wǎng)絡的復雜性,減少了交換機層級,同時通過軟件定義實現(xiàn)了更靈活的網(wǎng)絡控制。在Nitro架構(gòu)支持的EC2實例中,虛擬機之間的通信可以通過Nitro卡直接完成,無需經(jīng)過傳統(tǒng)的網(wǎng)絡路徑。

AWS Nitro架構(gòu)雖然沒有完全消除交換機,但通過功能卸載和軟件定義,大大減少了對物理交換設備的依賴,代表了網(wǎng)絡架構(gòu)簡化和智能化的重要趨勢。

在工廠比喻中,這就像是在每個工作站配備了智能物流控制器,這些控制器可以直接協(xié)商物料傳輸路徑,減少了對中央物流系統(tǒng)的依賴,同時保持了整體生產(chǎn)的協(xié)調(diào)性。

5. 星融元星智AI網(wǎng)絡架構(gòu)

星融元(Asterfusion)的星智AI網(wǎng)絡架構(gòu)提出了一種針對大模型訓練優(yōu)化的扁平化網(wǎng)絡架構(gòu),通過重新設計網(wǎng)絡拓撲和通信路徑,大幅降低了網(wǎng)絡復雜度和通信延遲。通過消除跨GPU服務器不同GPU卡號之間的連接,只保留與GPU直接相連的Leaf層交換機,并將原本用于上連Spine的端口全部用于下連GPU。這種設計基于一個核心問題:在AI訓練中,相同編號的GPU卡之間的通信需求最為頻繁和關(guān)鍵。

具體實現(xiàn)上,星智AI網(wǎng)絡要求不同智算節(jié)點服務器間相同編號的網(wǎng)口連接到同一臺交換機。例如,所有服務器的1號RDMA網(wǎng)口都連接到1號交換機,所有服務器的2號RDMA網(wǎng)口都連接到2號交換機,以此類推。同時,在智算服務器內(nèi)部,上層通信庫基于機內(nèi)網(wǎng)絡拓撲進行網(wǎng)絡匹配,讓相同編號的GPU卡和相同編號的網(wǎng)口關(guān)聯(lián)。

這種設計使得相同GPU編號的兩臺智算節(jié)點間僅需一跳就可互通,大大降低了通信延遲。對于不同GPU編號的智算節(jié)點間通信,星融元利用NCCL通信庫中的Rail Local技術(shù),充分利用主機內(nèi)GPU間的NVSwitch帶寬,將多機間的跨卡號互通轉(zhuǎn)換為跨機間的同GPU卡號互通。

總的來說,上述這些無交換/弱交換架構(gòu)實例從不同角度探索了傳統(tǒng)網(wǎng)絡架構(gòu)的替代方案,為AI網(wǎng)絡的未來發(fā)展提供了重要參考。雖然它們各有優(yōu)缺點,但都指向同一個方向——通過減少中間環(huán)節(jié)、增強端點智能、利用新型互連技術(shù),構(gòu)建更高效、更靈活的AI網(wǎng)絡基礎設施。

如果進入無交換機時代,會帶來什么變化?

1. 拓撲不再關(guān)鍵,布局將變成“平面陣列”

在傳統(tǒng)網(wǎng)絡架構(gòu)中,網(wǎng)絡拓撲是核心設計要素。Fat Tree、Clos、Spine-Leaf等拓撲結(jié)構(gòu)各有優(yōu)缺點,網(wǎng)絡設計師需要根據(jù)應用場景選擇合適的拓撲結(jié)構(gòu)。然而,在無交換機時代,拓撲的重要性將大大降低。

拓撲的本質(zhì)是解決“繞線”問題——如何在有限的物理空間內(nèi),通過合理的線纜布局,實現(xiàn)節(jié)點之間的高效連接。但如果節(jié)點可以直接連接,或者通過更高級的互連技術(shù)(如光互聯(lián))實現(xiàn)任意節(jié)點間的直接通信,那么傳統(tǒng)拓撲的意義就會減弱。

在無交換機架構(gòu)中,網(wǎng)絡布局將更傾向于“平面陣列”——計算節(jié)點按照物理距離和通信需求排列,形成一個二維或三維的陣列結(jié)構(gòu)。這種結(jié)構(gòu)更像是一個均質(zhì)的計算網(wǎng)格,而非傳統(tǒng)的層級化網(wǎng)絡。

回到我們的工廠比喻,這就像是從“中央物流+分支配送”模式轉(zhuǎn)變?yōu)椤肮ぷ髡揪W(wǎng)格”模式。在前一種模式中,工廠布局需要考慮物流中心的位置和配送路線;而在后一種模式中,工作站可以直接相連,布局更加靈活,更多地考慮實際生產(chǎn)需求而非物流限制。

這種變化將深刻影響數(shù)據(jù)中心的物理設計。傳統(tǒng)數(shù)據(jù)中心的機架排列主要考慮網(wǎng)絡拓撲和布線需求,而未來的AI數(shù)據(jù)中心可能更多地考慮計算密度、散熱效率和直接互連的便利性。

2. 網(wǎng)絡協(xié)議將更“端智能化”

在無交換機架構(gòu)中,傳統(tǒng)的L2/L3網(wǎng)絡協(xié)議的作用將被大大削弱,取而代之的是更加智能化的端點協(xié)議和調(diào)度機制。

傳統(tǒng)網(wǎng)絡中,路由和轉(zhuǎn)發(fā)決策主要由交換機和路由器完成,端點(服務器、工作站等)只負責發(fā)送和接收數(shù)據(jù)。而在無交換機架構(gòu)中,這些功能將下沉到DPU、SmartNIC或計算芯片本身,每個端點都成為一個“微型調(diào)度單元”。

這種變化將催生新型的網(wǎng)絡協(xié)議和調(diào)度算法。這些協(xié)議不再關(guān)注如何在復雜的網(wǎng)絡拓撲中找到最優(yōu)路徑,而是更關(guān)注如何在直連或少跳的網(wǎng)絡中實現(xiàn)高效的帶寬分配和流量控制。例如,RDMA(遠程直接內(nèi)存訪問)技術(shù)已經(jīng)在高性能計算領(lǐng)域廣泛應用,它允許網(wǎng)卡直接訪問遠程主機的內(nèi)存,繞過操作系統(tǒng)和傳統(tǒng)網(wǎng)絡協(xié)議棧,大大降低了通信延遲。

在AI訓練場景中,更智能的調(diào)度算法可以根據(jù)訓練過程中的通信模式動態(tài)調(diào)整網(wǎng)絡資源分配。例如,在模型并行訓練中,不同GPU負責模型的不同部分,它們之間的通信模式是相對固定的。智能調(diào)度算法可以識別這些模式,預先建立優(yōu)化的通信路徑,進一步提高訓練效率。

這就像是每個工作站都配備了智能調(diào)度系統(tǒng),可以根據(jù)生產(chǎn)需求自主決定物料的傳輸路徑和優(yōu)先級。工作站之間可以直接協(xié)商,無需中央調(diào)度中心的干預,實現(xiàn)更高效、更靈活的生產(chǎn)協(xié)作。

3. 運維和可觀測性范式轉(zhuǎn)變

無交換機架構(gòu)的興起也將帶來運維和可觀測性范式的轉(zhuǎn)變。在傳統(tǒng)網(wǎng)絡中,運維人員主要關(guān)注交換機的狀態(tài)、流量統(tǒng)計和日志分析。而在無交換機架構(gòu)中,這些關(guān)注點將轉(zhuǎn)移到芯片行為、鏈路健康和端點狀態(tài)上。

網(wǎng)絡監(jiān)控工具將需要適應這種變化,提供更細粒度、更實時的觀測能力。例如,監(jiān)控每個DPU或SmartNIC的狀態(tài)、跟蹤直連鏈路的健康狀況、分析端點間的通信模式等。這些工具需要能夠處理更大規(guī)模、更高頻率的監(jiān)控數(shù)據(jù),并提供更智能的分析和異常檢測能力。

數(shù)字孿生技術(shù)在這一領(lǐng)域?qū)⒆兊酶又匾?。通過建立網(wǎng)絡的數(shù)字孿生模型,運維人員可以實時監(jiān)控網(wǎng)絡狀態(tài),模擬不同場景下的網(wǎng)絡行為,預測潛在問題,并優(yōu)化網(wǎng)絡配置。這種技術(shù)已經(jīng)在傳統(tǒng)網(wǎng)絡中有所應用,但在更復雜、更動態(tài)的無交換機架構(gòu)中,其價值將更加凸顯。

在工廠比喻中,這就像是從關(guān)注物流系統(tǒng)的運行狀態(tài)轉(zhuǎn)變?yōu)殛P(guān)注每個工作站和傳送帶的工作狀態(tài)。運維人員不再需要監(jiān)控中央物流系統(tǒng)的運行情況,而是需要確保每個工作站的調(diào)度系統(tǒng)正常運行,每條傳送帶都處于健康狀態(tài),整個生產(chǎn)網(wǎng)絡高效協(xié)同。

這種范式轉(zhuǎn)變將要求網(wǎng)絡運維人員掌握新的技能和工具,更深入地理解計算和網(wǎng)絡的融合,以及如何在這種新型架構(gòu)中保障系統(tǒng)的可靠性、安全性和性能。

為什么“無交換機”短期仍難實現(xiàn)?

1. 大規(guī)模跨芯片通信仍需交換系統(tǒng)

盡管無交換機網(wǎng)絡在理論上具有諸多優(yōu)勢,但在實際應用中,大規(guī)??缧酒ㄐ湃匀浑x不開交換系統(tǒng)的支持。當前的晶圓級網(wǎng)絡和封裝級網(wǎng)絡雖然在局部范圍內(nèi)實現(xiàn)了高效互聯(lián),但它們難以大范圍伸展,主要受限于封裝密度和物理距離。

以Cerebras的WSE為例,雖然在單個晶圓內(nèi)實現(xiàn)了無交換互聯(lián),但當需要多個WSE協(xié)同工作時,仍然需要外部網(wǎng)絡連接。同樣,NVIDIA的NVLink/NVSwitch雖然在單個DGX系統(tǒng)內(nèi)實現(xiàn)了高效互聯(lián),但跨DGX系統(tǒng)的通信仍依賴InfiniBand或以太網(wǎng)等傳統(tǒng)網(wǎng)絡技術(shù)。

這種局限性源于物理學基本原理的約束。隨著距離的增加,直接互聯(lián)的成本和復雜性呈指數(shù)級增長。在當前技術(shù)條件下,跨機架、跨數(shù)據(jù)中心的通信仍然需要傳統(tǒng)交換結(jié)構(gòu)的支持。

640.png

在我們的工廠比喻中,這就像是工作站之間的直接傳送帶只適用于近距離傳輸。當需要跨越較大距離或連接大量工作站時,仍然需要中央物流系統(tǒng)的支持。完全取消中央物流系統(tǒng),用直接傳送帶連接所有工作站,在物理上是不可行的,成本也會過高。

此外,隨著AI模型規(guī)模的不斷增長,訓練所需的GPU數(shù)量也在增加。當GPU數(shù)量達到數(shù)萬甚至數(shù)十萬時,完全依靠直接互聯(lián)已經(jīng)不再現(xiàn)實。在這種超大規(guī)模場景下,分層次的網(wǎng)絡架構(gòu)仍然是必要的,只是每一層的設計理念和技術(shù)實現(xiàn)可能會發(fā)生變化。

2. 交換芯片仍是“調(diào)度”、“隔離”、“可視性”的基礎設施

交換芯片在網(wǎng)絡中扮演的角色遠不止簡單的數(shù)據(jù)轉(zhuǎn)發(fā)。它們還承擔著流量調(diào)度、網(wǎng)絡隔離和可視性保障等重要功能,這些功能在短期內(nèi)難以完全由端點設備替代。

在流量調(diào)度方面,交換芯片通過復雜的隊列管理和擁塞控制算法,確保網(wǎng)絡資源的公平分配和高效利用。雖然DPU等設備具備一定的網(wǎng)絡處理能力,但它們尚不足以獨立承擔整個網(wǎng)絡的調(diào)度職能,特別是在大規(guī)模、多租戶的環(huán)境中。

網(wǎng)絡隔離是多租戶云環(huán)境中的關(guān)鍵需求。交換芯片通過VLAN、ACL等技術(shù),實現(xiàn)了不同租戶之間的網(wǎng)絡隔離,保障了數(shù)據(jù)安全和性能隔離。這些功能如果完全下放到端點設備,將大大增加端點的復雜性和安全風險。

可視性是網(wǎng)絡運維的基礎。傳統(tǒng)交換機提供了豐富的監(jiān)控和統(tǒng)計功能,幫助運維人員了解網(wǎng)絡狀態(tài)、排查問題。如果沒有這些中心化的觀測點,網(wǎng)絡問題的定位和解決將變得更加困難。

交換芯片就像是物流中心的調(diào)度系統(tǒng),不僅負責物料的傳輸,還負責協(xié)調(diào)不同生產(chǎn)線之間的物料分配,確保生產(chǎn)安全,監(jiān)控整個物流系統(tǒng)的運行狀態(tài)。如果取消這個中心調(diào)度系統(tǒng),僅依靠工作站之間的直接協(xié)商,將難以保證整個工廠的高效、安全運行,特別是在大規(guī)模、多產(chǎn)品線的復雜環(huán)境中。

3. 現(xiàn)有生態(tài)深度綁定以太網(wǎng)/IP協(xié)議

技術(shù)演進不僅受物理限制,還受生態(tài)系統(tǒng)的約束。當前的軟件系統(tǒng)、云平臺和應用程序都深度綁定了以太網(wǎng)/IP協(xié)議棧,這種綁定構(gòu)成了無交換機網(wǎng)絡普及的另一個重要障礙。

以太網(wǎng)和IP協(xié)議經(jīng)過數(shù)十年的發(fā)展,已經(jīng)形成了完善的標準體系和龐大的生態(tài)系統(tǒng)。從網(wǎng)絡設備到操作系統(tǒng),從應用程序到管理工具,都是基于這些協(xié)議設計的。任何試圖替代這些協(xié)議的新技術(shù),都將面臨巨大的生態(tài)遷移成本。

云平臺和虛擬化技術(shù)更是將交換架構(gòu)作為基礎的“組織框架”。虛擬網(wǎng)絡、軟件定義網(wǎng)絡(SDN)、網(wǎng)絡功能虛擬化(NFV)等技術(shù),都是在傳統(tǒng)交換架構(gòu)的基礎上構(gòu)建的。這些技術(shù)已經(jīng)深度整合到現(xiàn)代IT基礎設施中,短期內(nèi)難以完全替代。

這就像是整個工業(yè)體系都已經(jīng)適應了中央物流+分支配送的模式。從工廠布局到生產(chǎn)流程,從管理系統(tǒng)到員工培訓,都是圍繞這種模式設計的。即使有更先進的物流方式,也需要漫長的過渡期才能完全替代現(xiàn)有模式。

此外,網(wǎng)絡安全、合規(guī)性和互操作性等考量也使得企業(yè)和云服務提供商難以快速采用革命性的網(wǎng)絡架構(gòu)。在關(guān)鍵業(yè)務系統(tǒng)中,穩(wěn)定性和可靠性往往比性能更重要,這也是傳統(tǒng)網(wǎng)絡架構(gòu)在企業(yè)環(huán)境中持續(xù)存在的重要原因。

綜上所述,雖然無交換機網(wǎng)絡在特定場景下展現(xiàn)出了巨大潛力,但受限于物理約束、功能需求和生態(tài)系統(tǒng)慣性,它在短期內(nèi)難以完全替代傳統(tǒng)交換架構(gòu)。更可能的情況是,兩種架構(gòu)將在相當長的時間內(nèi)共存,各自在適合的場景中發(fā)揮作用,并在技術(shù)演進中相互借鑒、融合。

交換機不會“消失”,但角色正被重塑

通過對AI網(wǎng)絡架構(gòu)演進趨勢的全面分析,我們可以得出一個相對平衡的結(jié)論:交換機不會完全“消失”,但其角色正在被重塑。

傳統(tǒng)意義上的交換機作為網(wǎng)絡的中心節(jié)點,承擔著數(shù)據(jù)轉(zhuǎn)發(fā)、路由決策、流量控制等核心功能。而在AI驅(qū)動的新型網(wǎng)絡架構(gòu)中,這些功能正在被重新分配和重新定義。一部分功能下沉到了計算芯片或DPU,一部分功能被集成到了新型互連技術(shù)中,還有一部分功能被提升到了軟件定義的控制平面。

這種變化可以概括為從“中心控制”向“邊緣協(xié)同”的轉(zhuǎn)變。在傳統(tǒng)網(wǎng)絡中,交換機是控制中心,決定數(shù)據(jù)的流向和處理方式。而在新型網(wǎng)絡中,控制邏輯更多地分布在網(wǎng)絡邊緣,各個節(jié)點通過協(xié)同合作完成網(wǎng)絡功能。

同時,交換機的角色也在從“數(shù)據(jù)路徑”向“控制中樞”轉(zhuǎn)變。在傳統(tǒng)網(wǎng)絡中,交換機主要負責數(shù)據(jù)包的轉(zhuǎn)發(fā)和處理。而在新型網(wǎng)絡中,交換機更多地承擔網(wǎng)絡策略執(zhí)行、資源調(diào)度、安全保障等控制功能,而數(shù)據(jù)傳輸則更多地通過直接互聯(lián)或?qū)S猛ǖ劳瓿伞?/p>

因此,真正的“無交換機”時代,也許不是“沒有交換”,而是“交換無處不在”。交換功能不再集中在特定的物理設備上,而是分布在網(wǎng)絡的各個部分,融入到計算和存儲系統(tǒng)中,形成一個更加融合、更加智能的基礎設施。



關(guān)鍵詞: AI 網(wǎng)絡 架構(gòu) 交換機

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉