國產(chǎn)「十萬卡」集群開始落地
在人工智能飛速發(fā)展的當(dāng)下,算力已然成為核心競爭力的關(guān)鍵要素。由顯卡規(guī)模撐起的算力水平,是決定大模型性能的最重要指標(biāo)之一。一般認(rèn)為,1 萬枚英偉達(dá) A100 芯片,是做好 AI 大模型的算力門檻。
本文引用地址:http://2s4d.com/article/202506/471846.htm2024 年,我國智算中心建設(shè)駛?cè)肟燔嚨?,最明顯的感受就是萬卡集群項目加速落地。萬卡集群,是指由一萬張及以上 GPU、TPU 等專用 AI 加速芯片組成的高性能計算系統(tǒng),它深度融合高性能 GPU 計算、高速網(wǎng)絡(luò)通信、大容量并行文件存儲以及智能計算平臺等前沿技術(shù),將底層基礎(chǔ)設(shè)施整合成一臺超級強(qiáng)大的「算力巨獸」。借助這樣的集群,千億乃至萬億參數(shù)規(guī)模的大模型訓(xùn)練得以高效完成,大幅縮短模型迭代周期,助力 AI 技術(shù)快速進(jìn)化。
然而,隨著 AGI 的概念持續(xù)火熱,行業(yè)對算力的渴求愈發(fā)強(qiáng)烈,「萬卡集群」逐漸難以滿足爆發(fā)式增長的需求,算力領(lǐng)域的「軍備競賽」愈演愈烈。如今,十萬卡集群已成為全球頂尖大模型企業(yè)的「兵家必爭之地」,xAI、Meta、OpenAI 等國際巨頭紛紛布局,國內(nèi)企業(yè)也不甘示弱,積極投身這場算力角逐。
十萬卡集群挑戰(zhàn)巨大
在全球范圍內(nèi),OpenAI、微軟、xAI 和 Meta 等頭部科技公司競相構(gòu)建超 10 萬卡規(guī)模的 GPU 集群。這一宏大計劃背后,是驚人的資金投入,僅服務(wù)器成本就超過 40 億美元。此外,數(shù)據(jù)中心的空間限制、電力供應(yīng)不足等問題,也如同攔路虎,阻礙著項目推進(jìn)。
而在國內(nèi),建一個萬卡集群,單是 GPU 的采購成本就高達(dá)幾十億,因此國內(nèi)能夠部署萬卡規(guī)模集群的,原本就只有阿里、百度等寥寥幾家大廠。而想要部署十萬卡集群,其「燒錢」程度可想而知。
除了資金成本,十萬卡集群建設(shè)還面臨著諸多技術(shù)難題。
首先是電力與散熱的極限考驗。十萬卡 H100 集群僅關(guān)鍵 IT 設(shè)備就需約 150MW 電力,遠(yuǎn)超單個數(shù)據(jù)中心建筑的承載能力,需通過園區(qū)多建筑分布式部署實現(xiàn)電力分配,同時還要應(yīng)對電壓波動與穩(wěn)定性難題。而散熱系統(tǒng)更需匹配巨量熱負(fù)荷—高密度 GPU 運行時產(chǎn)生的熱量若無法及時疏導(dǎo),將直接導(dǎo)致設(shè)備宕機(jī),高效散熱方案的能耗與維護(hù)成本也需同步優(yōu)化。GPU 是一種很敏感的硬件,連一天之內(nèi)氣溫的波動,都會影響到 GPU 的故障率,而且規(guī)模越大,出故障的概率就越高。Meta 訓(xùn)練 llama3 的時候,用了 1.6 萬張 GPU 卡的集群,平均每 3 小時就會出一次故障。
此外,區(qū)別于傳統(tǒng) CPU 集群的串行特點,大模型訓(xùn)練過程需要全部顯卡同時參與并行計算,對網(wǎng)絡(luò)傳輸能力也提出了更大的挑戰(zhàn)。若采用胖樹拓?fù)鋵崿F(xiàn)全 GPU 高帶寬互聯(lián),四層交換的硬件成本將呈指數(shù)級增長,因此通常采用「計算島」模式:島內(nèi)以高帶寬保障通信效率,島間則降低帶寬以控制成本。但這要求在張量并行、數(shù)據(jù)并行等不同訓(xùn)練模式下,精準(zhǔn)平衡通信任務(wù)分配,避免因拓?fù)湓O(shè)計缺陷導(dǎo)致帶寬瓶頸。尤其當(dāng)模型規(guī)模突破萬億參數(shù)時,前端網(wǎng)絡(luò)的通信量會隨稀疏技術(shù)應(yīng)用急劇增加,延遲與帶寬的優(yōu)化需精細(xì)化權(quán)衡。
最后,相比于美國同行,中國大模型企業(yè)還面臨一重特殊的困難。由于總所周知的原因,國內(nèi)企業(yè)無法像馬斯克那樣全部采用英偉達(dá)方案,而是需要使用包括國產(chǎn) GPU 在內(nèi)的異構(gòu)芯片。這也意味著,即使同樣十萬張顯卡,國內(nèi)企業(yè)在算力規(guī)模上也很難同美國企業(yè)匹敵。
算力是大模型發(fā)展的核心,但算力的增長已從線性變?yōu)槠矫?。?gòu)建十萬卡集群不僅是算力的增長,還涉及技術(shù)和運營挑戰(zhàn),管理 10 萬卡集群與萬卡集群有本質(zhì)區(qū)別。
國產(chǎn)「十萬卡」集群加速落地
「芯片問題其實沒必要擔(dān)心,用疊加和集群等方法,計算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)??!谷A為總裁任正非的這番表態(tài),不僅增強(qiáng)了社會各界對中國 AI 發(fā)展的信心,也凸顯了集群計算在 AI 研發(fā)應(yīng)用中的關(guān)鍵地位。從曾經(jīng)的「萬卡集群」入場券,到如今「十萬卡集群」新目標(biāo),國內(nèi)智算中心建設(shè)不斷邁向新高度。
去年 9 月,一項瞄準(zhǔn)十萬卡超大規(guī)模算力的單體集群建設(shè)計劃——「算海計劃」二期宣布落地啟動。「算海計劃」取「海納百川、聚沙成塔」之義,劍指籌建面向模型訓(xùn)練的大規(guī)模單體集群。據(jù)介紹,「算海計劃」二期由北京并行科技股份有限公司(以下簡稱并行科技)發(fā)起,合作伙伴北京智譜華章科技有限公司、北京面壁智能科技有限責(zé)任公司、中國移動通信集團(tuán)湖北有限公司武漢分公司、中國聯(lián)合網(wǎng)絡(luò)通信有限公司武漢市分公司、中國電信股份有限公司武漢分公司、武漢大學(xué)信息中心、內(nèi)蒙古新東吉泰科技公司參與啟動儀式。在內(nèi)蒙古和林格爾,占地超 50 畝的「算海計劃」一期建設(shè)項目已于今年 5 月上線運營,該項目規(guī)劃有 4000 個 20kW 高功率智算機(jī)柜,最大可支持建設(shè) 6 萬卡規(guī)模的單體智算集群。在距離該項目不超過 100 米處,「算海計劃」二期項目已規(guī)劃上馬,二期將依托單一大集群進(jìn)行統(tǒng)一管理和調(diào)度,可容納高達(dá) 10 萬卡的強(qiáng)大算力資源。
2024 年 7 月底,甘肅億算智能科技有限公司已在慶陽投資 3.07 億元建成了中國首個國產(chǎn)萬卡推理集群。而在今年 6 月,甘肅億算及其生態(tài)合作伙伴計劃出資 55 億元,建設(shè)「國產(chǎn)十萬卡算力集群」,提供不低于 2.5 萬 P 算力服務(wù),預(yù)計于 2027 年 12 月 30 日前建成并投入使用。本次擬落地慶陽的十萬卡算力集群,計劃全部采用國產(chǎn)芯片與自主架構(gòu),深度融合慶陽能源優(yōu)勢與長三角技術(shù)勢能,構(gòu)建「西部算力+東部智慧」全國聯(lián)動,打造開放算力平臺,為 AI 大模型訓(xùn)練與科學(xué)計算筑牢「中國底座」。
字節(jié)跳動在智算領(lǐng)域的布局同樣雄心勃勃。2024 年,其資本開支達(dá) 800 億人民幣,接近 BAT 三家總和(約 1000 億人民幣)。預(yù)計 2025 年,這一數(shù)字將翻倍至 1600 億人民幣,其中 900 億用于 AI 算力采購,700 億投向數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)及配套硬件。據(jù)第三方機(jī)構(gòu)測算,以 400T (FP16) AI 算力卡為標(biāo)準(zhǔn),字節(jié)跳動當(dāng)前訓(xùn)練算力需求約為 26.73 萬張卡,文本推理算力需求約為 33.67 萬張卡,未來推理算力需求有望突破 230 萬張卡。
國產(chǎn) AI 芯片公司,得到利好
在這股熱潮中,有能力建設(shè)十萬卡集群的國產(chǎn) AI 芯片公司也將獲得利好。
在 6 月 20 日舉行的華為開發(fā)者大會 2025(HDC 2025)上,華為常務(wù)董事、華為云計算 CEO 張平安宣布,基于 CloudMatrix384 超節(jié)點的新一代昇騰 AI 云服務(wù)全面上線,為大模型應(yīng)用提供澎湃算力。 通過 432 節(jié)點級聯(lián),可構(gòu)建 16 萬卡超算集群,滿足十萬億參數(shù)級大模型訓(xùn)練需求,突破傳統(tǒng)架構(gòu)擴(kuò)展極限。
華為云新一代昇騰 AI 云服務(wù)基于 CloudMatrix384 超節(jié)點,首創(chuàng)將 384 顆昇騰 NPU 和 192 顆鯤鵬 CPU 通過全新高速網(wǎng)絡(luò) MatrixLink 全對等互聯(lián),形成一臺超級「AI 服務(wù)器」,單卡推理吞吐量躍升到 2300 Tokens/s。
超節(jié)點架構(gòu)能更好地支持混合專家 MoE 大模型的推理,可以實現(xiàn)「一卡一專家」,一個超節(jié)點可以支持 384 個專家并行推理,極大提升效率。同時,超節(jié)點還可以支持「一卡一算力任務(wù)」,靈活分配資源,提升任務(wù)并行處理,減少等待,將算力有效使用率(MFU)提升 50% 以上。同時,超節(jié)點還可以支持訓(xùn)推算力一體部署,如「日推夜訓(xùn)」,訓(xùn)推算力可靈活分配,幫助客戶資源使用最優(yōu)。
此外,百度的百舸 4.0 通過 HPN 高性能網(wǎng)絡(luò)、自動化混訓(xùn)切分策略、自研集合通信庫等一系列產(chǎn)品技術(shù)創(chuàng)新,已經(jīng)能夠?qū)崿F(xiàn)十萬卡集群的高效管理。
騰訊去年也宣布了自研星脈高性能計算網(wǎng)絡(luò)全面升級,星脈網(wǎng)絡(luò) 2.0 搭載全自研的網(wǎng)絡(luò)設(shè)備與 AI 算力網(wǎng)卡,能夠支持超 10 萬卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升 60%,讓大模型訓(xùn)練效率提升 20%。
阿里方面同樣釋出消息,阿里云可實現(xiàn)芯片、服務(wù)器、數(shù)據(jù)中心之間的高效協(xié)同,支持 10 萬卡量級的集群可擴(kuò)展規(guī)模,已服務(wù)全國一半的人工智能大模型企業(yè)。
算力互聯(lián)網(wǎng)和東數(shù)西算打通市場堵點
當(dāng)前,我國智能算力供不應(yīng)求的問題較為突出,大模型對算力的需求增速遠(yuǎn)超單顆 AI 芯片性能的提升步伐。相關(guān)報告顯示,2023 年,中國智能算力需求達(dá) 123.6EFLOPS,而供給僅為 57.9EFLOPS,供需缺口一目了然。利用集群互聯(lián)彌補(bǔ)單卡性能短板,或是現(xiàn)階段緩解 AI 算力荒最值得探索與實踐的有效途徑。
「十萬卡集群」建成后如何充分挖掘其應(yīng)用價值,使其在人工智能訓(xùn)練、大數(shù)據(jù)分析等適配場景發(fā)揮最大作用,杜絕資源空置與浪費現(xiàn)象的問題亟待解決。智算中心的建設(shè)只是一個開端,更重要的是后續(xù)的有效運用。也就是說,如何打通市場堵點才是關(guān)鍵。在此背景下,為解決相關(guān)市場堵點,算力互聯(lián)網(wǎng)和東數(shù)西算被提出并受到廣泛關(guān)注。
算力互聯(lián)網(wǎng),并非一張全新的網(wǎng)絡(luò),而是基于現(xiàn)有互聯(lián)網(wǎng),將各地分散的算力資源連接起來,借助標(biāo)準(zhǔn)化的算力標(biāo)識與協(xié)議接口,跨域?qū)崿F(xiàn)資源互聯(lián)網(wǎng)絡(luò),達(dá)成全網(wǎng)異構(gòu)算力的智能感知、實時發(fā)現(xiàn)與隨需獲取。簡單來說,它就是一張服務(wù)于算力流動的網(wǎng)絡(luò),旨在進(jìn)一步推動算力的互聯(lián)互通,盤活現(xiàn)有算力資源,提升使用效率,降低使用成本,為用戶帶來更優(yōu)質(zhì)的體驗。5 月 17 日,中國信通院會同三大運營商聯(lián)合啟動「算力互聯(lián)網(wǎng)試驗網(wǎng)」建設(shè),并發(fā)布《算力互聯(lián)網(wǎng)體系架構(gòu) 1.0》。這一舉措旨在面向通算、智算、超算,以及云、邊、端等公共算力資源,實現(xiàn)三家運營商自有算力和全國分散社會算力的互聯(lián),讓用戶能便捷地「找、調(diào)、用」算力。未來,用戶有望像按「千瓦時」用電一樣,按「卡時」靈活購買使用算力資源,實現(xiàn)用多少買多少的便捷服務(wù)。
而東數(shù)西算工程,則是通過構(gòu)建數(shù)據(jù)中心、云計算、大數(shù)據(jù)一體化的新型算力網(wǎng)絡(luò)體系,把東部的算力需求有序引導(dǎo)至西部,優(yōu)化數(shù)據(jù)中心建設(shè)布局,促進(jìn)東西部協(xié)同聯(lián)動。2022 年 2 月,國家在京津冀、長三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏 8 地啟動建設(shè)國家算力樞紐節(jié)點,并規(guī)劃 10 個國家數(shù)據(jù)中心集群,標(biāo)志著東數(shù)西算工程正式全面啟動。其核心目的是讓西部的算力資源更充分地支撐東部數(shù)據(jù)的運算,為數(shù)字化發(fā)展賦能。一方面,能緩解東部能源緊張問題;另一方面,為西部開辟新的發(fā)展道路。
通過算力互聯(lián)網(wǎng)和東數(shù)西算的協(xié)同推進(jìn),有望打通市場堵點,優(yōu)化算力資源配置,推動我國 AI 產(chǎn)業(yè)的持續(xù)健康發(fā)展。一方面,算力互聯(lián)網(wǎng)能實現(xiàn)算力資源的跨區(qū)域、跨行業(yè)流通,提升資源利用效率;另一方面,東數(shù)西算可利用西部的能源和土地資源優(yōu)勢,降低算力成本,同時緩解東部的數(shù)據(jù)中心建設(shè)壓力。二者相輔相成,共同為我國智能算力供需失衡問題提供解決方案。
如果說 2024 年是我國萬卡集群的元年,2025 年,十萬卡集群也要來了。
評論