GTC2025演講回顧——黃仁勛的“終極摩爾定律”:買越多,賺越多
北京時間3 月18 日凌晨,當東半球當大部分人都處在睡夢之中時,AI 相關領域的相關從業(yè)者必定是一個無眠之夜。在地球的另一段,硅谷圣何塞的晨曦之中,NVIDIA 創(chuàng)始人黃仁勛標志性的皮衣身影再次登上GTC大會舞臺。這場被外界稱為“年度AI 風向標”的GTC大會主題演講,用兩小時編織了一張橫跨芯片、云計算、通信網絡和機器人技術的未來藍圖。
1 如今的挫折,不影響未來的輝煌
“到2030 年,全球數據中心資產投入將突破1 萬億美元。”黃仁勛的開場宣言直指英偉達的核心戰(zhàn)場。他用一張條形圖直接框定了英偉達如今的疆域:代表英偉達營收的黃色區(qū)塊已占據2024 年數據中心服務市場的四分之一,而更大的野心藏在那些尚未被填滿的空白里。
這個預測基于一個簡單卻暴烈的邏輯:全球AI 算力需求正以每年10 倍速度膨脹,但GPU 供給量僅能維持2 倍增長。當大模型參數規(guī)模突破百萬億,當視頻生成AI 吃掉整座超算中心的算力,傳統(tǒng)云計算架構正在經歷“核爆式重構”。黃仁勛特別展示了一組對比數據:搭載72 顆B200 芯片的NVL72 服務器,其推理吞吐量較前代產品提升7 倍,而能耗反而下降25%。這不禁讓人想起英偉達一直信奉的“黃氏定律”—— AI 計算推理性能每年翻一倍。
這背后的暗示不言而喻: 英偉達目前沒有被DeepSeek R1 所影響,雖然現(xiàn)在股價是跌了,但是未來大大的好,未來全是Money。
2 如今的CUDA還是很強
如果說硬件是肌肉,CUDA 生態(tài)才是英偉達的真正骨骼。面對AMD、英特爾乃至亞馬遜自研芯片的圍攻,黃仁勛用整整20 分鐘系統(tǒng)闡釋了CUDA 的“軟實力”。從cuDNN 到NCCL,從Triton 推理服務器到新開源的分布式推理庫,這些深藏于代碼層的工具鏈構成了難以復制的技術壁壘。
“我們最新開源的推理加速庫,可以讓百億參數模型在異構計算集群上的部署效率提升40%?!秉S仁勛現(xiàn)場演示的案例中,一個包含文本生成、圖像識別和語音合成的多模態(tài)AI系統(tǒng),通過動態(tài)任務分配算法自動調度CPU、GPU和DPU資源。這讓人聯(lián)想到三周前中國的DeepSeek開源的DeepGEMM項目—— 當行業(yè)頂尖玩家都在拼命優(yōu)化底層算子時,英偉達選擇將部分核心武器開源,既鞏固了生態(tài)主導權,又為硬件銷售鋪就更深的護城河。
3 GTC金句:“買越多,賺越多”
隨后介紹的“6G 時代+ 邊緣計算”、汽車智駕的安全方案等等,都幾乎毫無波瀾。全場的第一個高潮自然還是GPU,在這一頁PPT 出現(xiàn)后,NVDA 的股票終于止住了從發(fā)布會開始一直以來的跌幅,即118.9 → 116.5(2%),怒回117.5。
黃仁勛表示,未來推理的需求會暴增,而且是像R1 一樣的推理類模型,而最適配R1 這類推理模型的平臺,自然是他自己的NVL72(搭載了72 個B200 芯片的服務器)。
他從吞吐量和計算速度兩個維度反復說明,用了一個AI 工廠的比喻,將推理比喻成Token 的生產工廠。那么最大的回報值一定是產生在吞吐量和計算速度的最優(yōu)函數中—— NVL72。
黃仁勛進一步表示,在同樣的水平下,相較于H100 是45 K GPU,1400 個機架,產生300 M 的輸出;而NVL則是85 K GPU(更強),600 個機架(更少空間),以及12000 M 的輸出(40 倍)。隨即,老黃便說出了今年GTC 的金句:“the more you buy, the more you make”(買得越多,賺得越多)。通過高效的AI 基礎設施和強大的計算能力,企業(yè)可以在AI 應用中實現(xiàn)更高的收益。
4 Blackwell Ultra與Rubin架構:英偉達“核彈”的暴力美學
隨后黃仁勛公布了他的全新“核彈”—— Blackwell Ultra。這款專為推理任務優(yōu)化的GPU 怪獸,將顯存容量從192GB 暴力提升至288GB,配合Dynamo技術實現(xiàn)的推理性能躍升,使其單機架性能達到Hopper 架構的40 倍。這意味著原本需要整個數據中心支撐的智能體系統(tǒng),現(xiàn)在只需一個機柜就能完成實時響應。我們正在見證AI 工廠的誕生,就像工業(yè)革命中蒸汽機取代水力,Blackwell 正在重新定義智能生產的效率邊界。
這場性能革命的核心突破在于“推理時擴展”(Inference Scaling)的全新路徑。DeepSeek R1 模型在Blackwell 平臺上的表現(xiàn)驗證了這一點—— 通過動態(tài)調整計算資源分配,模型在復雜決策任務中實現(xiàn)了近乎線性的性能擴展。這種突破不僅讓“Scaling Law 撞墻論”不攻自破,更開辟了AI 系統(tǒng)從訓練到部署的全新范式。值得關注的是,英偉達首次將訓練與推理架構分離,Blackwell Ultra 專為推理優(yōu)化的設計理念,預示著未來AI 芯片將進入場景細分的定制化時代。
而隨著以發(fā)現(xiàn)暗物質的科學家“Vera Rubin”命名的下一代架構的公布,全場迎來的最高潮,其將在2026年下半年開啟英偉達的“后Blackwell 時代”。
Vera Rubin 有兩個部分,一個稱為Vera 的CPU 和一個稱為Rubin 的新GPU。當它們協(xié)同使用時,將首次實現(xiàn)了每秒50 千萬億次浮點運算的推理性能,這是現(xiàn)有架構兩倍以上的算力密度。與此同時,為了匹配這恐怖的算力,Rubin 的帶寬將會有大幅升級,HBM4 內存與NVLink 7 的組合—— 13 TB/s 的帶寬和260 TB/s 的互連吞吐量,讓數據洪流在芯片間奔涌時不再遭遇任何瓶頸。
自然, Rubin 架構也有ultra 版本,它將在2027 年問世。作為算力怪物中的怪物,其在FP4 精度下的推理性能達到15 ExaFLOPS,相當于150 億億次運算每秒。配合4.6 PB/s 的內存帶寬,這意味著單個機架就能承載相當于現(xiàn)在整個城市級數據中心的AI 負載。" 我們正在突破的不是技術極限,而是人類想象力的邊界。" 黃仁勛用這句話為Rubin 架構的發(fā)布畫下驚嘆號。
從 Blackwell 到 Rubin,英偉達用三年時間完成了從 68 倍到 900 倍的浮點運算能力躍升,而總擁有成本(TCO)曲線卻以反比例態(tài)勢持續(xù)下探。筆者也是沒想到,幾年前還在為 Blackwell 的恐怖算力而驚嘆,現(xiàn)在它已經在 Rubin 的襯托下,變成了一個“小老弟”。
5 發(fā)布會上的其他內容
馬斯克自己造了一個名為“Colossus”的超級訓練集群,從而力大磚飛一般的訓練出了“Grok3”。
如此巨量的網絡集群用于訓練,彼此之間的通信就顯得尤其重要。但是,如何解決這些巨量的網絡通信變得困難重重,這就是英偉達想要著手解決的問題,也就是Spectrum-X 以太網網絡平臺。在現(xiàn)場,老黃為了解釋這個事情多么困難,還拿了兩根線纜來解釋10 萬卡互聯(lián)有多恐怖。于是我們就看到他就在臺上花了2 分鐘解開糾纏在一起的兩根繩子……確實是很困難了。
除此之外,外界普遍猜測的CPO 也是如約發(fā)布。在傳統(tǒng)光通信架構中,交換系統(tǒng)與光電轉換模塊各自獨立部署于電路板之上,信號需經歷“光模塊光電轉換-電路板走線- 交換機處理”的三段式旅程。這種物理隔離的設計不僅增加信號衰減風險,更因PCB 走線產生的寄生效應嚴重制約傳輸速率上限。CPO(共封裝光學)技術通過將光引擎與交換芯片三維堆疊集成,將原本毫米級的傳輸距離壓縮至微米尺度,不僅顯著縮短信號傳輸路徑,更通過混合鍵合工藝實現(xiàn)芯片級光電融合,使每瓦特功耗下的數據傳輸密度提升達20 倍,從根本上重構了高速互連的技術范式。
英偉達本次所發(fā)布的首款共封裝硅光子系統(tǒng)(CPO)。這項基于微環(huán)諧振器調制器的黑科技,通過臺積電先進制程將光子引擎直接集成到交換機芯片,創(chuàng)造了每秒1.6 T 的傳輸神話。傳統(tǒng)架構中占據30% 功耗的收發(fā)器被徹底拋棄,512 徑基數的光交換矩陣讓GPU 集群擴展突破物理限制。這種突破不僅解除了大規(guī)模并行計算的規(guī)模魔咒,更讓“AI 工廠”的概念真正具備商業(yè)可行性—— 任何制造業(yè)企業(yè)都能以合理成本構建自己的智能生產中樞。
最后,老黃也表示全球勞動力短缺的陰影逐漸籠罩制造業(yè)、物流業(yè)和醫(yī)療服務業(yè),在這個背景之下,機器人的重要性逐漸凸顯。因此,英偉達正式官宣了世界首個開源、完全可定制的通用人形機器人模型——GROOT N1。
GROOT 所采用的“雙系統(tǒng)架構”與芯片設計中的異構計算理念異曲同工。系統(tǒng)2(慢思考)如同芯片中的中央處理器,通過視覺語言模型對環(huán)境進行語義解析,將”把紅色零件裝入三號工位”的指令拆解為空間定位、路徑規(guī)劃等邏輯步驟;而系統(tǒng)1(快思考)則像專用加速器,將抽象指令轉化為每秒上千次計算的關節(jié)運動軌跡。這種分層處理架構使得20 億參數的模型就能實現(xiàn)傳統(tǒng)百億級模型的復雜任務處理能力。
此外,英偉達還與DeepMind、迪士尼研究一起開發(fā)下一代開源的Newton 物理引擎,能夠讓機器人學習如何更精確處理復雜任務。
在發(fā)布會上,還展示了一下以星球大戰(zhàn)BDX 機器人為靈感的機器人Blue(確實還挺可愛的),它與老黃來了一波有趣的互動。
6 結束語
從“交流電之父”尼古拉·特斯拉到暗物質發(fā)現(xiàn)者薇拉·魯賓(Vera Rubin),這些命名揭示著英偉達的終極野心:用計算的力量破解物理世界的本質規(guī)律。這種野心在商業(yè)層面轉化為恐怖的執(zhí)行力—— 每年迭代的架構節(jié)奏、三年四代的工藝躍進、五年千倍的性能提升,正在將摩爾定律改寫為“黃氏定律”。
站在GTC 2025 的時間節(jié)點回望,黃仁勛在2016 年那句“英偉達是家軟件公司”的論斷終于完全顯現(xiàn)其深意。當硬件性能開始觸碰物理極限,通過架構創(chuàng)新、連接革命和生態(tài)協(xié)同構建的復合優(yōu)勢,正在開辟超越制程進步的“第二增長曲線”。這種“三位一體”的創(chuàng)新范式,或許才是英偉達持續(xù)統(tǒng)治AI 計算王座的真正密碼。
這場被稱作“AI 超級碗”的盛會,最終在開發(fā)者經久不息的掌聲中落下帷幕。但黃仁勛留下的不僅是一串驚人的技術參數,更是一個清晰的未來圖景:當每個工廠都擁有自己的AI 中樞,當百萬GPU 集群在硅基神經網絡中自由對話,人類將迎來生產力進化的新紀元。在這個紀元里,算力不再是稀缺資源,而是像電力般流淌在智能世界的每根“血管”中—— 而這,正是英偉達為全人類書寫的未來腳本。
在最后的最后,筆者也有一個期待黃仁勛解答,但是沒有獲得老黃解答的問題與各位讀者探討:算力通縮到底存不存在?
(本文來源于《EEPW》202504)
評論