GTC2025演講回顧——黃仁勛的“終極摩爾定律”：買越多，賺越多

作者：宗煜時間：2025-04-15 來源：EEPW

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文引用地址：http://2s4d.com/article/202504/469424.htm

北京時間3 月18 日凌晨，當東半球當大部分人都處在睡夢之中時，AI 相關領域的相關從業(yè)者必定是一個無眠之夜。在地球的另一段，硅谷圣何塞的晨曦之中，NVIDIA 創(chuàng)始人黃仁勛標志性的皮衣身影再次登上GTC大會舞臺。這場被外界稱為“年度AI 風向標”的GTC大會主題演講，用兩小時編織了一張橫跨芯片、云計算、通信網(wǎng)絡和機器人技術的未來藍圖。

1 如今的挫折，不影響未來的輝煌

“到2030 年，全球數(shù)據(jù)中心資產(chǎn)投入將突破1 萬億美元。”黃仁勛的開場宣言直指英偉達的核心戰(zhàn)場。他用一張條形圖直接框定了英偉達如今的疆域：代表英偉達營收的黃色區(qū)塊已占據(jù)2024 年數(shù)據(jù)中心服務市場的四分之一，而更大的野心藏在那些尚未被填滿的空白里。

這個預測基于一個簡單卻暴烈的邏輯：全球AI 算力需求正以每年10 倍速度膨脹，但GPU 供給量僅能維持2 倍增長。當大模型參數(shù)規(guī)模突破百萬億，當視頻生成AI 吃掉整座超算中心的算力，傳統(tǒng)云計算架構正在經(jīng)歷“核爆式重構”。黃仁勛特別展示了一組對比數(shù)據(jù)：搭載72 顆B200 芯片的NVL72 服務器，其推理吞吐量較前代產(chǎn)品提升7 倍，而能耗反而下降25%。這不禁讓人想起英偉達一直信奉的“黃氏定律”—— AI 計算推理性能每年翻一倍。

這背后的暗示不言而喻：英偉達目前沒有被DeepSeek R1 所影響，雖然現(xiàn)在股價是跌了，但是未來大大的好，未來全是Money。

2 如今的CUDA還是很強

如果說硬件是肌肉，CUDA 生態(tài)才是英偉達的真正骨骼。面對AMD、英特爾乃至亞馬遜自研芯片的圍攻，黃仁勛用整整20 分鐘系統(tǒng)闡釋了CUDA 的“軟實力”。從cuDNN 到NCCL，從Triton 推理服務器到新開源的分布式推理庫，這些深藏于代碼層的工具鏈構成了難以復制的技術壁壘。

“我們最新開源的推理加速庫，可以讓百億參數(shù)模型在異構計算集群上的部署效率提升40%?！秉S仁勛現(xiàn)場演示的案例中，一個包含文本生成、圖像識別和語音合成的多模態(tài)AI系統(tǒng)，通過動態(tài)任務分配算法自動調(diào)度CPU、GPU和DPU資源。這讓人聯(lián)想到三周前中國的DeepSeek開源的DeepGEMM項目—— 當行業(yè)頂尖玩家都在拼命優(yōu)化底層算子時，英偉達選擇將部分核心武器開源，既鞏固了生態(tài)主導權，又為硬件銷售鋪就更深的護城河。

3 GTC金句：“買越多，賺越多”

隨后介紹的“6G 時代+ 邊緣計算”、汽車智駕的安全方案等等，都幾乎毫無波瀾。全場的第一個高潮自然還是GPU，在這一頁PPT 出現(xiàn)后，NVDA 的股票終于止住了從發(fā)布會開始一直以來的跌幅，即118.9 → 116.5（2%），怒回117.5。

黃仁勛表示，未來推理的需求會暴增，而且是像R1 一樣的推理類模型，而最適配R1 這類推理模型的平臺，自然是他自己的NVL72（搭載了72 個B200 芯片的服務器）。

他從吞吐量和計算速度兩個維度反復說明，用了一個AI 工廠的比喻，將推理比喻成Token 的生產(chǎn)工廠。那么最大的回報值一定是產(chǎn)生在吞吐量和計算速度的最優(yōu)函數(shù)中—— NVL72。

黃仁勛進一步表示，在同樣的水平下，相較于H100 是45 K GPU，1400 個機架，產(chǎn)生300 M 的輸出；而NVL則是85 K GPU（更強），600 個機架（更少空間），以及12000 M 的輸出（40 倍）。隨即，老黃便說出了今年GTC 的金句：“the more you buy, the more you make”（買得越多，賺得越多）。通過高效的AI 基礎設施和強大的計算能力，企業(yè)可以在AI 應用中實現(xiàn)更高的收益。

4 Blackwell Ultra與Rubin架構：英偉達“核彈”的暴力美學

隨后黃仁勛公布了他的全新“核彈”—— Blackwell Ultra。這款專為推理任務優(yōu)化的GPU 怪獸，將顯存容量從192GB 暴力提升至288GB，配合Dynamo技術實現(xiàn)的推理性能躍升，使其單機架性能達到Hopper 架構的40 倍。這意味著原本需要整個數(shù)據(jù)中心支撐的智能體系統(tǒng)，現(xiàn)在只需一個機柜就能完成實時響應。我們正在見證AI 工廠的誕生，就像工業(yè)革命中蒸汽機取代水力，Blackwell 正在重新定義智能生產(chǎn)的效率邊界。

這場性能革命的核心突破在于“推理時擴展”（Inference Scaling）的全新路徑。DeepSeek R1 模型在Blackwell 平臺上的表現(xiàn)驗證了這一點—— 通過動態(tài)調(diào)整計算資源分配，模型在復雜決策任務中實現(xiàn)了近乎線性的性能擴展。這種突破不僅讓“Scaling Law 撞墻論”不攻自破，更開辟了AI 系統(tǒng)從訓練到部署的全新范式。值得關注的是，英偉達首次將訓練與推理架構分離，Blackwell Ultra 專為推理優(yōu)化的設計理念，預示著未來AI 芯片將進入場景細分的定制化時代。

而隨著以發(fā)現(xiàn)暗物質(zhì)的科學家“Vera Rubin”命名的下一代架構的公布，全場迎來的最高潮，其將在2026年下半年開啟英偉達的“后Blackwell 時代”。

Vera Rubin 有兩個部分，一個稱為Vera 的CPU 和一個稱為Rubin 的新GPU。當它們協(xié)同使用時，將首次實現(xiàn)了每秒50 千萬億次浮點運算的推理性能，這是現(xiàn)有架構兩倍以上的算力密度。與此同時，為了匹配這恐怖的算力，Rubin 的帶寬將會有大幅升級，HBM4 內(nèi)存與NVLink 7 的組合—— 13 TB/s 的帶寬和260 TB/s 的互連吞吐量，讓數(shù)據(jù)洪流在芯片間奔涌時不再遭遇任何瓶頸。

自然， Rubin 架構也有ultra 版本，它將在2027 年問世。作為算力怪物中的怪物，其在FP4 精度下的推理性能達到15 ExaFLOPS，相當于150 億億次運算每秒。配合4.6 PB/s 的內(nèi)存帶寬，這意味著單個機架就能承載相當于現(xiàn)在整個城市級數(shù)據(jù)中心的AI 負載。" 我們正在突破的不是技術極限，而是人類想象力的邊界。" 黃仁勛用這句話為Rubin 架構的發(fā)布畫下驚嘆號。

從 Blackwell 到 Rubin，英偉達用三年時間完成了從 68 倍到 900 倍的浮點運算能力躍升，而總擁有成本（TCO）曲線卻以反比例態(tài)勢持續(xù)下探。筆者也是沒想到，幾年前還在為 Blackwell 的恐怖算力而驚嘆，現(xiàn)在它已經(jīng)在 Rubin 的襯托下，變成了一個“小老弟”。

5 發(fā)布會上的其他內(nèi)容

馬斯克自己造了一個名為“Colossus”的超級訓練集群，從而力大磚飛一般的訓練出了“Grok3”。

如此巨量的網(wǎng)絡集群用于訓練，彼此之間的通信就顯得尤其重要。但是，如何解決這些巨量的網(wǎng)絡通信變得困難重重，這就是英偉達想要著手解決的問題，也就是Spectrum-X 以太網(wǎng)網(wǎng)絡平臺。在現(xiàn)場，老黃為了解釋這個事情多么困難，還拿了兩根線纜來解釋10 萬卡互聯(lián)有多恐怖。于是我們就看到他就在臺上花了2 分鐘解開糾纏在一起的兩根繩子……確實是很困難了。

除此之外，外界普遍猜測的CPO 也是如約發(fā)布。在傳統(tǒng)光通信架構中，交換系統(tǒng)與光電轉(zhuǎn)換模塊各自獨立部署于電路板之上，信號需經(jīng)歷“光模塊光電轉(zhuǎn)換-電路板走線- 交換機處理”的三段式旅程。這種物理隔離的設計不僅增加信號衰減風險，更因PCB 走線產(chǎn)生的寄生效應嚴重制約傳輸速率上限。CPO（共封裝光學）技術通過將光引擎與交換芯片三維堆疊集成，將原本毫米級的傳輸距離壓縮至微米尺度，不僅顯著縮短信號傳輸路徑，更通過混合鍵合工藝實現(xiàn)芯片級光電融合，使每瓦特功耗下的數(shù)據(jù)傳輸密度提升達20 倍，從根本上重構了高速互連的技術范式。

英偉達本次所發(fā)布的首款共封裝硅光子系統(tǒng)（CPO）。這項基于微環(huán)諧振器調(diào)制器的黑科技，通過臺積電先進制程將光子引擎直接集成到交換機芯片，創(chuàng)造了每秒1.6 T 的傳輸神話。傳統(tǒng)架構中占據(jù)30% 功耗的收發(fā)器被徹底拋棄，512 徑基數(shù)的光交換矩陣讓GPU 集群擴展突破物理限制。這種突破不僅解除了大規(guī)模并行計算的規(guī)模魔咒，更讓“AI 工廠”的概念真正具備商業(yè)可行性—— 任何制造業(yè)企業(yè)都能以合理成本構建自己的智能生產(chǎn)中樞。

最后，老黃也表示全球勞動力短缺的陰影逐漸籠罩制造業(yè)、物流業(yè)和醫(yī)療服務業(yè)，在這個背景之下，機器人的重要性逐漸凸顯。因此，英偉達正式官宣了世界首個開源、完全可定制的通用人形機器人模型——GROOT N1。

GROOT 所采用的“雙系統(tǒng)架構”與芯片設計中的異構計算理念異曲同工。系統(tǒng)2（慢思考）如同芯片中的中央處理器，通過視覺語言模型對環(huán)境進行語義解析，將”把紅色零件裝入三號工位”的指令拆解為空間定位、路徑規(guī)劃等邏輯步驟；而系統(tǒng)1（快思考）則像專用加速器，將抽象指令轉(zhuǎn)化為每秒上千次計算的關節(jié)運動軌跡。這種分層處理架構使得20 億參數(shù)的模型就能實現(xiàn)傳統(tǒng)百億級模型的復雜任務處理能力。

此外，英偉達還與DeepMind、迪士尼研究一起開發(fā)下一代開源的Newton 物理引擎，能夠讓機器人學習如何更精確處理復雜任務。

在發(fā)布會上，還展示了一下以星球大戰(zhàn)BDX 機器人為靈感的機器人Blue（確實還挺可愛的），它與老黃來了一波有趣的互動。

6 結束語

從“交流電之父”尼古拉·特斯拉到暗物質(zhì)發(fā)現(xiàn)者薇拉·魯賓（Vera Rubin），這些命名揭示著英偉達的終極野心：用計算的力量破解物理世界的本質(zhì)規(guī)律。這種野心在商業(yè)層面轉(zhuǎn)化為恐怖的執(zhí)行力—— 每年迭代的架構節(jié)奏、三年四代的工藝躍進、五年千倍的性能提升，正在將摩爾定律改寫為“黃氏定律”。

站在GTC 2025 的時間節(jié)點回望，黃仁勛在2016 年那句“英偉達是家軟件公司”的論斷終于完全顯現(xiàn)其深意。當硬件性能開始觸碰物理極限，通過架構創(chuàng)新、連接革命和生態(tài)協(xié)同構建的復合優(yōu)勢，正在開辟超越制程進步的“第二增長曲線”。這種“三位一體”的創(chuàng)新范式，或許才是英偉達持續(xù)統(tǒng)治AI 計算王座的真正密碼。

這場被稱作“AI 超級碗”的盛會，最終在開發(fā)者經(jīng)久不息的掌聲中落下帷幕。但黃仁勛留下的不僅是一串驚人的技術參數(shù)，更是一個清晰的未來圖景：當每個工廠都擁有自己的AI 中樞，當百萬GPU 集群在硅基神經(jīng)網(wǎng)絡中自由對話，人類將迎來生產(chǎn)力進化的新紀元。在這個紀元里，算力不再是稀缺資源，而是像電力般流淌在智能世界的每根“血管”中—— 而這，正是英偉達為全人類書寫的未來腳本。

在最后的最后，筆者也有一個期待黃仁勛解答，但是沒有獲得老黃解答的問題與各位讀者探討：算力通縮到底存不存在？

（本文來源于《EEPW》202504）

新聞中心

GTC2025演講回顧——黃仁勛的“終極摩爾定律”：買越多，賺越多

評論

相關推薦

技術專區(qū)