陳立武:英特爾將在AI硬件上與英偉達(dá)競(jìng)爭(zhēng)
據(jù)報(bào)道,英特爾新任 CEO 陳立武在最新提交的年報(bào)中表示,「我們無(wú)疑須開發(fā)具競(jìng)爭(zhēng)力的機(jī)柜級(jí)系統(tǒng)解決方案,借此強(qiáng)化云端 AI 數(shù)據(jù)中心的市場(chǎng)地位,這將是我跟團(tuán)隊(duì)的優(yōu)先要?jiǎng)?wù)?!?/p>本文引用地址:http://2s4d.com/article/202504/468921.htm
據(jù)悉,陳立武瞄準(zhǔn)的競(jìng)爭(zhēng)產(chǎn)品,是英偉達(dá)目前最頂級(jí)的 GB200 NVL72 Blackwell AI 系統(tǒng)。一名英特爾前高層曾表示,英偉達(dá)這套系統(tǒng)是 AI 計(jì)算領(lǐng)域的「終極掠食者」(apex predator)。GB200 NVL72 在一臺(tái)服務(wù)器機(jī)柜內(nèi)部連接了 72 顆 GPU,遠(yuǎn)多于上一代的 8 顆 GPU,能在有限空間內(nèi)提供前所未見(jiàn)的算力密度。
目前,英偉達(dá)在 AI 數(shù)據(jù)中心市場(chǎng)居于霸主地位,占據(jù)接近 90% 的 AI 芯片市場(chǎng)份額。AMD 在 2024 年也實(shí)現(xiàn)了超過(guò) 50 億美元的 AMD Instinct 加速器收入。相比之下,英特爾在 AI 市場(chǎng)的表現(xiàn)卻欠佳。
2024 年 10 月,英特爾公司就曾坦承旗下 Gaudi 系列 AI 加速器無(wú)法達(dá)成之前設(shè)定的 2024 年 5 億美元營(yíng)收目標(biāo)。今年 1 月,英特爾新一代 AI 數(shù)據(jù)中心產(chǎn)品「Falcon Shores」被傳難產(chǎn),將轉(zhuǎn)而研發(fā)另一款 AI 數(shù)據(jù)中心解決方案「Jaguar Shores」。
無(wú)法達(dá)成預(yù)期營(yíng)收的 Gaudi
Gaudi 系列 AI 加速器是英特爾推出的用于人工智能計(jì)算的產(chǎn)品。2024 年 4 月,英特爾宣布將推出 Gaudi 3 AI 加速器,其在芯片架構(gòu)和性能提升方面的表現(xiàn)受到外界關(guān)注。
相較于上一個(gè)版本 Gaudi 2,Gaudi 3 制造工藝從臺(tái)積電 7nm 升級(jí)到臺(tái)積電 5nm,MME(矩陣乘法引擎) 從 2 個(gè)增加到 8 個(gè),雖然每個(gè) MME 內(nèi)部的 TPC(張量處理核心) 從 12 個(gè)減少到 8 個(gè),但是總數(shù)從 24 個(gè)大幅增加到了 64 個(gè),媒體解碼器差從 8 個(gè)增至 14 個(gè),內(nèi)置 SRAM 緩存容量翻番至 96MB,帶寬翻倍至 12.8TB/s。
核心性能方面,MME BF16/FP8 都是 1835 TFlops,矢量 BF16 則是 28.8 TFlops,分別提升了 3.2 倍、1.1 倍、1.6 倍。HBM2E 高帶寬內(nèi)存容量從 96GB 增加到 128GB(八顆),帶寬也順應(yīng)增加來(lái)到驚人的 3.7TB/s。24 個(gè) 200Gb RDMA 網(wǎng)絡(luò)接口,雙向網(wǎng)絡(luò)互連帶寬 1.2TB/s,主機(jī)接口峰值雙向帶寬 128GB/s,系統(tǒng)總線升級(jí)為 PCIe 5.0 x16。
按照官方說(shuō)法,Gaudi 3 對(duì)比 NVIDIA H100,LLM 大模型推理性能領(lǐng)先 50%、訓(xùn)練時(shí)間快 40%,性價(jià)比則是對(duì)手的 2 倍。在產(chǎn)品推出的同時(shí),英特爾就宣布 Supermicro 和 Dell 等主流服務(wù)器供應(yīng)商已經(jīng)開始支持 Gaudi 3 系統(tǒng),并且與 IBM 展開全球合作,IBM 的 watsonx AI 和數(shù)據(jù)平臺(tái)中將率先支持 Gaudi 3。
英特爾對(duì) Gaudi 3 未來(lái)發(fā)展充滿信心。同月,英特爾發(fā)布財(cái)報(bào)預(yù)計(jì) Gaudi AI 芯片產(chǎn)品線將帶來(lái) 5 億美元銷售收入。但可惜結(jié)果并不樂(lè)觀,稍后在 2024 年第三季度財(cái)報(bào)電話會(huì)議上,英特爾首席執(zhí)行官帕特?蓋辛格表示,盡管 Gaudi 3 加速器已于本季度推出,但因產(chǎn)品從 Gaudi 2 向 Gaudi 3 的過(guò)渡以及軟件易用性問(wèn)題影響了采用率,整體市場(chǎng)接受度低于預(yù)期,無(wú)法實(shí)現(xiàn) 2024 年 Gaudi 收入達(dá)到 5 億美元的目標(biāo)。
永遠(yuǎn)停留在實(shí)驗(yàn)室階段的 Falcon Shores
Falcon Shores 是英特爾下一代 GPU,并將整合英特爾 Gaudi 的技術(shù)。但 Falcon Shores 從設(shè)計(jì)到量產(chǎn),一路都很坎坷,最后甚至被取消。
起初,F(xiàn)alcon Shores 設(shè)計(jì)規(guī)劃是 XPU,集成 x86 架構(gòu) CPU 與 GPU,但是這一設(shè)計(jì)面臨致命缺陷,CPU 模塊性能不足且功耗過(guò)高,無(wú)法與 AMD Instinct MI300A 等競(jìng)品競(jìng)爭(zhēng)。2023 年,英特爾被迫放棄 XPU 方案,轉(zhuǎn)向純 GPU 架構(gòu),導(dǎo)致開發(fā)周期延長(zhǎng)。
Falcon Shores 與臺(tái)積電合作,運(yùn)用 3nm 和 5nm 工藝生產(chǎn),并結(jié)合 CoWoS 先進(jìn)封裝技術(shù),這既提升了芯片性能與集成度,又提高了生產(chǎn)效率與產(chǎn)品質(zhì)量。該 GPU 預(yù)計(jì)集成 288GB 的 HBM3 內(nèi)存,運(yùn)行速度可達(dá) 9.8TB/s 吞吐量,還支持 FP8 和 FP16 浮點(diǎn)精度,能滿足 AI 及其他工作負(fù)載的不同精度計(jì)算需求。
Falcon Shores 原本計(jì)劃于 2024 年推出,但后來(lái)推遲到 2025 年。2025 年 2 月,在財(cái)報(bào)電話會(huì)議上,英特爾臨時(shí)聯(lián)合 CEO Michelle Johnston Holthaus 透露,原計(jì)劃于今年推出、旨在結(jié)合 Intel Xe 圖形能力和 Gaudi AI 性能優(yōu)勢(shì)的 Falcon Shores 項(xiàng)目將永遠(yuǎn)停留在實(shí)驗(yàn)室階段。「我們計(jì)劃僅將 Falcon Shores 用作內(nèi)部測(cè)試芯片,不會(huì)推向市場(chǎng)。」
全力押注機(jī)架級(jí)解決方案 Jaguar Shores
在經(jīng)歷一系列挫折之后,英特爾重新評(píng)估了其戰(zhàn)略,認(rèn)為與其推出單一芯片,不如整合 Gaudi 加速器、Xeon CPU 和網(wǎng)絡(luò)技術(shù),打造 Jaguar Shores 機(jī)架級(jí)解決方案。
Jaguar Shores 由 Habana Labs 主導(dǎo)開發(fā),采用 Intel 18A 工藝與背面供電技術(shù),強(qiáng)調(diào)機(jī)架級(jí)優(yōu)化。其放棄了 Falcon Shores 的純 GPU 路線,轉(zhuǎn)向混合架構(gòu),可能集成 Gaudi ASIC 與 Xe-HPC GPU 技術(shù),兼顧通用性與 AI 加速。其中,F(xiàn)alcon Shores 部分技術(shù)(如液冷設(shè)計(jì)、CoWoS 封裝)將被移植到 Jaguar Shores。
根據(jù)規(guī)劃,英特爾將在 2025 年推出 Jaguar Shores 樣品,2026 年量產(chǎn),未來(lái) Jaguar Shores 會(huì)替代 Gaudi 3 成為英特爾 AI 數(shù)據(jù)中心主力產(chǎn)品,與英偉達(dá) GB200 NVL72 展開競(jìng)爭(zhēng)。
評(píng)論