新聞中心

EEPW首頁 > EDA/PCB > 市場分析 > 晶圓級芯片,是未來

晶圓級芯片,是未來

作者: 時(shí)間:2025-06-30 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

今天,大模型參數(shù)已經(jīng)以「億」為單位狂飆。

本文引用地址:http://2s4d.com/article/202506/471845.htm

僅僅過了兩年,大模型所需要的計(jì)算能力就增加了 1000 倍,這遠(yuǎn)遠(yuǎn)超過了硬件迭代的速度。目前支持 AI 大模型的方案,主流是依靠 GPU 集群。

但單芯片 GPU 的瓶頸是很明顯的:第一,單芯片的物理尺寸限制了晶體管數(shù)量,即便采用先進(jìn)制程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多芯片互聯(lián)時(shí),數(shù)據(jù)在芯片間傳輸產(chǎn)生的延遲與帶寬損耗,導(dǎo)致整體性能無法隨芯片數(shù)量線性增長。

這就是為什么,面對 GPT-4、文心一言這類萬億參數(shù)模型,即使堆疊數(shù)千塊英偉達(dá) H100,依然逃不過「算力不夠、電費(fèi)爆表」的尷尬。

目前,業(yè)內(nèi)在 AI 訓(xùn)練硬件分為了兩大陣營:采用晶圓級集成技術(shù)的專用加速器(如 Cerebras WSE-3 和 Tesla Dojo)和基于傳統(tǒng)架構(gòu)的 GPU 集群(如英偉達(dá) H100)。

被認(rèn)為是未來的突破口。

,兩大玩家

在常規(guī)的芯片生產(chǎn)流程中,一個晶圓會在光刻后被切割成許多小裸片(Die)并且進(jìn)行單獨(dú)封裝,每片裸片在單獨(dú)封裝后成為一顆完整的芯片。

芯片算力的提升方式,是依靠增加芯片面積,所以芯片廠商都在不斷努力增加芯片面積。目前算力芯片的單 Die 尺寸大約是 26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸無法突破曝光窗的大小。

曝光窗大小多年來一直維持不變,成為了制約芯片算力增長的原因之一。

則提供了另一種思路。通過制造一塊不進(jìn)行切割的晶圓級互連基板,再將設(shè)計(jì)好的常規(guī)裸片在晶圓基板上進(jìn)行集成與封裝,從而獲得一整塊巨大的芯片。

未經(jīng)過切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成帶寬更高、延時(shí)更短的互連結(jié)構(gòu),相當(dāng)于通過高性能互連與高密度集成構(gòu)建了更大的算力節(jié)點(diǎn)。所以,相同算力下,由晶圓級芯片構(gòu)建的算力集群占地面積對比 GPU 集群能夠縮小 10-20 倍以上,功耗可降低 30% 以上。

全球有兩家公司已經(jīng)開發(fā)出了晶圓級芯片的產(chǎn)品。

一家是 Cerebras。這家企業(yè)從 2015 年成立,自 2019 年推出了 WES-1,之后經(jīng)過不斷迭代,目前已經(jīng)推出到第三代晶圓級芯片——WES-3。

WES-3 采用臺積電 5nm 工藝,晶體管數(shù)量達(dá)到夸張的 4 萬億個,AI 核心數(shù)量增加到 90 萬個,緩存容量達(dá)到了 44GB,可以支持高達(dá) 1.2PB 的片外內(nèi)存。

WES-3 的能力可以訓(xùn)練比 GPT-4 和 Gemini 大 10 倍的下一代前沿大模型。四顆并聯(lián)情況下,一天內(nèi)即可完成 700 億參數(shù)的調(diào)教,支持最多 2048 路互連,一天便可完成 Llama 700 億參數(shù)的訓(xùn)練。

這些都是集成在一塊 215mm×215mm=46,225mm2 的晶圓上。

如果這個對比還不夠明顯,那可以這么看:對比英偉達(dá) H100,WES-3 的片上內(nèi)存容量是 H100 的 880 倍、單芯片內(nèi)存帶寬是 H100 的 7000 倍、核心數(shù)量是 H100 的 52 倍,片上互連帶寬速度是 H100 的 3715 倍。

另一家是特斯拉。特斯拉的晶圓級芯片被命名為 Dojo。這是馬斯克在 2021 年就開始的嘗試。

特斯拉 Dojo 的技術(shù)路線和 Cerebras 不一樣。是通過采用 Chiplet 路線,在晶圓尺寸的基板上集成了 25 顆專有的 D1 芯粒(裸 Die)。

D1 芯粒在 645 平方毫米的芯片上放置了 500 億個晶體管,單個芯??梢蕴峁?362 TFlops BF16/CFP8 的計(jì)算能力。合起來的單個 Dojo 擁有 9Petaflops 的算力,以及每秒 36TB 的帶寬。

特斯拉的 Dojo 系統(tǒng)專門針對全自動駕駛 (FSD) 模型的訓(xùn)練需求而定制。思路是從 25 個 D1 芯粒→1 個訓(xùn)練瓦(Training Tile)→6 個訓(xùn)練瓦組成 1 個托盤→2 個托盤組成 1 個機(jī)柜→10 個機(jī)柜組成 1 套 ExaPOD 超算系統(tǒng),能夠提供 1.1EFlops 的計(jì)算性能。

晶圓級芯片與 GPU 對比

既然單芯片 GPU 和晶圓級芯片走出了兩條岔路,在這里我們以 Cerebras WSE-3、Dojo 和英偉達(dá) H100 為例,對比一下兩種芯片架構(gòu)對算力極限的不同探索。

一般來說 AI 訓(xùn)練芯片 GPU 硬件的性能通過幾個關(guān)鍵指標(biāo)進(jìn)行評估:每秒浮點(diǎn)運(yùn)算次數(shù) (FLOPS) ,表明 GPU 在深度學(xué)習(xí)中必不可少的矩陣密集型運(yùn)算中的原始計(jì)算能力的強(qiáng)弱。內(nèi)存帶寬,決定了訪問和處理數(shù)據(jù)的速度,直接影響訓(xùn)練效率。延遲和吞吐量,能夠評估 GPU 處理大數(shù)據(jù)負(fù)載和模型并行性的效率,從而影響實(shí)時(shí)性能。

算力性能

Cerebras WSE-3 憑借單片架構(gòu),在 AI 模型訓(xùn)練中展現(xiàn)獨(dú)特潛力。

一般來講,每秒浮點(diǎn)運(yùn)算次數(shù) (FLOPS) 能夠表明 GPU 在深度學(xué)習(xí)中必不可少的矩陣密集型運(yùn)算中的原始計(jì)算能力。WSE-3 的 FP16 訓(xùn)練峰值性能達(dá)到 125 PFLOPS,支持訓(xùn)練高達(dá) 24 萬億參數(shù)的 AI 模型,且無需進(jìn)行模型分區(qū)處理。這個功能就特別適合以精簡高效的方式處理超大模型。

與依賴分層內(nèi)存架構(gòu)(可能造成處理瓶頸)的傳統(tǒng) GPU 不同,WSE 的設(shè)計(jì)使 850 個核心可獨(dú)立運(yùn)行,并直接訪問本地內(nèi)存,這樣就有效提升了計(jì)算吞吐量。

在這方面,英偉達(dá) H100 采用的是模塊化和分布式方法。單個 H100 GPU 可為高性能計(jì)算提供 60 TFLOPS FP64 計(jì)算能力,八個互連的 H100 GPU 組成的系統(tǒng),可實(shí)現(xiàn)超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架構(gòu)就存在數(shù)據(jù)傳輸問題,雖然 NVLink 和 HBM3 內(nèi)存能降低延遲,但在訓(xùn)練超大型模型時(shí),GPU 間通信仍會影響訓(xùn)練速度。

在 AI 訓(xùn)練的表現(xiàn)中,Cerebras WSE-3 會更加擅長處理超大型模型。2048 個 WSE-3 系統(tǒng)組成的集群,訓(xùn)練 Meta 的 700 億參數(shù) Llama 2 LLM 僅需 1 天,相比 Meta 原有的 AI 訓(xùn)練集群,速度提升達(dá) 30 倍。

延遲與吞吐量

從數(shù)據(jù)傳輸來看,WSE-3 的單片架構(gòu)避免了多芯片間的數(shù)據(jù)傳輸,顯著降低延遲,支持大規(guī)模并行計(jì)算和核心間低延遲通信。速度快是單片的優(yōu)勢,與傳統(tǒng) GPU 集群相比,WSE-3 可將軟件復(fù)雜度降低高達(dá) 90%,同時(shí)將實(shí)時(shí) GenAI 推理的延遲降低 10 倍以上。

特斯拉 Dojo Training Tile 屬于晶圓級集成,當(dāng)然也能夠大幅降低通信開銷。由于是從 Die 到 Die 之間傳遞,在跨區(qū)塊擴(kuò)展時(shí)仍會產(chǎn)生一定延遲。目前,Dojo 能實(shí)現(xiàn) 100 納秒的芯片間延遲,并且針對自動駕駛訓(xùn)練優(yōu)化了吞吐量,可同時(shí)處理 100 萬個每秒 36 幀的視頻流。

英偉達(dá) H100 基于 Hopper 架構(gòu),是目前最強(qiáng)大的 AI 訓(xùn)練 GPU 之一,配備 18,432 個 CUDA 核心和 640 個張量核心,并通過 NVLink 和 NVSwitch 系統(tǒng)實(shí)現(xiàn) GPU 間高速通信。高速通信。雖然多 GPU 架構(gòu)具備良好擴(kuò)展性,但數(shù)據(jù)傳輸會帶來延遲問題,即便 NVLink 4.0 提供每個 GPU 900 GB/s 的雙向帶寬,延遲仍高于晶圓級系統(tǒng)。

盡管能夠憑借著架構(gòu)特性實(shí)現(xiàn)單晶圓工作負(fù)載的低延遲和高吞吐量,但晶圓級系統(tǒng)如 WSE-3 和 Dojo 面臨著可擴(kuò)展性有限、制造成本高和通用工作負(fù)載靈活性不足的問題。

誰更劃算?

從硬件購置成本來看,不同芯片的價(jià)格因架構(gòu)和應(yīng)用場景而異。

據(jù)報(bào)道,特斯拉單臺 Tesla Dojo 超級計(jì)算機(jī)的具體成本估計(jì)在 3 億至 5 億美元之間。技術(shù)路線上,Dojo 采用的是成熟晶圓工藝再加上先進(jìn)封裝(采用了臺積電的 Info_SoW 技術(shù)集成),去實(shí)現(xiàn)晶圓級的計(jì)算能力,能夠避免挑戰(zhàn)工藝極限。這既能保證較高的良品率,又便于實(shí)現(xiàn)系統(tǒng)的規(guī)?;a(chǎn),芯粒的更新迭代也更為輕松。

Cerebras WSE 系統(tǒng)則因先進(jìn)的制造工藝與復(fù)雜設(shè)計(jì),面臨較高的初期研發(fā)和生產(chǎn)成本。據(jù)報(bào)道,Cerebras WSE-2 的每個系統(tǒng)成本在 200 萬至 300 萬美元之間。

相比之下,英偉達(dá)單 GPU 的采購成本比較低。以英偉達(dá) A100 來說,40GB PCIe 型號價(jià)格約 8,000 - 10,000 美元,80GB SXM 型號價(jià)格在 18,000 - 20,000 美元。這使得許多企業(yè)在搭建 AI 計(jì)算基礎(chǔ)設(shè)施初期,更傾向于選擇英偉達(dá) GPU。不過,英偉達(dá) GPU 在長期使用中存在能耗高、多芯片協(xié)作性能瓶頸等問題,會導(dǎo)致運(yùn)營成本不斷增加。

總體來看,雖然 WSE-2 能為超大規(guī)模 AI 模型提供超高計(jì)算密度,但對于需要在大型數(shù)據(jù)中心和云服務(wù)中部署多 GPU 可擴(kuò)展方案的機(jī)構(gòu),A100 的成本優(yōu)勢更為明顯。

結(jié)語

常規(guī)形態(tài)下,集群算力節(jié)點(diǎn)越多,則集群規(guī)模越大,花費(fèi)在通信上的開銷就越大,集群的效率就越低。

這就是為什么,英偉達(dá) NVL72 通過提升集群內(nèi)的節(jié)點(diǎn)集成密度(即提高算力密度)。在一個機(jī)架中集成了遠(yuǎn)超常規(guī)機(jī)架的 GPU 數(shù)量,使得集群的尺寸規(guī)模得到控制,效率才能實(shí)現(xiàn)進(jìn)一步提升。

這是英偉達(dá)權(quán)衡了良率和成本之后給出的解決方案。但是如果英偉達(dá)繼續(xù)按照這種計(jì)算形態(tài)走下去,想要進(jìn)一步提升算力密度,就會走到晶圓級芯片的路上。畢竟,晶圓級芯片的形態(tài)是目前為止算力節(jié)點(diǎn)集成密度最高的一種形態(tài)。

晶圓級芯片,潛力無限。



關(guān)鍵詞: 晶圓級芯片

評論


技術(shù)專區(qū)

關(guān)閉