新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 市場(chǎng)分析 > 3nm賽道,擠滿了ASIC芯片

3nm賽道,擠滿了ASIC芯片

作者: 時(shí)間:2025-03-13 來(lái)源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

最近,市場(chǎng)關(guān)注的兩家 ASIC 企業(yè)都發(fā)布了自家的財(cái)報(bào)。

本文引用地址:http://2s4d.com/article/202503/468044.htm

博通 2025 財(cái)年第一季度財(cái)報(bào)顯示,營(yíng)收 149.16 億美元,同比增長(zhǎng) 25%,凈利潤(rùn) 55.03 億美元,同比增長(zhǎng) 315%。其中,第一季度與 AI 有關(guān)的收入同比增長(zhǎng) 77% 至 41 億美元。

Marvell 預(yù)計(jì)第一財(cái)季銷售額約為 18.8 億美元,同比增長(zhǎng) 27%。其中,AI 業(yè)務(wù)收入達(dá) 7 億美元左右,主要是亞馬遜等客戶定制 ASIC 等產(chǎn)品需求增長(zhǎng)的帶動(dòng)。

ASIC,越發(fā)豐富

今年以來(lái),大模型的更迭越發(fā)的激烈。DeepSeek 研究團(tuán)隊(duì)再放大招,公開 NSA 算法。同日,馬斯克發(fā)布 Grok 3 模型,號(hào)稱拳打 DeepSeek 腳踢 OpenAI。

DeepSeep 之風(fēng)正盛,將全球科技產(chǎn)業(yè)的重心從訓(xùn)練推向推理階段。由于 DeepSeek 是 MOE 模型,能夠?qū)崿F(xiàn)更低的激活比。算力、內(nèi)存、互聯(lián)原有平衡發(fā)生劇變,新算力架構(gòu)機(jī)會(huì)再次進(jìn)入同一起跑線。

這種條件下,定制化芯片 ASIC 似乎越來(lái)越適合 AI 時(shí)代。

ASIC 芯片的主要根據(jù)運(yùn)算類型分為了 TPU、DPU 和 NPU 芯片,分別對(duì)應(yīng)了不同的基礎(chǔ)計(jì)算功能,也有不同的優(yōu)勢(shì)。

TPU

先來(lái)看 TPU。TPU 的核心是矩陣乘法單元,它采用脈動(dòng)陣列架構(gòu),這意味著數(shù)據(jù)以類似心臟跳動(dòng)的方式在芯片內(nèi)流動(dòng)。這種架構(gòu)允許高度并行的乘法和加法操作,使得 TPU 能夠在每個(gè)時(shí)鐘周期內(nèi)處理大量的矩陣運(yùn)算。

如果把 TPU 比作一個(gè)工廠,這個(gè)工廠的任務(wù)是把兩堆數(shù)字(矩陣)相乘。每個(gè)工人(脈動(dòng)陣列的小格子)只需要做簡(jiǎn)單的乘法和加法,然后把結(jié)果傳給下一個(gè)工人。這樣,整個(gè)工廠就能高效地完成任務(wù),而且速度比普通的工廠(比如 CPU 或 GPU)快很多。

TPU 的優(yōu)勢(shì)是能夠高效處理大規(guī)模矩陣運(yùn)算,支持神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理任務(wù)。所以,更加適合用在數(shù)據(jù)中心的 AI 訓(xùn)練和推理任務(wù),如自然語(yǔ)言處理、計(jì)算機(jī)視覺和語(yǔ)音識(shí)別。

DPU

其次來(lái)看 DPU。DPU 能夠處理大量的網(wǎng)絡(luò)數(shù)據(jù)包,包括接收、分類、轉(zhuǎn)發(fā)和過濾等。它通過硬件加速引擎(如網(wǎng)絡(luò)處理引擎)來(lái)加速網(wǎng)絡(luò)操作,減少 CPU 在網(wǎng)絡(luò)處理上的負(fù)載。

DPU 就像是一個(gè)快遞中心,它負(fù)責(zé)接收包裹(數(shù)據(jù)),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長(zhǎng)處理特定的任務(wù),比如快速識(shí)別包裹的地址或者檢查包裹是否完好。這樣,DPU 就能讓整個(gè)快遞系統(tǒng)(數(shù)據(jù)中心)運(yùn)行得更高效。

DPU 的優(yōu)勢(shì)是可以卸載 CPU 的部分任務(wù),減少 CPU 的負(fù)擔(dān)。優(yōu)化了數(shù)據(jù)傳輸路徑,從而提高系統(tǒng)的整體效率。所以,它的應(yīng)用場(chǎng)景是數(shù)據(jù)中心的網(wǎng)絡(luò)加速、存儲(chǔ)管理、安全處理等。

NPU

再來(lái)看 NPU。NPU 是專門為神經(jīng)網(wǎng)絡(luò)計(jì)算設(shè)計(jì)的芯片,采用「數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算」的架構(gòu)。它能夠高效執(zhí)行大規(guī)模矩陣運(yùn)算,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的卷積操作。

如果把 NPU 比作一個(gè)廚房,這個(gè)廚房有很多廚師(計(jì)算單元),每個(gè)廚師都能同時(shí)做自己的菜(處理數(shù)據(jù))。比如,一個(gè)廚師負(fù)責(zé)切菜,一個(gè)廚師負(fù)責(zé)炒菜,另一個(gè)廚師負(fù)責(zé)擺盤。這樣,整個(gè)廚房就能同時(shí)處理很多道菜,效率非常高。NPU 就是這樣,通過并行處理,讓神經(jīng)網(wǎng)絡(luò)的計(jì)算變得更快。

NPU 的優(yōu)勢(shì)就是執(zhí)行 AI 任務(wù)時(shí)功耗較低,適合邊緣設(shè)備。并且,專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),適合處理深度學(xué)習(xí)任務(wù)。所以,NPU 的應(yīng)用場(chǎng)景是人臉識(shí)別、語(yǔ)音識(shí)別、自動(dòng)駕駛、智能相機(jī)等需要進(jìn)行深度學(xué)習(xí)任務(wù)的領(lǐng)域。

簡(jiǎn)而言之,TPU 適合深度學(xué)習(xí)、DPU 適合數(shù)據(jù)中心的數(shù)據(jù)管理、NPU 通過并行計(jì)算快速完成神經(jīng)網(wǎng)絡(luò)任務(wù),適合各種 AI 應(yīng)用。

最近,還出現(xiàn)了 LPU,一種專門為處理語(yǔ)言任務(wù)而設(shè)計(jì)的芯片。它的推出就是專門針對(duì)語(yǔ)言處理優(yōu)化的架構(gòu)和指令集,能夠更高效地處理文本、語(yǔ)音等數(shù)據(jù),從而加速大語(yǔ)言模型的訓(xùn)練和推理過程。

摩根士丹利預(yù)測(cè) AI ASIC 的總可用市場(chǎng)將從 2024 年的 120 億美元增長(zhǎng)到 2027 年的 300 億美元,期間英偉達(dá)的 AI GPU 存在強(qiáng)烈的競(jìng)爭(zhēng)。

現(xiàn)在,在 ASIC 賽道上的玩家,已經(jīng)越來(lái)越多。

擁擠的 ASIC 賽道

3nm ASIC 芯片的賽道上擠滿了大廠。

亞馬遜一直在致力于自研芯片以降低數(shù)據(jù)中心成本。

2022 年,AWS 發(fā)布了 Trainium 1 和 Inferentia 2 芯片。當(dāng)時(shí),Trainium1 在訓(xùn)練方面表現(xiàn)不是很好,更加適合 AI 推理工作。

之后,AWS 又發(fā)布了當(dāng)前的 Trainium 2,采用 5nm 工藝。單個(gè) Trainium 2 芯片提供 650 TFLOP/s 的 BF16 性能。Trn2 實(shí)例的能效比同類 GPU 實(shí)例高出 25%,Trn2 UltraServer 的能效比 Trn1 實(shí)例高三倍。

去年 12 月,亞馬遜宣布要推出全新 Trainium3,采用的是 3nm 工藝。與上代 Trainium2 相比,計(jì)算能力增加 2 倍,能源效率提升 40%,預(yù)計(jì) 2025 年底問世。

據(jù)了解,在 AWS 的 3nm Trainium 項(xiàng)目中,世芯電子(Alchip)和 Marvell 展開了激烈的競(jìng)爭(zhēng)。

世芯電子(Alchip)是第一家宣布其 3nm 設(shè)計(jì)和生產(chǎn)生態(tài)系統(tǒng)準(zhǔn)備就緒的 ASIC 公司,支持臺(tái)積電的 N3E 工藝。Marvell 則在 Trainium 2 項(xiàng)目中已經(jīng)取得了顯著進(jìn)展,并有望繼續(xù)參與 Trainium 3 的設(shè)計(jì)。

當(dāng)前的競(jìng)爭(zhēng)焦點(diǎn)在于:后端設(shè)計(jì)服務(wù)和 CoWoS 產(chǎn)能分配上??凑l(shuí)能夠在 Trainium 項(xiàng)目爭(zhēng)取到更多的份額。

之前我們提到的 TPU,以谷歌的 TPU 最具有代表性。谷歌的 TPU 系列芯片從 v1 到最新的 Trillium TPU。TPU 為 Gemini 2.0 的訓(xùn)練和推理提供了 100% 的支持。據(jù)谷歌這邊說(shuō),Trillium 的早期客戶 AI21 Labs 認(rèn)為是有顯著改進(jìn)的。AI21 Labs 首席技術(shù)官 Barak Lenz 表示:「Trillium 在規(guī)模、速度和成本效益方面的進(jìn)步非常顯著。」現(xiàn)在谷歌的 TPU v7 正在開發(fā)階段,同樣采用的是 3nm 工藝,預(yù)計(jì)量產(chǎn)時(shí)間是在 2026 年。

據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露,谷歌 TPU 芯片去年的生產(chǎn)量已經(jīng)達(dá)到 280 萬(wàn)到 300 萬(wàn)片之間,成為全球第三大數(shù)據(jù)中心芯片設(shè)計(jì)廠商。

從合作對(duì)象來(lái)說(shuō),谷歌和博通始終是在深度合作的。谷歌從 TPU v1 開始,就和博通達(dá)成了深度合作,它與博通共同設(shè)計(jì)了迄今為止已公布的所有 TPU,而博通在這方面的營(yíng)收也因谷歌水漲船高。

微軟在 ASIC 方面也在發(fā)力。Maia 200是微軟為數(shù)據(jù)中心和 AI 任務(wù)定制的高性能加速器,同樣采用 3nm 工藝,預(yù)計(jì)在 2026 年進(jìn)入量產(chǎn)階段,至于現(xiàn)在 Maia 100,也是專為在 Azure 中的大規(guī)模 AI 工作負(fù)載而設(shè)計(jì)。支持大規(guī)模并行計(jì)算,特別適合自然語(yǔ)言處理(NLP)和生成式 AI 任務(wù)。從現(xiàn)在的信息來(lái)看,這款產(chǎn)品微軟選擇和 Marvell 合作。

LPU 與 GPU 對(duì)比

LPU 與 GPU 對(duì)比

早在今年 1 月就有消息傳出,美國(guó)推理芯片公司Groq 已經(jīng)在自己的 LPU 芯片上實(shí)機(jī)運(yùn)行 DeepSeek,效率比最新的 H100 快上一個(gè)量級(jí),達(dá)到每秒 24000token。值得關(guān)注的是,Groq 曾于 2024 年 12 月在沙特阿拉伯達(dá)曼構(gòu)建了中東地區(qū)最大的推理集群,該集群包括了 19000 個(gè) Groq LPU。

Open AI首款 AI ASIC 芯片即將完成,會(huì)在未來(lái)幾個(gè)月內(nèi)完成其首款內(nèi)部芯片的設(shè)計(jì),并計(jì)劃送往臺(tái)積電進(jìn)行制造,以完成流片(taping out)。最新消息是,OpenAI 會(huì)在 2026 年實(shí)現(xiàn)在臺(tái)積電實(shí)現(xiàn)量產(chǎn)的目標(biāo)。

ASIC 真的劃算嗎?

谷歌、AWS、Open AI 都在加大對(duì)自研 ASIC 的投入。那么,ASIC 真的劃算嗎?

先從性能上來(lái)看,ASIC 是為特定任務(wù)定制的芯片,其核心優(yōu)勢(shì)在于高性能和低功耗。在同等預(yù)算下,AWS 的 Trainium 2 可以比英偉達(dá)的 H100 GPU 更快速完成推理任務(wù),且性價(jià)比提高了 30%~40%。Trainium3 計(jì)劃于 2025 年下半年推出,計(jì)算性能提高 2 倍,能效提高 40%。

并且,GPU 由于架構(gòu)的特性,一般會(huì)在 AI 計(jì)算中保留圖形渲染、視頻編解碼等功能模塊,但在 AI 計(jì)算中這些模塊大部分處于閑置狀態(tài)。有研究指出,英偉達(dá) H100 GPU 上有大約 15% 的晶體管是未在 AI 計(jì)算過程中被使用的。

從成本上來(lái)看,ASIC 在大規(guī)模量產(chǎn)時(shí),單位成本顯著低于 GPU。ASIC 在規(guī)模量產(chǎn)的情況下可以降至 GPU 的三分之一。但一次性工程費(fèi)用 NRE(Non-Recurring Engineering)非常高。

以定制一款采用 5nm 制程的 ASIC 為例,NRE 費(fèi)用可以高達(dá) 1 億至 2 億美元。然而一旦能夠大規(guī)模出貨,NRE 費(fèi)用就可以很大程度上被攤薄。

此前有業(yè)內(nèi)人士分析,中等復(fù)雜程度的 ASIC 盈虧平衡點(diǎn)在 10 萬(wàn)片左右,這對(duì)于很多廠商來(lái)說(shuō)已經(jīng)是遙不可及。

但對(duì)于大規(guī)模部署的云計(jì)算大廠或 AI 應(yīng)用提供商,ASIC 的定制化優(yōu)勢(shì)能夠顯著降低運(yùn)營(yíng)成本,從而更快地實(shí)現(xiàn)盈利。

算力走向推理,ASIC 的需求只多不少

在溫哥華 NeurIPS 大會(huì)上,OpenAI 聯(lián)合創(chuàng)始人兼前首席科學(xué)家 Ilya Sutskever 曾作出「AI 預(yù)訓(xùn)練時(shí)代將終結(jié)」的判斷。

巴克萊的一份報(bào)告預(yù)計(jì),AI 推理計(jì)算需求將快速提升,預(yù)計(jì)其將占通用人工智能總計(jì)算需求的 70% 以上,推理計(jì)算的需求甚至可以超過訓(xùn)練計(jì)算需求,達(dá)到后者的 4.5 倍。

英偉達(dá) GPU 目前在推理市場(chǎng)中市占率約 80%,但隨著大型科技公司定制化 ASIC 芯片不斷涌現(xiàn),這一比例有望在 2028 年下降至 50% 左右。

不過,在博通的觀察中,AI 訓(xùn)練仍然是會(huì)占據(jù)主流。博通 CEO 陳福陽(yáng)最近表示:「公司把推理作為一個(gè)獨(dú)立的產(chǎn)品線,推理與訓(xùn)練芯片的架構(gòu)非常不同。公司預(yù)計(jì)三個(gè)客戶未來(lái)需求市場(chǎng)總量將達(dá) 600 億~900 億美元,這個(gè)需求總量既包含了訓(xùn)練,又包含了推理,但其中訓(xùn)練的部分更大?!?/p>

對(duì)于第二季度來(lái)講,博通對(duì)于 ASIC 的預(yù)期仍舊保持樂觀。預(yù)計(jì)第二季度博通的 AI 半導(dǎo)體收入將繼續(xù)保持強(qiáng)勁增長(zhǎng)勢(shì)頭,達(dá)到 44 億美元。

Marvell 在電話會(huì)議上,同樣也展示了對(duì)于 ASIC 的信心。透露其定制的ARM CPU,將在客戶的數(shù)據(jù)中心中得到更廣泛的應(yīng)用。并且定制的人工智能 XPU,其表現(xiàn)也非常出色,未來(lái)將有大量的量產(chǎn)。



關(guān)鍵詞: ASIC芯片

評(píng)論


技術(shù)專區(qū)

關(guān)閉