新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 市場(chǎng)分析 > 兩個(gè)技術(shù),困住英偉達(dá)GPU生產(chǎn)

兩個(gè)技術(shù),困住英偉達(dá)GPU生產(chǎn)

作者:semianalysis 時(shí)間:2023-07-07 來(lái)源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

生成人工智能即將到來(lái),它將改變世界。自從 ChatGPT 風(fēng)靡全球并抓住了我們對(duì) AI 可能性的想象力以來(lái),我們看到各種各樣的公司急于訓(xùn)練 AI 模型并將生成式 AI 部署到內(nèi)部工作流程或面向客戶的應(yīng)用程序中。不僅僅是大型科技公司和初創(chuàng)公司,許多非科技財(cái)富 5000 強(qiáng)公司正在研究如何部署基于 LLM 的解決方案。

本文引用地址:http://2s4d.com/article/202307/448435.htm

當(dāng)然,這將需要大量的 計(jì)算。 銷(xiāo)量像火箭一樣上升,供應(yīng)鏈一直在努力跟上對(duì) 的需求。公司正在爭(zhēng)先恐后地獲得 GPU 或云實(shí)例。

即使是 OpenAI 也無(wú)法獲得足夠的 GPU,這嚴(yán)重阻礙了其近期路線圖。由于 GPU 短缺,OpenAI 無(wú)法部署其多模態(tài)模型。由于 GPU 短缺,OpenAI 無(wú)法部署更長(zhǎng)的序列長(zhǎng)度模型(8k 與 32k)。

與此同時(shí),中國(guó)公司不僅投資部署自己的 LLM,而且還在美國(guó)出口管制進(jìn)一步收緊之前進(jìn)行庫(kù)存。例如,Tik Tok 背后的中國(guó)公司字節(jié)跳動(dòng)(Bytedance)據(jù)稱從訂購(gòu)了價(jià)值超過(guò) 10 億美元的 A800 / H800。

最高端的 Nvidia GPUH100 將一直售罄到明年第一季度,盡管 Nvidia 試圖大幅增加產(chǎn)量。將每季度出貨 400,000 個(gè) H100 GPU。

今天,我們將詳細(xì)介紹生產(chǎn)瓶頸以及及其競(jìng)爭(zhēng)對(duì)手的下游產(chǎn)能正在擴(kuò)大多少。

英偉達(dá)的 H100 采用 CoWoS-S 上的 7 芯片封裝。中間是 H100 GPU ASIC,其芯片尺寸為 814mm2。不同 SKU 之間的 HBM 配置有所不同,但 H100 SXM 版本使用 HBM3,每個(gè)堆棧為 16GB,總內(nèi)存為 80GB。H100 NVL 將具有兩個(gè)封裝,每個(gè)封裝上有 6 個(gè) HBM 有源層。

在只有 5 個(gè)有源 HBM 的情況下,非 HBM 芯片可以為芯片提供結(jié)構(gòu)支持。這些芯片位于一個(gè)在圖片中看不清楚的硅插入物之上。該硅插入物位于一個(gè)封裝襯底上,該封裝襯底是一個(gè) ABF 封裝襯底。

GPU 芯片和臺(tái)積電制造

英偉達(dá) GPU 的主要數(shù)字處理組件是處理器芯片本身,在名為「4N」的定制臺(tái)積電工藝節(jié)點(diǎn)上制造。它在臺(tái)積電位于中國(guó)臺(tái)灣臺(tái)南的 Fab 18 制造,與臺(tái)積電 N5 和 N4 工藝節(jié)點(diǎn)共享相同的設(shè)施。這不是生產(chǎn)的限制因素。

臺(tái)積電 N5 工藝節(jié)點(diǎn)的利用率降至 70% 以下,原因是 PC、智能手機(jī)和非 AI 相關(guān)數(shù)據(jù)中心芯片的巨大疲軟,英偉達(dá)在確保額外的晶圓供應(yīng)方面沒(méi)有問(wèn)題。

事實(shí)上,英偉達(dá)已經(jīng)訂購(gòu)了大量用于 H100 GPU 和 NVSwitch 的晶圓,這些晶圓立即開(kāi)始生產(chǎn),遠(yuǎn)遠(yuǎn)早于它們需要出貨芯片。這些晶圓將存放在臺(tái)積電的芯片組中,直到下游供應(yīng)鏈有足夠的能力將這些晶圓封裝成完整的芯片。

基本上,英偉達(dá)正在吸收臺(tái)積電的一些低利用率,并獲得一些定價(jià)優(yōu)勢(shì),因?yàn)橛ミ_(dá)已承諾在未來(lái)購(gòu)買(mǎi)成品。

晶圓庫(kù),也稱為芯片庫(kù),是半導(dǎo)體行業(yè)的一種做法,其中部分加工或完成的晶圓被存儲(chǔ),直到客戶需要它們。與其他一些代工廠不同,臺(tái)積電將通過(guò)將這些晶圓保存在自己的賬簿上幾乎完全加工來(lái)幫助他們的客戶。這種做法使臺(tái)積電及其客戶能夠保持財(cái)務(wù)靈活性。由于它們只是部分加工的,因此晶圓庫(kù)中持有的晶圓不被視為成品,而是被歸類(lèi)為在制品。只有當(dāng)這些晶圓完全完成時(shí),臺(tái)積電才能確認(rèn)收入并將這些晶圓的所有權(quán)轉(zhuǎn)讓給客戶。

這有助于客戶裝扮他們的資產(chǎn)負(fù)債表,使庫(kù)存水平看起來(lái)得到控制。對(duì)于臺(tái)積電來(lái)說(shuō),好處是它可以幫助保持更高的利用率,從而支持利潤(rùn)率。然后,當(dāng)客戶需要更多的庫(kù)存時(shí),這些晶圓可以通過(guò)幾個(gè)最后的加工步驟完全完成,然后以正常的銷(xiāo)售價(jià)格甚至輕微的折扣交付給客戶。這有助于客戶修飾他們的資產(chǎn)負(fù)債表,使庫(kù)存水平看起來(lái)處于控制之中。對(duì)于臺(tái)積電說(shuō),好處是可以幫助保持更高的利用率,從而支撐利潤(rùn)率。然后,隨著客戶需要更多庫(kù)存,這些晶圓可以通過(guò)幾個(gè)最終加工步驟完全完成,然后以正常銷(xiāo)售價(jià)格甚至稍有扣的價(jià)格交付給客戶。

HBM 在數(shù)據(jù)中心的出現(xiàn)

GPU 周?chē)母邘拑?nèi)存是下一個(gè)主要組件。HBM 供應(yīng)量也有限,但正在增加。HBM 是垂直堆疊 DRAM 芯片,通過(guò)硅通孔(TSV)連接,并使用 TCB 鍵合(未來(lái)需要更高的堆疊數(shù)量)。在 DRAM 芯片下面有一個(gè)基本邏輯作為控制器的管芯。通常,現(xiàn)代 HBM 有 8 層內(nèi)存和 1 個(gè)基本邏輯芯片但是我們很快就會(huì)看到 12+1 層 HBM 的產(chǎn)品,例如 AMD 的 MI300X 和英偉達(dá)即將推出的 H100 更新。

有趣的是,是 AMD 開(kāi)創(chuàng)了 HBM,盡管 NVIDIA 和谷歌是今天最大的用戶。在 2008 年,AMD 預(yù)測(cè),為了與游戲 GPU 性能相匹配,內(nèi)存帶寬的持續(xù)擴(kuò)展將需要越來(lái)越多的電源,這將需要從 GPU 邏輯中轉(zhuǎn)移,從而降低 GPU 的性能。AMD 與 SK Hynix 和供應(yīng)鏈中的其他公司 (如 Amkor) 合作,尋找一種能提供高帶寬、低功耗的內(nèi)存解決方案。這導(dǎo)致 SK Hynix 在 2013 年開(kāi)發(fā) HBM。

SK 海力士于 2015 年首次為 AMD Fiji 系列游戲 GPU 提供 HBM,該 GPU 由 Amkor 進(jìn)行 2.5D 封裝。隨后在 2017 年推出了使用 HBM2 的 Vega 系列。然而,HBM 并沒(méi)有改變游戲 GPU 性能的游戲規(guī)則。由于沒(méi)有明顯的性能優(yōu)勢(shì)加上更高的成本,AMD 在 Vega 之后重新使用 GDDR 作為其游戲卡。今天,來(lái)自 Nvidia 和 AMD 的頂級(jí)游戲 GPU 仍在使用更便宜的 GDDR6。

然而,AMD 的最初預(yù)測(cè)在某種程度上是正確的:擴(kuò)展內(nèi)存帶寬已被證明是 GPU 的一個(gè)問(wèn)題,只是這主要是數(shù)據(jù)中心 GPU 的問(wèn)題。對(duì)于消費(fèi)級(jí)游戲 GPU,英偉達(dá)和 AMD 已轉(zhuǎn)向使用大型緩存作為頓緩沖區(qū),使它們能夠使用帶寬低得多的 GDDR 內(nèi)存。

正如我們過(guò)去所詳述的,推理和訓(xùn)練工作負(fù)載是內(nèi)存密集型的。隨著 AI 模型中參數(shù)數(shù)量的指數(shù)級(jí)增長(zhǎng),僅權(quán)重就將模型大小推高到 TB。因此,人工智能加速器的性能受到從內(nèi)存中存儲(chǔ)和檢索訓(xùn)練和推理數(shù)據(jù)的能力的瓶頸:這個(gè)問(wèn)題通常被稱為內(nèi)存墻。

為了解決這個(gè)問(wèn)題,領(lǐng)先的數(shù)據(jù)中心 GPU 與高帶寬內(nèi)存(HBM)共同打包。英偉達(dá)在 2016 年發(fā)布了他們的第一個(gè) HBM GPU,P100。HBM 通過(guò)在傳統(tǒng) DDR 內(nèi)存和片上緩存之間找到中間地帶來(lái)解決內(nèi)存難題,以容量換取帶寬。通過(guò)大幅增加引腳數(shù),達(dá)到每個(gè) HBM 堆棧 1024 位寬的內(nèi)存總線,這是每個(gè) DIMM 64 位寬度的 DDR5 的 18 倍,從而實(shí)現(xiàn)更高的帶寬。同時(shí),以極低的每比特傳輸能量(pJ/bit)來(lái)控制功率。這是通過(guò)更短的走線長(zhǎng)度實(shí)現(xiàn)的,HBM 的走線長(zhǎng)度以毫米為單位,GDDR 和 DDR 的走線長(zhǎng)度以厘米為單位。

如今,許多面向 HPC 的芯片公司正在享受 AMD 努力的成果。具有諷刺意味的是,AMD 的競(jìng)爭(zhēng)對(duì)手 Nvidia 作為 HBM 的最高用戶可能受益最多。

HBM 市場(chǎng):SK 海力士占據(jù)主導(dǎo)地位

作為 HBM 的先驅(qū),SK Hynix 是擁有最先進(jìn)技術(shù)路線圖的領(lǐng)導(dǎo)者。SK Hynix 公司于 2022 年 6 月開(kāi)始生產(chǎn) HBM 3,目前是唯一一家批量交付 HBM 3 的供應(yīng)商,市場(chǎng)份額超過(guò) 95%,這是大多數(shù) H 100 SKU 正在使用的產(chǎn)品。HBM 的最大配置現(xiàn)在 8 層 16 GB HBM 3 模塊。SK Hynix 為 AMD MI300X 和 NVIDIA H 100 刷新生產(chǎn) 12 層 24 GB HBM 3,其數(shù)據(jù)率為 5.6 GT/S。

HBM 的主要挑戰(zhàn)是封裝和堆疊存儲(chǔ)器,這是 SK 海力士所擅長(zhǎng)的,積累了最強(qiáng)的工藝流程知識(shí)。

三星緊跟 SK 海力士之后,預(yù)計(jì)將在 2023 年下半年推出 HBM 3。我們相信它們都是為 NVIDIA 和 AMD GPU 設(shè)計(jì)的。他們目前對(duì) SK Hynix 的數(shù)量有很大的虧空,但他們正緊追不舍,正在進(jìn)行巨大的投資以追趕市場(chǎng)份額。三星正在投資追趕 HBM,成為 HBM 市場(chǎng)份額的第一名,就像他們擁有標(biāo)準(zhǔn)內(nèi)存一樣。我們聽(tīng)說(shuō)他們正在與一些加速器公司達(dá)成有利的交易,以爭(zhēng)取更多的份額。

他們已經(jīng)展示了他們的 12 層 HBM 以及未來(lái)的混合粘結(jié) HBM. 三星 HBM-4 路線圖的一個(gè)有趣方面是,他們希望在內(nèi)部的 FinFET 節(jié)點(diǎn)上實(shí)現(xiàn)邏輯/外圍。這顯示了他們?cè)趦?nèi)部擁有邏輯和 DRAM 制造的潛在優(yōu)勢(shì)

美光是最落后的。美光在混合內(nèi)存立方體(HMC)技術(shù)上投入了更多的資金。這是一個(gè)與 HBM 競(jìng)爭(zhēng)的技術(shù),與 HBM 有著非常相似的概念。然而,HMC 周?chē)纳鷳B(tài)系統(tǒng)是封閉的,使得 IP 很難在 HMC 周?chē)l(fā)展。此外,還存在一些技術(shù)缺陷。HBM 的采用率更高,因此 HBM 成為 3D 堆疊 DRAM 的行業(yè)標(biāo)準(zhǔn)。

直到 2018 年,美光才開(kāi)始從 HMC 轉(zhuǎn)向 HBM 路線圖。這就是為什么美光是最落后的。他們?nèi)匀煌A粼?HBM2E 上(SK 海力士在 2020 年中期開(kāi)始大規(guī)模生產(chǎn)),甚至不能成功地制造頂盒 HBM2E。

在他們最近的財(cái)報(bào)電話會(huì)議上,美光對(duì)他們的 HBM 路線圖做了一些大膽的聲明:他們相信他們將在 2024 年通過(guò) HBM3E 從落后者變成領(lǐng)導(dǎo)者。HBM3E 預(yù)計(jì)將在第三季度/第四季度開(kāi)始為英偉達(dá)的下一代 GPU 出貨。美光首席商務(wù)官 SumitSadana 表示:「我們的 HBM3 斜坡實(shí)際上是下一代 HBM3,與當(dāng)今業(yè)界生產(chǎn)的 HBM3 相比,它具有更高水平的性能、帶寬和更低的功耗。該產(chǎn)品,即我們行業(yè)領(lǐng)先的產(chǎn)品,將從 2024 年第一季度開(kāi)始銷(xiāo)量大幅增加,并對(duì) 2024 財(cái)年的收入產(chǎn)生重大影響,并在 2025 年大幅增加,即使是在 2024 年的水平基礎(chǔ)上。我們的目標(biāo)是在 HBM 中獲得非常強(qiáng)勁的份額,高于行業(yè)中 DRAM 的非自然供應(yīng)份額?!?/p>

他們?cè)?HBM 中擁有比一般 DRMA 市場(chǎng)份額更高的市場(chǎng)份額的聲明非常大膽。鑒于他們?nèi)栽谂Υ笈可a(chǎn)頂級(jí) HBM2E,我們很難相信美光聲稱他們將在 2024 年初推出領(lǐng)先的 HBM3,甚至成為第一個(gè) HBM3E。在我們看來(lái),盡管英偉達(dá) GPU 服務(wù)器的內(nèi)存容量比英特爾/AMD CPU 服務(wù)器要低得多,但美光科技似乎正在試圖改變?nèi)藗儗?duì)人工智能失敗者的看法。

我們所有的渠道檢查都發(fā)現(xiàn) SK 海力士在新一代技術(shù)方面保持最強(qiáng),而三星則非常努力地通過(guò)大幅供應(yīng)增加、大膽的路線圖和削減交易來(lái)追趕。

真正的瓶頸-CoWoS

下一個(gè)瓶頸是 CoWoS 容量。CoWoS 是臺(tái)積電的一種「2.5D」封裝技術(shù),其中多個(gè)有源硅芯片 (通常的配置是邏輯和 HBM 堆棧)集成在無(wú)源硅中介層上。中介層充當(dāng)頂部有源芯片的通信層。然后將內(nèi)插器和有源硅連接到包含要放置在系統(tǒng) PCB 上的 I/O 的封裝基板。

HBM 和 CoWoS 是相輔相成的。HBM 的高焊盤(pán)數(shù)和短跡線長(zhǎng)度要求需要 2.5D 先進(jìn)封裝技術(shù),如 CoWoS,以實(shí)現(xiàn)這種密集的短連接,這在 PCB 甚至封裝基板上是無(wú)法實(shí)現(xiàn)的。CoWoS 是主流封裝技術(shù),以合理的成本提供最高的互連密度和最大的封裝尺寸。由于目前幾乎所有的 HBM 系統(tǒng)都封裝在 Co Wos 上,所有先進(jìn)的人工智能加速器都使用 HBM,因此幾乎所有領(lǐng)先的數(shù)據(jù)中心 GPU 都是臺(tái)積電封裝在 Co Wos 上的。

雖然 3D 封裝技術(shù),如臺(tái)積電的 SoIC 可以直接在邏輯上堆疊芯片,但由于熱量和成本,它對(duì) HBM 沒(méi)有意義。SoIC 在互連密度方面處于不同的數(shù)量級(jí),更適合用芯片堆疊來(lái)擴(kuò)展片內(nèi)緩存,這一點(diǎn)可以從 AMD 的 3D V-Cache 解決方案中看出。AMD 的 Xilinx 也是多年前將多個(gè) FPGA 芯片組合在一起的第一批 CoWoS 用戶。

雖然還有一些其他應(yīng)用程序使用 CoWoS,例如網(wǎng)絡(luò) (其中一些用于網(wǎng)絡(luò) GPU 集群,如 Broadcom 的 Jericho3-AI)、超級(jí)計(jì)算和 FPGA,但絕大多數(shù) CoWoS 需求來(lái)自人工智能。與半導(dǎo)體供應(yīng)鏈的其他部分不同,其他主要終端市場(chǎng)的疲軟意味著有足夠的閑置空間來(lái)吸收 GPU 需求的巨大增長(zhǎng),CoWoS 和 HBM 已經(jīng)是大多數(shù)面向人工智能的技術(shù),因此所有閑置空間已在第一季度被吸收。隨著 GPU 需求的爆炸式增長(zhǎng),供應(yīng)鏈中的這些部分無(wú)法跟上并成為 GPU 供應(yīng)的瓶頸。

臺(tái)積電首席執(zhí)行官魏哲家表示:「就在最近這兩天,我接到一個(gè)客戶的電話,要求大幅增加后端容量,特別是在 CoWoS 中。我們?nèi)栽谠u(píng)估這一點(diǎn)?!?/p>

臺(tái)積電一直在為更多的封裝需求做好準(zhǔn)備,但可能沒(méi)想到這一波生成式人工智能需求來(lái)得如此之快。6 月,臺(tái)積電宣布在竹南開(kāi)設(shè)先進(jìn)后端晶圓廠 6。該晶圓廠占地 14.3 公頃足以容納每年 100 萬(wàn)片晶圓的 3DFabric 產(chǎn)能。這不僅包括 CoWoS,還包括 SoIC 和 InFO 技術(shù)。

有趣的是,該工廠比臺(tái)積電其他封裝工廠的總和還要大。雖然這只是潔凈室空間,遠(yuǎn)未配備齊全的工具來(lái)實(shí)際提供如此大的容量,但很明顯,臺(tái)積電正在做好準(zhǔn)備,預(yù)計(jì)對(duì)其先進(jìn)封裝解決方案的需求會(huì)增加。

確實(shí)有點(diǎn)幫助的是,在 Wafer 級(jí)別的扇出封裝能力 (主要用于智能手機(jī) SoC) 方面存在不足,其中一些可以在 CoWoS 過(guò)程中重新使用。特別是有一些重疊的過(guò)程,如沉積,電鍍,反磨,成型,放置,和 RDL 形成。我們將通過(guò) CoWoS 流程和所有的公司誰(shuí)看到了積極的需求,因?yàn)樗谝粋€(gè)后續(xù)部分。設(shè)備供應(yīng)鏈中存在著有意義的轉(zhuǎn)變。

還有來(lái)自英特爾、三星和 OSAT 的其他 2.5D 封裝技術(shù) (如 ASE 的 FOEB),CoWoS 是唯一在大容量中使用的技術(shù),因?yàn)?TSMC 是人工智能加速器的最主要的晶圓廠。甚至英特爾哈巴納的加速器都是由臺(tái)積電制造和封裝的。


CoWoS 變體

CoWoS 有幾種變體,但原始 CoWoS-S 仍然是大批量生產(chǎn)中的唯一配置。這是如上所述的經(jīng)典配置:邏輯芯片+HBM 芯片通過(guò)帶有 TSV 的硅基中介層連接。然后將中介層放置在有機(jī)封裝基板上。

硅中介層的一項(xiàng)支持技術(shù)是一種稱為「掩模版縫合」的技術(shù)。由于光刻工具狹縫/掃描最大尺寸,芯片的最大尺寸通常為 26mmx33mm。隨著 GPU 芯片本身接近這一極限,并且還需要在其周?chē)惭b HBM,中介層需要很大,并且將遠(yuǎn)遠(yuǎn)超出這一標(biāo)線極限。臺(tái)積電解決了這與網(wǎng)線拼接,這使他們的模式插入式多次的刻線限制 (目前最高 3.5 倍與 AMD MI 300)。

CoWOS-R 使用在具有再分布層(RDL)的有機(jī)襯底上,而不是硅中間層。這是一個(gè)成本較低的變體,犧牲的 I/O 密度,由于使用有機(jī) RDL,而不是基于硅的插入物。正如我們已經(jīng)詳細(xì)介紹的,AMD 的 MI300 最初是在 CoWoS-R 上設(shè)計(jì)的,但我們認(rèn)為,由于翹曲和熱穩(wěn)定性問(wèn)題,AMD 不得不使用 CoWoS-S。

CoWoS-L 預(yù)計(jì)將在今年晚些時(shí)候推出,它采用 RDL 內(nèi)插器,但包含有源和/或無(wú)源硅橋,用于嵌入內(nèi)插器中的管芯到管芯互連。這是臺(tái)積電的相當(dāng)于英特爾的 EMIB 封裝技術(shù)。這將允許更大的封裝尺寸,因?yàn)楣璨迦胛镌絹?lái)越難以擴(kuò)展。MI300 Co WO S-S 可能是一個(gè)單一的硅插入器的限制附近。

這將是更經(jīng)濟(jì)的更大的設(shè)計(jì)去與 CoWoS-L 臺(tái)積電正在研究一個(gè) CoWoS-L 的超級(jí)載波內(nèi)插器在 6 倍分劃板的大小。對(duì)于 CoWOS-S,他們沒(méi)有提到 4x reticle 之外的任何內(nèi)容。這是因?yàn)楣璨迦胛锏拇嗳跣?。這種硅中間層只有 100 微米厚,在工藝流程中,隨著中間層尺寸的增大,存在分層或開(kāi)裂的風(fēng)險(xiǎn)。



關(guān)鍵詞: 英偉達(dá) GPU

評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉