兩個(gè)技術(shù)，困住英偉達(dá)GPU生產(chǎn)

作者：semianalysis 時(shí)間：2023-07-07 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

生成人工智能即將到來(lái)，它將改變世界。自從 ChatGPT 風(fēng)靡全球并抓住了我們對(duì) AI 可能性的想象力以來(lái)，我們看到各種各樣的公司急于訓(xùn)練 AI 模型并將生成式 AI 部署到內(nèi)部工作流程或面向客戶的應(yīng)用程序中。不僅僅是大型科技公司和初創(chuàng)公司，許多非科技財(cái)富 5000 強(qiáng)公司正在研究如何部署基于 LLM 的解決方案。

本文引用地址：http://2s4d.com/article/202307/448435.htm

當(dāng)然，這將需要大量的 GPU 計(jì)算。GPU 銷量像火箭一樣上升，供應(yīng)鏈一直在努力跟上對(duì) GPU 的需求。公司正在爭(zhēng)先恐后地獲得 GPU 或云實(shí)例。

即使是 OpenAI 也無(wú)法獲得足夠的 GPU，這嚴(yán)重阻礙了其近期路線圖。由于 GPU 短缺，OpenAI 無(wú)法部署其多模態(tài)模型。由于 GPU 短缺，OpenAI 無(wú)法部署更長(zhǎng)的序列長(zhǎng)度模型（8k 與 32k）。

與此同時(shí)，中國(guó)公司不僅投資部署自己的 LLM，而且還在美國(guó)出口管制進(jìn)一步收緊之前進(jìn)行庫(kù)存。例如，Tik Tok 背后的中國(guó)公司字節(jié)跳動(dòng)（Bytedance）據(jù)稱從英偉達(dá)訂購(gòu)了價(jià)值超過 10 億美元的 A800 / H800。

最高端的 Nvidia GPUH100 將一直售罄到明年第一季度，盡管 Nvidia 試圖大幅增加產(chǎn)量。英偉達(dá)將每季度出貨 400，000 個(gè) H100 GPU。

今天，我們將詳細(xì)介紹生產(chǎn)瓶頸以及英偉達(dá)及其競(jìng)爭(zhēng)對(duì)手的下游產(chǎn)能正在擴(kuò)大多少。

英偉達(dá)的 H100 采用 CoWoS-S 上的 7 芯片封裝。中間是 H100 GPU ASIC，其芯片尺寸為 814mm2。不同 SKU 之間的 HBM 配置有所不同，但 H100 SXM 版本使用 HBM3，每個(gè)堆棧為 16GB，總內(nèi)存為 80GB。H100 NVL 將具有兩個(gè)封裝，每個(gè)封裝上有 6 個(gè) HBM 有源層。

在只有 5 個(gè)有源 HBM 的情況下，非 HBM 芯片可以為芯片提供結(jié)構(gòu)支持。這些芯片位于一個(gè)在圖片中看不清楚的硅插入物之上。該硅插入物位于一個(gè)封裝襯底上，該封裝襯底是一個(gè) ABF 封裝襯底。

GPU 芯片和臺(tái)積電制造

英偉達(dá) GPU 的主要數(shù)字處理組件是處理器芯片本身，在名為「4N」的定制臺(tái)積電工藝節(jié)點(diǎn)上制造。它在臺(tái)積電位于中國(guó)臺(tái)灣臺(tái)南的 Fab 18 制造，與臺(tái)積電 N5 和 N4 工藝節(jié)點(diǎn)共享相同的設(shè)施。這不是生產(chǎn)的限制因素。

臺(tái)積電 N5 工藝節(jié)點(diǎn)的利用率降至 70% 以下，原因是 PC、智能手機(jī)和非 AI 相關(guān)數(shù)據(jù)中心芯片的巨大疲軟，英偉達(dá)在確保額外的晶圓供應(yīng)方面沒有問題。

事實(shí)上，英偉達(dá)已經(jīng)訂購(gòu)了大量用于 H100 GPU 和 NVSwitch 的晶圓，這些晶圓立即開始生產(chǎn)，遠(yuǎn)遠(yuǎn)早于它們需要出貨芯片。這些晶圓將存放在臺(tái)積電的芯片組中，直到下游供應(yīng)鏈有足夠的能力將這些晶圓封裝成完整的芯片。

基本上，英偉達(dá)正在吸收臺(tái)積電的一些低利用率，并獲得一些定價(jià)優(yōu)勢(shì)，因?yàn)橛ミ_(dá)已承諾在未來(lái)購(gòu)買成品。

晶圓庫(kù)，也稱為芯片庫(kù)，是半導(dǎo)體行業(yè)的一種做法，其中部分加工或完成的晶圓被存儲(chǔ)，直到客戶需要它們。與其他一些代工廠不同，臺(tái)積電將通過將這些晶圓保存在自己的賬簿上幾乎完全加工來(lái)幫助他們的客戶。這種做法使臺(tái)積電及其客戶能夠保持財(cái)務(wù)靈活性。由于它們只是部分加工的，因此晶圓庫(kù)中持有的晶圓不被視為成品，而是被歸類為在制品。只有當(dāng)這些晶圓完全完成時(shí)，臺(tái)積電才能確認(rèn)收入并將這些晶圓的所有權(quán)轉(zhuǎn)讓給客戶。

這有助于客戶裝扮他們的資產(chǎn)負(fù)債表，使庫(kù)存水平看起來(lái)得到控制。對(duì)于臺(tái)積電來(lái)說，好處是它可以幫助保持更高的利用率，從而支持利潤(rùn)率。然后，當(dāng)客戶需要更多的庫(kù)存時(shí)，這些晶圓可以通過幾個(gè)最后的加工步驟完全完成，然后以正常的銷售價(jià)格甚至輕微的折扣交付給客戶。這有助于客戶修飾他們的資產(chǎn)負(fù)債表，使庫(kù)存水平看起來(lái)處于控制之中。對(duì)于臺(tái)積電說，好處是可以幫助保持更高的利用率，從而支撐利潤(rùn)率。然后，隨著客戶需要更多庫(kù)存，這些晶圓可以通過幾個(gè)最終加工步驟完全完成，然后以正常銷售價(jià)格甚至稍有扣的價(jià)格交付給客戶。

HBM 在數(shù)據(jù)中心的出現(xiàn)

GPU 周圍的高帶寬內(nèi)存是下一個(gè)主要組件。HBM 供應(yīng)量也有限，但正在增加。HBM 是垂直堆疊 DRAM 芯片，通過硅通孔（TSV）連接，并使用 TCB 鍵合（未來(lái)需要更高的堆疊數(shù)量）。在 DRAM 芯片下面有一個(gè)基本邏輯作為控制器的管芯。通常，現(xiàn)代 HBM 有 8 層內(nèi)存和 1 個(gè)基本邏輯芯片但是我們很快就會(huì)看到 12+1 層 HBM 的產(chǎn)品，例如 AMD 的 MI300X 和英偉達(dá)即將推出的 H100 更新。

有趣的是，是 AMD 開創(chuàng)了 HBM，盡管 NVIDIA 和谷歌是今天最大的用戶。在 2008 年，AMD 預(yù)測(cè)，為了與游戲 GPU 性能相匹配，內(nèi)存帶寬的持續(xù)擴(kuò)展將需要越來(lái)越多的電源，這將需要從 GPU 邏輯中轉(zhuǎn)移，從而降低 GPU 的性能。AMD 與 SK Hynix 和供應(yīng)鏈中的其他公司 (如 Amkor) 合作，尋找一種能提供高帶寬、低功耗的內(nèi)存解決方案。這導(dǎo)致 SK Hynix 在 2013 年開發(fā) HBM。

SK 海力士于 2015 年首次為 AMD Fiji 系列游戲 GPU 提供 HBM，該 GPU 由 Amkor 進(jìn)行 2.5D 封裝。隨后在 2017 年推出了使用 HBM2 的 Vega 系列。然而，HBM 并沒有改變游戲 GPU 性能的游戲規(guī)則。由于沒有明顯的性能優(yōu)勢(shì)加上更高的成本，AMD 在 Vega 之后重新使用 GDDR 作為其游戲卡。今天，來(lái)自 Nvidia 和 AMD 的頂級(jí)游戲 GPU 仍在使用更便宜的 GDDR6。

然而，AMD 的最初預(yù)測(cè)在某種程度上是正確的:擴(kuò)展內(nèi)存帶寬已被證明是 GPU 的一個(gè)問題，只是這主要是數(shù)據(jù)中心 GPU 的問題。對(duì)于消費(fèi)級(jí)游戲 GPU，英偉達(dá)和 AMD 已轉(zhuǎn)向使用大型緩存作為頓緩沖區(qū)，使它們能夠使用帶寬低得多的 GDDR 內(nèi)存。

正如我們過去所詳述的，推理和訓(xùn)練工作負(fù)載是內(nèi)存密集型的。隨著 AI 模型中參數(shù)數(shù)量的指數(shù)級(jí)增長(zhǎng)，僅權(quán)重就將模型大小推高到 TB。因此，人工智能加速器的性能受到從內(nèi)存中存儲(chǔ)和檢索訓(xùn)練和推理數(shù)據(jù)的能力的瓶頸：這個(gè)問題通常被稱為內(nèi)存墻。

為了解決這個(gè)問題，領(lǐng)先的數(shù)據(jù)中心 GPU 與高帶寬內(nèi)存（HBM）共同打包。英偉達(dá)在 2016 年發(fā)布了他們的第一個(gè) HBM GPU，P100。HBM 通過在傳統(tǒng) DDR 內(nèi)存和片上緩存之間找到中間地帶來(lái)解決內(nèi)存難題，以容量換取帶寬。通過大幅增加引腳數(shù)，達(dá)到每個(gè) HBM 堆棧 1024 位寬的內(nèi)存總線，這是每個(gè) DIMM 64 位寬度的 DDR5 的 18 倍，從而實(shí)現(xiàn)更高的帶寬。同時(shí)，以極低的每比特傳輸能量（pJ/bit）來(lái)控制功率。這是通過更短的走線長(zhǎng)度實(shí)現(xiàn)的，HBM 的走線長(zhǎng)度以毫米為單位，GDDR 和 DDR 的走線長(zhǎng)度以厘米為單位。

如今，許多面向 HPC 的芯片公司正在享受 AMD 努力的成果。具有諷刺意味的是，AMD 的競(jìng)爭(zhēng)對(duì)手 Nvidia 作為 HBM 的最高用戶可能受益最多。

HBM 市場(chǎng):SK 海力士占據(jù)主導(dǎo)地位

作為 HBM 的先驅(qū)，SK Hynix 是擁有最先進(jìn)技術(shù)路線圖的領(lǐng)導(dǎo)者。SK Hynix 公司于 2022 年 6 月開始生產(chǎn) HBM 3，目前是唯一一家批量交付 HBM 3 的供應(yīng)商，市場(chǎng)份額超過 95%，這是大多數(shù) H 100 SKU 正在使用的產(chǎn)品。HBM 的最大配置現(xiàn)在 8 層 16 GB HBM 3 模塊。SK Hynix 為 AMD MI300X 和 NVIDIA H 100 刷新生產(chǎn) 12 層 24 GB HBM 3，其數(shù)據(jù)率為 5.6 GT/S。

HBM 的主要挑戰(zhàn)是封裝和堆疊存儲(chǔ)器，這是 SK 海力士所擅長(zhǎng)的，積累了最強(qiáng)的工藝流程知識(shí)。

三星緊跟 SK 海力士之后，預(yù)計(jì)將在 2023 年下半年推出 HBM 3。我們相信它們都是為 NVIDIA 和 AMD GPU 設(shè)計(jì)的。他們目前對(duì) SK Hynix 的數(shù)量有很大的虧空，但他們正緊追不舍，正在進(jìn)行巨大的投資以追趕市場(chǎng)份額。三星正在投資追趕 HBM，成為 HBM 市場(chǎng)份額的第一名，就像他們擁有標(biāo)準(zhǔn)內(nèi)存一樣。我們聽說他們正在與一些加速器公司達(dá)成有利的交易，以爭(zhēng)取更多的份額。

他們已經(jīng)展示了他們的 12 層 HBM 以及未來(lái)的混合粘結(jié) HBM. 三星 HBM-4 路線圖的一個(gè)有趣方面是，他們希望在內(nèi)部的 FinFET 節(jié)點(diǎn)上實(shí)現(xiàn)邏輯/外圍。這顯示了他們?cè)趦?nèi)部擁有邏輯和 DRAM 制造的潛在優(yōu)勢(shì)

美光是最落后的。美光在混合內(nèi)存立方體（HMC）技術(shù)上投入了更多的資金。這是一個(gè)與 HBM 競(jìng)爭(zhēng)的技術(shù)，與 HBM 有著非常相似的概念。然而，HMC 周圍的生態(tài)系統(tǒng)是封閉的，使得 IP 很難在 HMC 周圍發(fā)展。此外，還存在一些技術(shù)缺陷。HBM 的采用率更高，因此 HBM 成為 3D 堆疊 DRAM 的行業(yè)標(biāo)準(zhǔn)。

直到 2018 年，美光才開始從 HMC 轉(zhuǎn)向 HBM 路線圖。這就是為什么美光是最落后的。他們?nèi)匀煌Ａ粼?HBM2E 上（SK 海力士在 2020 年中期開始大規(guī)模生產(chǎn)），甚至不能成功地制造頂盒 HBM2E。

在他們最近的財(cái)報(bào)電話會(huì)議上，美光對(duì)他們的 HBM 路線圖做了一些大膽的聲明：他們相信他們將在 2024 年通過 HBM3E 從落后者變成領(lǐng)導(dǎo)者。HBM3E 預(yù)計(jì)將在第三季度/第四季度開始為英偉達(dá)的下一代 GPU 出貨。美光首席商務(wù)官 SumitSadana 表示：「我們的 HBM3 斜坡實(shí)際上是下一代 HBM3，與當(dāng)今業(yè)界生產(chǎn)的 HBM3 相比，它具有更高水平的性能、帶寬和更低的功耗。該產(chǎn)品，即我們行業(yè)領(lǐng)先的產(chǎn)品，將從 2024 年第一季度開始銷量大幅增加，并對(duì) 2024 財(cái)年的收入產(chǎn)生重大影響，并在 2025 年大幅增加，即使是在 2024 年的水平基礎(chǔ)上。我們的目標(biāo)是在 HBM 中獲得非常強(qiáng)勁的份額，高于行業(yè)中 DRAM 的非自然供應(yīng)份額?！?/p>

他們?cè)?HBM 中擁有比一般 DRMA 市場(chǎng)份額更高的市場(chǎng)份額的聲明非常大膽。鑒于他們?nèi)栽谂Υ笈可a(chǎn)頂級(jí) HBM2E，我們很難相信美光聲稱他們將在 2024 年初推出領(lǐng)先的 HBM3，甚至成為第一個(gè) HBM3E。在我們看來(lái)，盡管英偉達(dá) GPU 服務(wù)器的內(nèi)存容量比英特爾/AMD CPU 服務(wù)器要低得多，但美光科技似乎正在試圖改變?nèi)藗儗?duì)人工智能失敗者的看法。

我們所有的渠道檢查都發(fā)現(xiàn) SK 海力士在新一代技術(shù)方面保持最強(qiáng)，而三星則非常努力地通過大幅供應(yīng)增加、大膽的路線圖和削減交易來(lái)追趕。

真正的瓶頸-CoWoS

下一個(gè)瓶頸是 CoWoS 容量。CoWoS 是臺(tái)積電的一種「2.5D」封裝技術(shù)，其中多個(gè)有源硅芯片 (通常的配置是邏輯和 HBM 堆棧）集成在無(wú)源硅中介層上。中介層充當(dāng)頂部有源芯片的通信層。然后將內(nèi)插器和有源硅連接到包含要放置在系統(tǒng) PCB 上的 I/O 的封裝基板。

HBM 和 CoWoS 是相輔相成的。HBM 的高焊盤數(shù)和短跡線長(zhǎng)度要求需要 2.5D 先進(jìn)封裝技術(shù)，如 CoWoS，以實(shí)現(xiàn)這種密集的短連接，這在 PCB 甚至封裝基板上是無(wú)法實(shí)現(xiàn)的。CoWoS 是主流封裝技術(shù)，以合理的成本提供最高的互連密度和最大的封裝尺寸。由于目前幾乎所有的 HBM 系統(tǒng)都封裝在 Co Wos 上，所有先進(jìn)的人工智能加速器都使用 HBM，因此幾乎所有領(lǐng)先的數(shù)據(jù)中心 GPU 都是臺(tái)積電封裝在 Co Wos 上的。

雖然 3D 封裝技術(shù)，如臺(tái)積電的 SoIC 可以直接在邏輯上堆疊芯片，但由于熱量和成本，它對(duì) HBM 沒有意義。SoIC 在互連密度方面處于不同的數(shù)量級(jí)，更適合用芯片堆疊來(lái)擴(kuò)展片內(nèi)緩存，這一點(diǎn)可以從 AMD 的 3D V-Cache 解決方案中看出。AMD 的 Xilinx 也是多年前將多個(gè) FPGA 芯片組合在一起的第一批 CoWoS 用戶。

雖然還有一些其他應(yīng)用程序使用 CoWoS，例如網(wǎng)絡(luò) (其中一些用于網(wǎng)絡(luò) GPU 集群，如 Broadcom 的 Jericho3-AI)、超級(jí)計(jì)算和 FPGA，但絕大多數(shù) CoWoS 需求來(lái)自人工智能。與半導(dǎo)體供應(yīng)鏈的其他部分不同，其他主要終端市場(chǎng)的疲軟意味著有足夠的閑置空間來(lái)吸收 GPU 需求的巨大增長(zhǎng)，CoWoS 和 HBM 已經(jīng)是大多數(shù)面向人工智能的技術(shù)，因此所有閑置空間已在第一季度被吸收。隨著 GPU 需求的爆炸式增長(zhǎng)，供應(yīng)鏈中的這些部分無(wú)法跟上并成為 GPU 供應(yīng)的瓶頸。

臺(tái)積電首席執(zhí)行官魏哲家表示：「就在最近這兩天，我接到一個(gè)客戶的電話，要求大幅增加后端容量，特別是在 CoWoS 中。我們?nèi)栽谠u(píng)估這一點(diǎn)?！?/p>

臺(tái)積電一直在為更多的封裝需求做好準(zhǔn)備，但可能沒想到這一波生成式人工智能需求來(lái)得如此之快。6 月，臺(tái)積電宣布在竹南開設(shè)先進(jìn)后端晶圓廠 6。該晶圓廠占地 14.3 公頃足以容納每年 100 萬(wàn)片晶圓的 3DFabric 產(chǎn)能。這不僅包括 CoWoS，還包括 SoIC 和 InFO 技術(shù)。

有趣的是，該工廠比臺(tái)積電其他封裝工廠的總和還要大。雖然這只是潔凈室空間，遠(yuǎn)未配備齊全的工具來(lái)實(shí)際提供如此大的容量，但很明顯，臺(tái)積電正在做好準(zhǔn)備，預(yù)計(jì)對(duì)其先進(jìn)封裝解決方案的需求會(huì)增加。

確實(shí)有點(diǎn)幫助的是，在 Wafer 級(jí)別的扇出封裝能力 (主要用于智能手機(jī) SoC) 方面存在不足，其中一些可以在 CoWoS 過程中重新使用。特別是有一些重疊的過程，如沉積，電鍍，反磨，成型，放置，和 RDL 形成。我們將通過 CoWoS 流程和所有的公司誰(shuí)看到了積極的需求，因?yàn)樗谝粋€(gè)后續(xù)部分。設(shè)備供應(yīng)鏈中存在著有意義的轉(zhuǎn)變。

還有來(lái)自英特爾、三星和 OSAT 的其他 2.5D 封裝技術(shù) (如 ASE 的 FOEB)，CoWoS 是唯一在大容量中使用的技術(shù)，因?yàn)?TSMC 是人工智能加速器的最主要的晶圓廠。甚至英特爾哈巴納的加速器都是由臺(tái)積電制造和封裝的。

CoWoS 變體

CoWoS 有幾種變體，但原始 CoWoS-S 仍然是大批量生產(chǎn)中的唯一配置。這是如上所述的經(jīng)典配置:邏輯芯片+HBM 芯片通過帶有 TSV 的硅基中介層連接。然后將中介層放置在有機(jī)封裝基板上。

硅中介層的一項(xiàng)支持技術(shù)是一種稱為「掩模版縫合」的技術(shù)。由于光刻工具狹縫/掃描最大尺寸，芯片的最大尺寸通常為 26mmx33mm。隨著 GPU 芯片本身接近這一極限，并且還需要在其周圍安裝 HBM，中介層需要很大，并且將遠(yuǎn)遠(yuǎn)超出這一標(biāo)線極限。臺(tái)積電解決了這與網(wǎng)線拼接，這使他們的模式插入式多次的刻線限制 (目前最高 3.5 倍與 AMD MI 300)。

CoWOS-R 使用在具有再分布層（RDL）的有機(jī)襯底上，而不是硅中間層。這是一個(gè)成本較低的變體，犧牲的 I/O 密度，由于使用有機(jī) RDL，而不是基于硅的插入物。正如我們已經(jīng)詳細(xì)介紹的，AMD 的 MI300 最初是在 CoWoS-R 上設(shè)計(jì)的，但我們認(rèn)為，由于翹曲和熱穩(wěn)定性問題，AMD 不得不使用 CoWoS-S。

CoWoS-L 預(yù)計(jì)將在今年晚些時(shí)候推出，它采用 RDL 內(nèi)插器，但包含有源和/或無(wú)源硅橋，用于嵌入內(nèi)插器中的管芯到管芯互連。這是臺(tái)積電的相當(dāng)于英特爾的 EMIB 封裝技術(shù)。這將允許更大的封裝尺寸，因?yàn)楣璨迦胛镌絹?lái)越難以擴(kuò)展。MI300 Co WO S-S 可能是一個(gè)單一的硅插入器的限制附近。

這將是更經(jīng)濟(jì)的更大的設(shè)計(jì)去與 CoWoS-L 臺(tái)積電正在研究一個(gè) CoWoS-L 的超級(jí)載波內(nèi)插器在 6 倍分劃板的大小。對(duì)于 CoWOS-S，他們沒有提到 4x reticle 之外的任何內(nèi)容。這是因?yàn)楣璨迦胛锏拇嗳跣浴＿@種硅中間層只有 100 微米厚，在工藝流程中，隨著中間層尺寸的增大，存在分層或開裂的風(fēng)險(xiǎn)。