中國瘋搶 GPU，這場困局如何破？

作者：時間：2023-08-24 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在 AI 領(lǐng)域，GPU 的主要應(yīng)用場景有兩個，第一個是訓(xùn)練場景，即利用 GPU 加速 AI 算法的訓(xùn)練。第二個場景是推理場景，即利用 GPU 加速 AI 算法推理。目前，國內(nèi)高端 AI 場景中的 GPU 應(yīng)用基本上都由英偉達(dá)的 A800 覆蓋。

本文引用地址：http://2s4d.com/article/202308/449886.htm

A800 被視為是 A100 的「閹割版」。去年由于美國政府收緊對華出口管制，英偉達(dá)迅速推出數(shù)據(jù)傳輸速度相對較慢的 A800，用來代替 A100 向中國出口，與此類似的還有更高端的英偉達(dá) H100 和 H800。

由于中國暫時沒有能力提供用于云端 AI 訓(xùn)練的高性能 GPU，因此 A800 迎來中國互聯(lián)網(wǎng)巨頭的青睞。

全球芯片巨頭，囤積 GPU

據(jù)報道，中國的互聯(lián)網(wǎng)巨頭百度、騰訊、阿里巴巴以及字節(jié)跳動公司今年向英偉達(dá)下達(dá)的交付訂單金額達(dá)到 10 億美元，總共采購約 10 萬張 A800 芯片；明年交付的 AI 芯片價值更是達(dá)到 40 億美元。

可見，中國大型科技公司對于 GPU 采購非常急迫。不止國內(nèi)企業(yè)，國外大客戶對英偉達(dá)的 A100/H100 芯片需求同樣非常強烈。

近來，社區(qū)廣為流傳的一張圖「我們需要多少張 GPU」，引發(fā)了眾多網(wǎng)友的討論。

根據(jù)圖中內(nèi)容所示：GPT-4 可能在大約 10000—25000 張 A100 上進(jìn)行訓(xùn)練；Meta 大約需要 21000 張 A100；Tesla 大約需要 7000 張 A100；Stability AI 大約需要 5000 張 A100；Falcon-40B 在 384 張 A100 上進(jìn)行了訓(xùn)練；Inflection 使用了 3500 張 H100，來訓(xùn)練與 GPT-3.5 能力相當(dāng)?shù)哪Ｐ?。另外，根?jù)馬斯克的說法，GPT-5 可能需要 30000—50000 張 H100。

面對如此強大的需求，英偉達(dá)的 GPU 陷入極度短缺。據(jù)外媒報道，供應(yīng)鏈消息顯示，在生成式人工智能需求高漲以及國際形勢變化等因素影響下，英偉達(dá)專供中國市場的 A800 和 H800 GPU 價格持續(xù)攀升。7 月中旬，英偉達(dá)代理商反饋，英偉達(dá)的 A800 GPU 單價漲至 12 萬元，H800 和 H100 報價也都超過 20 萬。目前英偉達(dá)訂單能見度已至 2024 年，以現(xiàn)在的排產(chǎn)進(jìn)度，就連 A800/H800 都要到今年底或明年才能交貨。

產(chǎn)量瓶頸在哪里？

據(jù) tomshardware 報道，英偉達(dá) DGX 系統(tǒng)副總裁兼總經(jīng)理 Charlie Boyle 出面澄清了該公司 GPU 產(chǎn)量問題的具體所在。Charlie Boyle 表示，問題并非來自英偉達(dá)錯誤計算需求，或其制造合作伙伴臺積電的晶圓產(chǎn)量問題。相反，制造足夠的 GPU 來滿足消費者和專業(yè)工作負(fù)載（比如 AI）的瓶頸在于隨后的芯片封裝步驟。

英偉達(dá)的 H 系列 GPU 采用臺積電的 2.5D CoWoS 封裝技術(shù)，這是一種多步驟、高精度的工程流程，其復(fù)雜性降低了在給定時間內(nèi)可以組裝的 GPU 數(shù)量，這可能會不成比例地影響供應(yīng)。馬斯克也表示「GPU 超級難得」。

因此，當(dāng)人們使用「GPU 短缺」這個詞時，他們實際上是在談?wù)撝靼迳夏承┙M件的短缺或積壓，而不是 GPU 本身。

在芯片成為可用的 GPU 之前，需要執(zhí)行從芯片設(shè)計到制造的多個步驟。芯片設(shè)計階段的問題可能會因設(shè)計疏忽而造成制造瓶頸，從而降低設(shè)計的良率。稀土金屬或其他材料（例如最近受到限制的鎵）的缺乏將影響長物流鏈中的其他步驟；材料污染、能源中斷和許多其他因素也會造成影響。

但 CoWoS 的瓶頸問題可能比預(yù)想的更嚴(yán)重。臺積電也表示，預(yù)計需要一年半（以及完成額外晶圓廠和擴(kuò)建現(xiàn)有設(shè)施）才能使封裝訂單積壓恢復(fù)正常。這可能意味著英偉達(dá)將不得不決定將哪些封裝能力分配給哪些產(chǎn)品，因為它沒有足夠的時間和能力來封裝所有產(chǎn)品。

不僅如此，為限制中國 AI 產(chǎn)業(yè)的發(fā)展，美國總統(tǒng)拜登在今年 8 月正式簽署行政命令，限制美國企業(yè)未來在敏感技術(shù)的對華投資，涵蓋半導(dǎo)體、量子計算和人工智能三大領(lǐng)域，預(yù)計將于明年實施。

產(chǎn)量不足尚且可破，倘若切斷供應(yīng)，極有可能使這些正在進(jìn)行云端 AI 訓(xùn)練的大廠陷入困局，也正因此，這些科技巨頭開始競相囤積 A800 芯片。仍需重視的是，倘若 A800/H800 當(dāng)真受到美國禁令的影響，中國本土芯片公司以及那些正在自研芯片的科技大廠是否有能力擔(dān)此重任？

運行大模型，國產(chǎn) GPGPU 有哪些可選標(biāo)的？

如今，美國實施新的許可要求，限制中國利用高端 GPU 獲取先進(jìn)計算能力，由于被限制的是近兩年商用領(lǐng)域最先進(jìn)的 GPU 產(chǎn)品，暫時沒有可以全面替代的選擇。因此，美國政府認(rèn)為，切斷中國從美國公司獲取這些芯片的直接渠道，可以為中國人工智能的發(fā)展制造障礙，遲滯中國人工智能的發(fā)展，希望中國人工智能領(lǐng)域由此一蹶不振。

然而事實呢？事實是禁令一出美國企業(yè)的股票遇冷下行，生產(chǎn)類似芯片的中國企業(yè)的股票卻呈現(xiàn)相反的上行態(tài)勢。這也意味著作為美國企業(yè)戰(zhàn)略競爭者的中國企業(yè)或許能夠獲得更大的發(fā)展空間。

其實從 2019 年開始，應(yīng)用于超算領(lǐng)域的高端 GPU 售至中國就受到嚴(yán)格管制，但當(dāng)時只是 AMD 產(chǎn)品受限，英偉達(dá)的產(chǎn)品并未受到影響，因此企業(yè)和消費者在產(chǎn)品端的感知也并不強。而這一次范圍擴(kuò)大之后，其主要應(yīng)用場景除了超算中心之外，還包括云計算服務(wù)器、數(shù)據(jù)中心、AI 訓(xùn)練等場景，許多互聯(lián)網(wǎng)大廠也就受到了影響。

正因為有了前車之鑒，隨著國內(nèi)云計算以及互聯(lián)網(wǎng)企業(yè)在云端存儲、數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多，各大互聯(lián)網(wǎng)公司、云廠商也在 AI 芯片領(lǐng)域進(jìn)行布局。

2019 年阿里推出人工智能芯片「含光 800」，「含光 800」是一款面向數(shù)據(jù)中心 AI 應(yīng)用的人工處理推理芯片，采用臺積電 12nm 制程，這是一顆為 AI 場景深度定制的芯片，進(jìn)一步提升了 AI 場景計算的效率。阿里曾表示，「含光 800」是當(dāng)時全球最強的 AI 芯片，性能和能效比均為第一，1 顆「含光 800」的算力相當(dāng)于 10 顆 GPU。目前已應(yīng)用在阿里云的云服務(wù)器中，它能夠優(yōu)化電商智能搜索、智能營銷等場景。阿里「含光 800」雖然不對外售賣，但阿里云智能總裁張建峰也提到「含光 800」將通過阿里云對外輸出 AI 算力，未來企業(yè)可以通過阿里云獲取「含光 800」的算力。

百度也在 2020 年量產(chǎn)了第一代 AI 芯片——昆侖。百度昆侖 1 采用三星 14nm 制程工藝，目前量產(chǎn)超過 2 萬片，在百度搜索引擎和百度智能云生態(tài)伙伴等場景廣泛部署。百度昆侖 2 于 2021 年下半年實現(xiàn)量產(chǎn)，采用 7nm 先進(jìn)工藝，其性能比百度昆侖 1 再提升 3 倍。據(jù)悉，百度正在做第三款昆侖芯片，將于明年的年初上市。

稍微慢一點的騰訊也在 2021 年發(fā)布了視頻處理芯片「滄海」和 AI 芯片「紫霄」。字節(jié)在「2022 火山引擎原動力大會」上也正式確認(rèn)了其在自主造芯方面的布局。目前，字節(jié)的自研芯片已經(jīng)涉足視頻平臺、信息和娛樂應(yīng)用等。

目前為止，國內(nèi)互聯(lián)網(wǎng)大廠的芯片研發(fā)方向都集中在云計算、視頻圖像處理等方面的專用或者通用芯片上。除了互聯(lián)網(wǎng)大廠，國內(nèi)也已經(jīng)有一些 GPU 廠商源源不斷的發(fā)布一些性能優(yōu)異的產(chǎn)品。

目前全球 AI 計算芯片主要分為 GPGPU、ASIC、FPGA 三種架構(gòu)。而被限制的 A800 和 H800 芯片就屬于 GPGPU 架構(gòu)芯片。目前能運行大模型訓(xùn)練的也只有 GPGPU 架構(gòu)。

當(dāng)前國內(nèi) AI 芯片主要廠商包括華為、寒武紀(jì)、海光信息、遂原、壁仞、天數(shù)智芯等，此外龍芯也在布局。其中，發(fā)力 GPGPU 芯片的包括海光、壁仞科技、沐曦科技、龍芯等等。

海光的深算一號采用的就是 GPGPU 架構(gòu)，是公司 DCU 系列的主要在售產(chǎn)品。

國內(nèi)的廠商中海光信息從實際量產(chǎn)的技術(shù)上來講是第一梯隊，其深算一號可以用來運行大模型，在 2022 年度實現(xiàn)了在大數(shù)據(jù)處理、人工智能、商業(yè)計算等領(lǐng)域的商業(yè)化應(yīng)用。不過其整體性能只相當(dāng)于英偉達(dá) P100 的水平，大約是英偉達(dá) 2014 年的技術(shù)水平。不過，其深算二號、三號也處于研發(fā)階段，海光稱其產(chǎn)品性能在國內(nèi)處于領(lǐng)先地位。

壁仞科技在 2022 年發(fā)布了首款 GPGPU 芯片 BR100 系列，性能方面超越英偉達(dá) A100。BR100 系列通用 GPU 芯片支持云端訓(xùn)練和推理，目前已經(jīng)到了收尾階段，正準(zhǔn)備流片。壁仞科技的第二款芯片也已經(jīng)開始啟動架構(gòu)設(shè)計，之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計算的 GPU 芯片。至于未來量產(chǎn)應(yīng)用情況暫時存疑。還需重視的是，對于國內(nèi)初創(chuàng) GPGPU 公司而言，軟件生態(tài)更為重要。目前國內(nèi)的初創(chuàng)公司雖然在細(xì)分領(lǐng)域上有一定的落地，而真正在大模型訓(xùn)練上能有實際應(yīng)用的還非常欠缺。倘若未來 BR100 的實際應(yīng)用效果還不錯，那么在軟件生態(tài)上還需加把勁。

沐曦也是國內(nèi) GPGPU 的選手之一。沐曦公司旗下主要有曦思和曦云兩款 AI 芯片，其中曦云 MXC 系列是該公司研發(fā)的用于 AI 訓(xùn)練及通用計算的 GPU 芯片。MXC500 是沐曦對標(biāo) A100/A800 的算力芯片，F(xiàn)P32 浮點性能可達(dá) 15TFlops，作為對比的是 A100 顯卡 FP32 性能 19.5 TFLOPS。除了性能接近之外，MXC500 的完整軟件棧（MXMACA）還兼容 CUDA，預(yù)計年底規(guī)模出貨。

龍芯目前暫無產(chǎn)品發(fā)布，目前進(jìn)展為已經(jīng)完成相關(guān) IP 的設(shè)計，正在驗證優(yōu)化過程中，第一個集成自研 GPGPU 核的 SOC 芯片計劃于 2024 年 Q1 流片。從流片到量產(chǎn)，如果按最快 6—12 個月來算，龍芯的 GPGPU 產(chǎn)品至少也要在 2024 年 Q3 以后才能發(fā)布，量產(chǎn)估計需要在 2025 年了。

另外，華為昇騰也十分被看好。華為的昇騰 910 也能拿來當(dāng)訓(xùn)練芯片，其算力強悍，超英偉達(dá)的 Tesla V100 一倍。但是由于昇騰 910 依賴華為自身軟件生態(tài)、需要華為深度優(yōu)化及代碼移植，通用性相對要差一些，且其采用臺積電的 7nm 制程，在制造上也受到限制，因此暫不做過多討論。

英偉達(dá)是最優(yōu)選，但不能視為唯一選

如今 GPU 缺口還在加速擴(kuò)大，倘若 A800/H800 也受到供應(yīng)限制，那么中國的云服務(wù)器廠商一定要提前謀劃一條自主的發(fā)展路徑。

中國 AI 芯片廠商正從原來強調(diào)算力和獨特技術(shù)的傾向逐漸向針對特定應(yīng)用場景而優(yōu)化的方向轉(zhuǎn)變。雖然微軟、谷歌以及百度現(xiàn)在將 AI 拿來聊天畫畫，但不代表他們的 AI 不能做其他事情。當(dāng)下讓 AI 落地在民用市場不但能使廠商利用 AI 獲得更多的收入，特別是微軟、谷歌和百度都有不小的廣告業(yè)務(wù)，另一方面讓用戶更直觀的體驗到 AI，在民用市場采集更多的數(shù)據(jù)進(jìn)行訓(xùn)練亦能反哺云端場景的應(yīng)用。這個過程可能會長一點，慢一點，但是這也是一定要做的事情。

同樣，倘若無法與中國進(jìn)行貿(mào)易，美國企業(yè)也要承受巨大損失。A800 和 H800 這些 GPU 就是英偉達(dá)為了繞過美國對中國施行的出口禁令所開發(fā)，以此維持其在中國市場的地位。英偉達(dá)此前透露，下半年他們能夠供應(yīng)更多的 GPU，但是沒有提供任何定量的信息。英偉達(dá)首席財務(wù)官 Colette Kress 此前在 2023 年 2 月至 4 月的財報電話會議上透露：「我們正在處理本季度的供應(yīng)，但我們也為下半年采購了大量生產(chǎn)材料。我們相信下半年的供應(yīng)量將大大高于上半年。」

對于中國的市場現(xiàn)狀來說，英偉達(dá) GPU 確是最優(yōu)選，但長久來看并不能將其視為唯一選。