斷供英偉達(dá)高端GPU，國(guó)產(chǎn)芯片誰(shuí)來“續(xù)命”？

作者：時(shí)間：2022-09-13 來源：雪球

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文引用地址：http://2s4d.com/article/202209/438142.htm

8月31日，英偉達(dá)發(fā)布公告稱，美國(guó)通知公司向中國(guó)出口A100和H100芯片將需要新的許可證要求，同時(shí)DGX或任何其他包含A100或H100芯片的產(chǎn)品，以及未來性能高于A100的芯片都將受到新規(guī)管制，同受限制的還包括AMD的M1250芯片。

隨后，9月1日—3日，在中國(guó)上海舉辦的世界人工智能大會(huì)（WAIC），國(guó)產(chǎn)芯片登場(chǎng)于聚光燈下，天數(shù)智芯、壁仞科技、燧原科技、瀚博半導(dǎo)體、寒武紀(jì)、地平線一眾國(guó)產(chǎn)AI芯片公司均展出了最新的技術(shù)和產(chǎn)品，先進(jìn)制程的大算力芯片迎來高光亮相。

一邊在面臨“生死圍剿”，一邊在“奮力發(fā)育”，博弈的拉力賽已然開啟。

劍指HPC和AI，BAT難逃牽連

GPU芯片拉起警報(bào)，已經(jīng)不是第一次了。

從2019年，華為被美國(guó)列入出口管制“實(shí)體清單”，到后來的“中興事件”，以及今年8月份美國(guó)政府直接豪擲527億美元，通過“芯片法案”，其中明文列舉了“中國(guó)護(hù)欄”條款，受到美國(guó)補(bǔ)貼企業(yè)禁止在中國(guó)大陸擴(kuò)大生產(chǎn)和投資更先進(jìn)的芯片，期限是10年，接著，美國(guó)商務(wù)部發(fā)布最終規(guī)定，對(duì)設(shè)計(jì)GAAFET（全柵場(chǎng)效應(yīng)晶體管）結(jié)構(gòu)集成電路所必須的EDA軟件等技術(shù)實(shí)施新的出口管制，相關(guān)禁令已于2022年8月15日正式生效。從芯片上“卡脖子”，意圖將中國(guó)排除在全球半導(dǎo)體供應(yīng)鏈之外，已經(jīng)成為美國(guó)的“陽(yáng)謀”。

而這一次的風(fēng)暴中心卻直指智能化、數(shù)字化的支柱產(chǎn)業(yè)：HPC（高性能計(jì)算）和AI（人工智能）

為什么不限制Orin，而是限制GPU芯片？

“因?yàn)?a class="contentlabel" href="http://2s4d.com/news/listbylabel/label/英偉達(dá)">英偉達(dá)的GPU芯片對(duì)于訓(xùn)練人工智能系統(tǒng)至關(guān)重要，所以要卡在這個(gè)關(guān)鍵點(diǎn)上”。地平線創(chuàng)始人兼CEO余凱表示。

的確，GPU是AI時(shí)代的算力核心亦是人工智能競(jìng)爭(zhēng)的制高點(diǎn)，訓(xùn)練集的反復(fù)訓(xùn)練和推理都需要強(qiáng)大算力的支撐，比如AI深度學(xué)習(xí)需要很高的并行計(jì)算、浮點(diǎn)計(jì)算以及矩陣運(yùn)算能力，基于CPU的傳統(tǒng)計(jì)算架構(gòu)無法充分滿足人工智能高性能并行計(jì)算（HPC）的需求，HPC主要包括數(shù)據(jù)中心、AI、FPGA和網(wǎng)絡(luò)四大應(yīng)用，而HPC應(yīng)用對(duì)于芯片的要求不在于微縮化，而是能否功耗更低，支撐更大的算力，因此需要發(fā)展適合HPC的專屬芯片，而AI00和H100則是目前最能高效匹配HPC計(jì)算需求的芯片配置了。

A100是英偉達(dá)2020年推出的數(shù)據(jù)中心級(jí)云端加速芯片，擁有540億晶體管，采用臺(tái)積電7nm工藝制程，支持FP16、FP32和FP64浮點(diǎn)運(yùn)算，為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力，F(xiàn)P64一般是衡量超級(jí)計(jì)算產(chǎn)品的重要指標(biāo)。

而H100是英偉達(dá)今年3月發(fā)布的最新一代數(shù)據(jù)中心GPU，集成800億晶體管，采用臺(tái)積電定制的4nm工藝，預(yù)計(jì)在今年下半年正式發(fā)貨。英偉達(dá)CEO黃仁勛此前表示，這款GPU具有超強(qiáng)的計(jì)算能力，20個(gè)H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。相比于A100，H100在FP16、FP32和FP64計(jì)算上比A100快三倍，非常適用于當(dāng)下流行且訓(xùn)練難度高的大模型。

“這兩款芯片都是具有足夠雙精度計(jì)算能力的高端GPU，主要用于HPC高性能計(jì)算領(lǐng)域，包括科學(xué)計(jì)算，CAE（計(jì)算機(jī)輔助工程），醫(yī)療等方面。尤其是對(duì)于超算中心而言，可謂是精準(zhǔn)打擊，超算中心即國(guó)家超級(jí)計(jì)算中心，由數(shù)千甚至更多處理器組成，具備超高算力，被譽(yù)為“計(jì)算機(jī)中的珠穆朗瑪峰”，主要滿足國(guó)家高科技領(lǐng)域和尖端技術(shù)研究的需求，很有可能國(guó)內(nèi)一些政府或者研究所相關(guān)單位的超算集群會(huì)因此受到影響。”一位行業(yè)人士表示到。

掃射的波及范圍不止于此，北京半導(dǎo)體行業(yè)協(xié)會(huì)副秘書長(zhǎng)朱晶表示：中國(guó)正在啟動(dòng)的東數(shù)西算戰(zhàn)略也會(huì)暫時(shí)受到影響，因?yàn)樗枰懔A(chǔ)設(shè)施支撐，另外，互聯(lián)網(wǎng)領(lǐng)域也難逃牽連。

目前國(guó)內(nèi)高端場(chǎng)景基本采用英偉達(dá)的A100，包括OEM廠商浪潮、聯(lián)想等，云服務(wù)公司阿里、騰訊、百度等，對(duì)于即將量產(chǎn)的H100，國(guó)內(nèi)主流廠商也已經(jīng)預(yù)定，如阿里云、百度云和騰訊云等，而國(guó)內(nèi)目前尚沒有能夠與A100、H100對(duì)標(biāo)的芯片產(chǎn)品，如果限制，等于各廠商的若干核心業(yè)務(wù)線都將被殃及，如百度智能云下的智慧金融、制造、醫(yī)療等，以及騰訊的數(shù)據(jù)分析和視頻分析領(lǐng)域等。

但誠(chéng)如硬幣兩面，既是難關(guān)也是闖關(guān)，也許國(guó)產(chǎn)GPU廠商補(bǔ)位的機(jī)會(huì)到了。一位國(guó)內(nèi)GPU企業(yè)人員表示。

國(guó)產(chǎn)芯片誰(shuí)來“續(xù)命”？

不可否認(rèn)，芯片半導(dǎo)體越來越具有戰(zhàn)略性質(zhì)。

芯片處理器的大量有機(jī)疊加，構(gòu)成了數(shù)據(jù)中心、智能計(jì)算中心、超算中心等大型基礎(chǔ)設(shè)施。更宏觀一點(diǎn)理解，這些芯片都是支撐政企數(shù)據(jù)上云、數(shù)字化進(jìn)程的底層元器件，可以說是“新基建”的底層支撐，而高性能算力芯片更是“戰(zhàn)略咽喉”。

目前服務(wù)器加速，主要采用的是GPU芯片，占比接近90%，另外則是ASIC、FPGA等。GPGPU（通用GPU）芯片廣泛用于商業(yè)計(jì)算和大數(shù)據(jù)處理，如天氣預(yù)報(bào)、工業(yè)設(shè)計(jì)、基因工程、藥物發(fā)現(xiàn)、金融工程等，在人工智能領(lǐng)域，使用GPGPU（通用GPU）在云端運(yùn)行模型訓(xùn)練算法，可以顯著縮短海量訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí)長(zhǎng)，減少能源消耗，從而進(jìn)一步降低人工智能的應(yīng)用成本。

不同應(yīng)用領(lǐng)域，對(duì)芯片計(jì)算能力及運(yùn)算精度要求也有所不同，比如用于商業(yè)計(jì)算和大數(shù)據(jù)處理（CAE仿真、物理化學(xué)、石油勘探、生命科學(xué)、氣象環(huán)境等），需要雙精度浮點(diǎn)、單精度浮點(diǎn)、32位整型運(yùn)算；人工智能（模型訓(xùn)練、應(yīng)用推理），要求混合精度浮點(diǎn)、半精度浮點(diǎn)、16位整形、8位整型運(yùn)算。

可喜的是，國(guó)內(nèi)GPU廠商已經(jīng)開始嶄露頭角，成果初顯。

從熱鬧的PR新聞中，便可見一斑，進(jìn)軍算力芯片的國(guó)產(chǎn)廠商開始頻“秀肌肉”，在今年世界人工智能大會(huì)上，瀚博半導(dǎo)體發(fā)布了首款7nm云端GPU SG100，用于圖像渲染、視頻和元宇宙等領(lǐng)域，同期，壁仞科技發(fā)布了公司自主研發(fā)的首款通用GPU芯片br100，可見，躋身于算力芯片的國(guó)產(chǎn)GPU廠商隊(duì)伍正在加速攻關(guān)，紛紛推出自研GPU。

目前國(guó)產(chǎn)高端算力芯片還有哪些呢？算力智庫(kù)基于當(dāng)下主要國(guó)產(chǎn)GPU廠商的進(jìn)展和產(chǎn)品參數(shù)，不完全梳理如下：

1、海光信息（688041）

成立于2014年，不久前在科創(chuàng)板上市，海光信息的產(chǎn)品包括通用處理器（CPU）和協(xié)處理器（DCU），海光DCU屬于GPGPU的一種。

海光DCU 8000系列，典型功耗260-350W，支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度，支持4個(gè)HBM2內(nèi)存通道，最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計(jì)算生態(tài)，由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性，CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)。

從產(chǎn)品官宣的參數(shù)來看，海光DCU目前是國(guó)內(nèi)唯一支持FP64雙精度浮點(diǎn)運(yùn)算的產(chǎn)品，英偉達(dá)的A100、H100都支持FP64。

2、壁仞科技

成立于2019年，聚焦開發(fā)原創(chuàng)性的通用計(jì)算體系，建立高效的軟硬件平臺(tái)，同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決方案。

今年8月發(fā)布的首款通用GPU BR100，集成770億晶體管，支持FP16半精度浮點(diǎn)運(yùn)算，據(jù)該公司當(dāng)時(shí)宣稱，BR100的16位浮點(diǎn)算力能達(dá)到1000T以上，8位定點(diǎn)算力達(dá)到2000T以上，打破了全球的算力記錄，對(duì)標(biāo)的就是NVIDIA最高端的GPU芯片。

不過這款顯卡，目前還沒有上市被使用，具體性能如何，還有待后觀。

3、燧原科技

成立于2018年，主要聚焦AI云端算力領(lǐng)域，提供自主創(chuàng)新、全棧自研、具備完全自主知識(shí)產(chǎn)權(quán)的通用AI訓(xùn)練和推理產(chǎn)品，可廣泛用于云數(shù)據(jù)中心、超算中心、泛互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)及智慧城市等多個(gè)人工智能場(chǎng)景。

此前發(fā)布的第二代人工智能訓(xùn)練產(chǎn)品邃思2.0，支持從FP32、TF32、FP16、BF16 到INT8運(yùn)算，單精度FP32峰值算力40 TFLOPS，單精度張量TF32峰值算力160 TFLOPS。

4、天數(shù)智芯

成立于2015年，并在2018年正式啟動(dòng)7納米通用并行云端計(jì)算芯片設(shè)計(jì)，是一家GPGPU高端芯片及超級(jí)算力系統(tǒng)提供商，瞄準(zhǔn)以云計(jì)算、人工智能、數(shù)字化轉(zhuǎn)型為代表的數(shù)據(jù)驅(qū)動(dòng)技術(shù)市場(chǎng)。

天數(shù)智芯的BI芯片，集成240億晶體管，采用7納米先進(jìn)制程，支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓(xùn)練，單芯算力每秒147T@FP16。

5、寒武紀(jì)（688256）

成立于2016年，2020年7月，寒武紀(jì)順利登陸A股，成為科創(chuàng)板AI芯片第一股。主要開發(fā)云邊端一體、軟硬件協(xié)同、訓(xùn)練推理融合、具備統(tǒng)一生態(tài)的系列化智能芯片產(chǎn)品和平臺(tái)化基礎(chǔ)系統(tǒng)軟件，廣泛應(yīng)用于服務(wù)器廠商和產(chǎn)業(yè)公司。

寒武紀(jì)2021年11月發(fā)布的第三代云端AI芯片思元370，相比于上一代芯片，思元370全面加強(qiáng)了FP16、BF16以及FP32的浮點(diǎn)算力，在全新MLUarch03架構(gòu)和7nm先進(jìn)工藝加持下，8位定點(diǎn)算力最高為256TOPS。

在能耗都在150W的水平下，其算力與同期競(jìng)品英偉達(dá)的A10在同一水平。

6、地平線

成立于2015年，是目前國(guó)內(nèi)唯一一家實(shí)現(xiàn)車規(guī)級(jí)AI芯片前裝量產(chǎn)的公司，通過自研AI專用計(jì)算架構(gòu)BPU（Brain Processing Unit），地平線構(gòu)建了面向自動(dòng)駕駛領(lǐng)域的征程系列芯片，以及面向AIoT領(lǐng)域的旭日系列芯片兩大產(chǎn)品線。其中，公司于2021年7月發(fā)布了全場(chǎng)景整車智能中央計(jì)算芯片征程5，單芯片AI算力達(dá)128TOPS。

7、瀚博高新（301321）

成立于2018年，2022年8月18日在深交所創(chuàng)業(yè)板上市，在2022世界人工智能大會(huì)上展示其首款云端通用AI推理芯片SV100，以及瀚博統(tǒng)一計(jì)算架構(gòu)、全新數(shù)據(jù)中心（云端）AI 推理卡載天VA10、邊緣 AI 推理加速卡載天VE1、瀚博軟件平臺(tái)VastStream擴(kuò)展版。并且預(yù)覽展示（未發(fā)布）國(guó)產(chǎn)7nm云端GPU芯片SG100。載天VE1在40～65瓦功耗下，INT8峰值算力達(dá)100TOPS，吞吐率達(dá)到主流GPU的2倍，但延時(shí)不到主流GPU的5%。

對(duì)比來看，目前國(guó)內(nèi)廠商的芯片水平，相比于英偉達(dá)的A100和H100還是存在差距的，但是已經(jīng)有部分廠商正在努力慢慢向高端滲透，縮小差距，比如海光、寒武紀(jì)、壁仞科技，不過這中間意味著除了資金、人才等資源的高密集投入，也需要從生態(tài)配套上發(fā)力，包括操作系統(tǒng)、架構(gòu)創(chuàng)新和軟硬協(xié)同，如果真的能夠頂上來，那么高端AI、FP方面的GPU也就不愁了。

不妨測(cè)算一下，萬億市場(chǎng)規(guī)模，自產(chǎn)約4,000億，進(jìn)口約6,000億，假如完全國(guó)產(chǎn)替代我國(guó)芯片產(chǎn)值就將增長(zhǎng)150%，到這個(gè)時(shí)候，或許國(guó)產(chǎn)GPU才迎來真正崛起。

專有名詞注釋

FLOPS：即每秒浮點(diǎn)運(yùn)算次數(shù)，是每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)（Floating-point operations per second；縮寫：FLOPS）的簡(jiǎn)稱，被用來評(píng)估處理器的性能，這個(gè)參數(shù)可以說明顯卡或者GPU每秒能處理多少個(gè)像素點(diǎn)。

TFLOPS：TFLOPS是Tera和Floating-point operations per second兩個(gè)詞的組合，Tera則是萬億的意思，合起來就是每秒浮點(diǎn)運(yùn)算多少萬億次，一個(gè)TFLOPS等于每秒一萬億（=10^12）次的浮點(diǎn)運(yùn)算，1TOPS相當(dāng)于1TFLOPS。

GPGPU：通用圖形處理器（General-purpose computing on graphics processing units，簡(jiǎn)稱GPGPU），通常，GPU 專用于圖形渲染。GPGPU 用于以前屬于高功率 CPU 領(lǐng)域的任務(wù)，例如物理計(jì)算、加密/解密、科學(xué)計(jì)算和比特幣等加密貨幣的生成。

CPU：Central Processing Unit, 中央處理器，相當(dāng)于機(jī)器的“大腦”，主要包括運(yùn)算器（ALU, Arithmetic and Logic Unit）、控制單元（CU, Control Unit）、寄存器（Register）、高速緩存器（Cache）和它們之間通訊的數(shù)據(jù)、控制及狀態(tài)的總線。

GPU：Graphics Processing Unit, 圖像處理器，GPU最初用在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備上運(yùn)行繪圖運(yùn)算工作的微處理器。

BPU：Brain Processing Unit, 大腦處理器。