新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 斷供英偉達高端GPU,國產芯片誰來“續(xù)命”?

斷供英偉達高端GPU,國產芯片誰來“續(xù)命”?

作者: 時間:2022-09-13 來源:雪球 收藏

本文引用地址:http://2s4d.com/article/202209/438142.htm

8月31日,發(fā)布公告稱,美國通知公司向中國出口A100和H100芯片將需要新的許可證要求,同時DGX或任何其他包含A100或H100芯片的產品,以及未來性能高于A100的芯片都將受到新規(guī)管制,同受限制的還包括的M1250芯片。

隨后,9月1日—3日,在中國上海舉辦的世界人工智能大會(WAIC),國產芯片登場于聚光燈下,天數(shù)智芯、壁仞科技、燧原科技、瀚博半導體、寒武紀、地平線一眾國產AI芯片公司均展出了最新的技術和產品,先進制程的大算力芯片迎來高光亮相。

一邊在面臨“生死圍剿”,一邊在“奮力發(fā)育”,博弈的拉力賽已然開啟。

1

劍指HPC和AI,BAT難逃牽連

芯片拉起警報,已經不是第一次了。

從2019年,華為被美國列入出口管制“實體清單”,到后來的“中興事件”,以及今年8月份美國政府直接豪擲527億美元,通過“芯片法案”,其中明文列舉了“中國護欄”條款,受到美國補貼企業(yè)禁止在中國大陸擴大生產和投資更先進的芯片,期限是10年,接著,美國商務部發(fā)布最終規(guī)定,對設計GAAFET(全柵場效應晶體管)結構集成電路所必須的EDA軟件等技術實施新的出口管制,相關禁令已于2022年8月15日正式生效。從芯片上“卡脖子”,意圖將中國排除在全球半導體供應鏈之外,已經成為美國的“陽謀”。

而這一次的風暴中心卻直指智能化、數(shù)字化的支柱產業(yè):HPC(高性能計算)和AI(人工智能)

為什么不限制Orin,而是限制芯片?

“因為芯片對于訓練人工智能系統(tǒng)至關重要,所以要卡在這個關鍵點上”。地平線創(chuàng)始人兼CEO余凱表示。

的確,GPU是AI時代的算力核心亦是人工智能競爭的制高點,訓練集的反復訓練和推理都需要強大算力的支撐,比如AI深度學習需要很高的并行計算、浮點計算以及矩陣運算能力,基于CPU的傳統(tǒng)計算架構無法充分滿足人工智能高性能并行計算(HPC)的需求,HPC主要包括數(shù)據中心、AI、FPGA和網絡四大應用,而HPC應用對于芯片的要求不在于微縮化,而是能否功耗更低,支撐更大的算力,因此需要發(fā)展適合HPC的專屬芯片,而AI00和H100則是目前最能高效匹配HPC計算需求的芯片配置了。

A100是2020年推出的數(shù)據中心級云端加速芯片,擁有540億晶體管,采用臺積電7nm工藝制程,支持FP16、FP32和FP64浮點運算,為人工智能、數(shù)據分析和HPC數(shù)據中心等提供算力,F(xiàn)P64一般是衡量超級計算產品的重要指標。

而H100是英偉達今年3月發(fā)布的最新一代數(shù)據中心GPU,集成800億晶體管,采用臺積電定制的4nm工藝,預計在今年下半年正式發(fā)貨。英偉達CEO黃仁勛此前表示,這款GPU具有超強的計算能力,20個H100 GPU便可承托相當于全球互聯(lián)網的流量。相比于A100,H100在FP16、FP32和FP64計算上比A100快三倍,非常適用于當下流行且訓練難度高的大模型。

“這兩款芯片都是具有足夠雙精度計算能力的高端GPU,主要用于HPC高性能計算領域,包括科學計算,CAE(計算機輔助工程),醫(yī)療等方面。尤其是對于超算中心而言,可謂是精準打擊,超算中心即國家超級計算中心,由數(shù)千甚至更多處理器組成,具備超高算力,被譽為“計算機中的珠穆朗瑪峰”,主要滿足國家高科技領域和尖端技術研究的需求,很有可能國內一些政府或者研究所相關單位的超算集群會因此受到影響?!币晃恍袠I(yè)人士表示到。

掃射的波及范圍不止于此,北京半導體行業(yè)協(xié)會副秘書長朱晶表示:中國正在啟動的東數(shù)西算戰(zhàn)略也會暫時受到影響,因為它需要算力基礎設施支撐,另外,互聯(lián)網領域也難逃牽連。

目前國內高端場景基本采用英偉達的A100,包括OEM廠商浪潮、聯(lián)想等,云服務公司阿里、騰訊、百度等,對于即將量產的H100,國內主流廠商也已經預定,如阿里云、百度云和騰訊云等,而國內目前尚沒有能夠與A100、H100對標的芯片產品,如果限制,等于各廠商的若干核心業(yè)務線都將被殃及,如百度智能云下的智慧金融、制造、醫(yī)療等,以及騰訊的數(shù)據分析和視頻分析領域等。

但誠如硬幣兩面,既是難關也是闖關,也許國產GPU廠商補位的機會到了。一位國內GPU企業(yè)人員表示。

2

國產芯片誰來“續(xù)命”?

不可否認,芯片半導體越來越具有戰(zhàn)略性質。

芯片處理器的大量有機疊加,構成了數(shù)據中心、智能計算中心、超算中心等大型基礎設施。更宏觀一點理解,這些芯片都是支撐政企數(shù)據上云、數(shù)字化進程的底層元器件,可以說是“新基建”的底層支撐,而高性能算力芯片更是“戰(zhàn)略咽喉”。

目前服務器加速,主要采用的是GPU芯片,占比接近90%,另外則是ASIC、FPGA等。GPGPU(通用GPU)芯片廣泛用于商業(yè)計算和大數(shù)據處理,如天氣預報、工業(yè)設計、基因工程、藥物發(fā)現(xiàn)、金融工程等,在人工智能領域,使用GPGPU(通用GPU)在云端運行模型訓練算法,可以顯著縮短海量訓練數(shù)據的訓練時長,減少能源消耗,從而進一步降低人工智能的應用成本。

不同應用領域,對芯片計算能力及運算精度要求也有所不同,比如用于商業(yè)計算和大數(shù)據處理(CAE仿真、物理化學、石油勘探、生命科學、氣象環(huán)境等),需要雙精度浮點、單精度浮點、32位整型運算;人工智能(模型訓練、應用推理),要求混合精度浮點、半精度浮點、16位整形、8位整型運算。

可喜的是,國內GPU廠商已經開始嶄露頭角,成果初顯。

從熱鬧的PR新聞中,便可見一斑,進軍算力芯片的國產廠商開始頻“秀肌肉”,在今年世界人工智能大會上,瀚博半導體發(fā)布了首款7nm云端GPU SG100,用于圖像渲染、視頻和元宇宙等領域,同期,壁仞科技發(fā)布了公司自主研發(fā)的首款通用GPU芯片br100,可見,躋身于算力芯片的國產GPU廠商隊伍正在加速攻關,紛紛推出自研GPU。

目前國產高端算力芯片還有哪些呢?算力智庫基于當下主要國產GPU廠商的進展和產品參數(shù),不完全梳理如下:

1、海光信息(688041)

成立于2014年,不久前在科創(chuàng)板上市,海光信息的產品包括通用處理器(CPU)和協(xié)處理器(DCU),海光DCU屬于GPGPU的一種。

海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運算精度,支持4個HBM2內存通道,最高內存帶寬為1TB/s、最大內存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價快速遷移至ROCm平臺。

從產品官宣的參數(shù)來看,海光DCU目前是國內唯一支持FP64雙精度浮點運算的產品,英偉達的A100、H100都支持FP64。

2、壁仞科技

成立于2019年,聚焦開發(fā)原創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。

今年8月發(fā)布的首款通用GPU BR100,集成770億晶體管,支持FP16半精度浮點運算,據該公司當時宣稱,BR100的16位浮點算力能達到1000T以上,8位定點算力達到2000T以上,打破了全球的算力記錄,對標的就是NVIDIA最高端的GPU芯片。

不過這款顯卡,目前還沒有上市被使用,具體性能如何,還有待后觀。

3、燧原科技

成立于2018年,主要聚焦AI云端算力領域,提供自主創(chuàng)新、全棧自研、具備完全自主知識產權的通用AI訓練和推理產品,可廣泛用于云數(shù)據中心、超算中心、泛互聯(lián)網、傳統(tǒng)行業(yè)及智慧城市等多個人工智能場景。

此前發(fā)布的第二代人工智能訓練產品邃思2.0,支持從FP32、TF32、FP16、BF16 到INT8運算,單精度FP32峰值算力40 TFLOPS,單精度張量TF32峰值算力160 TFLOPS。

4、天數(shù)智芯

成立于2015年,并在2018年正式啟動7納米通用并行云端計算芯片設計,是一家GPGPU高端芯片及超級算力系統(tǒng)提供商,瞄準以云計算、人工智能、數(shù)字化轉型為代表的數(shù)據驅動技術市場。

天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據混合訓練,單芯算力每秒147T@FP16。

5、寒武紀(688256)

成立于2016年,2020年7月,寒武紀順利登陸A股,成為科創(chuàng)板AI芯片第一股。主要開發(fā)云邊端一體、軟硬件協(xié)同、訓練推理融合、具備統(tǒng)一生態(tài)的系列化智能芯片產品和平臺化基礎系統(tǒng)軟件,廣泛應用于服務器廠商和產業(yè)公司。

寒武紀2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強了FP16、BF16以及FP32的浮點算力,在全新MLUarch03架構和7nm先進工藝加持下,8位定點算力最高為256TOPS。

在能耗都在150W的水平下,其算力與同期競品英偉達的A10在同一水平。

6、地平線

成立于2015年,是目前國內唯一一家實現(xiàn)車規(guī)級AI芯片前裝量產的公司,通過自研AI專用計算架構BPU(Brain Processing Unit),地平線構建了面向自動駕駛領域的征程系列芯片,以及面向AIoT領域的旭日系列芯片兩大產品線。其中,公司于2021年7月發(fā)布了全場景整車智能中央計算芯片征程5,單芯片AI算力達128TOPS。

7、瀚博高新(301321)

成立于2018年,2022年8月18日在深交所創(chuàng)業(yè)板上市,在2022世界人工智能大會上展示其首款云端通用AI推理芯片SV100,以及瀚博統(tǒng)一計算架構、全新數(shù)據中心(云端)AI 推理卡載天VA10、邊緣 AI 推理加速卡載天VE1、瀚博軟件平臺VastStream擴展版。并且預覽展示(未發(fā)布)國產7nm云端GPU芯片SG100。載天VE1在40~65瓦功耗下,INT8峰值算力達100TOPS,吞吐率達到主流GPU的2倍,但延時不到主流GPU的5%。

對比來看,目前國內廠商的芯片水平,相比于英偉達的A100和H100還是存在差距的,但是已經有部分廠商正在努力慢慢向高端滲透,縮小差距,比如海光、寒武紀、壁仞科技,不過這中間意味著除了資金、人才等資源的高密集投入,也需要從生態(tài)配套上發(fā)力,包括操作系統(tǒng)、架構創(chuàng)新和軟硬協(xié)同,如果真的能夠頂上來,那么高端AI、FP方面的GPU也就不愁了。

不妨測算一下,萬億市場規(guī)模,自產約4,000億,進口約6,000億,假如完全國產替代我國芯片產值就將增長150%,到這個時候,或許國產GPU才迎來真正崛起。

專有名詞注釋

FLOPS:即每秒浮點運算次數(shù),是每秒所執(zhí)行的浮點運算次數(shù)(Floating-point operations per second;縮寫:FLOPS)的簡稱,被用來評估處理器的性能,這個參數(shù)可以說明顯卡或者GPU每秒能處理多少個像素點。

TFLOPS:TFLOPS是Tera和Floating-point operations per second兩個詞的組合,Tera則是萬億的意思,合起來就是每秒浮點運算多少萬億次,一個TFLOPS等于每秒一萬億(=10^12)次的浮點運算,1TOPS相當于1TFLOPS。

GPGPU:通用圖形處理器(General-purpose computing on graphics processing units,簡稱GPGPU),通常,GPU 專用于圖形渲染。GPGPU 用于以前屬于高功率 CPU 領域的任務,例如物理計算、加密/解密、科學計算和比特幣等加密貨幣的生成。

CPU:Central Processing Unit, 中央處理器,相當于機器的“大腦”,主要包括運算器(ALU, Arithmetic and Logic Unit)、控制單元(CU, Control Unit)、寄存器(Register)、高速緩存器(Cache)和它們之間通訊的數(shù)據、控制及狀態(tài)的總線。

GPU:Graphics Processing Unit, 圖像處理器,GPU最初用在個人電腦、工作站、游戲機和一些移動設備上運行繪圖運算工作的微處理器。

BPU:Brain Processing Unit, 大腦處理器。



關鍵詞: GPU 英偉達 AMD

評論


相關推薦

技術專區(qū)

關閉