圖形處理器GPU行業(yè)研究:破曉而生,踏浪前行
GPU:核心計(jì)算底座
GPU,指 Graphics Processing Unit,圖形處理器,進(jìn)行圖形和圖像相關(guān)運(yùn)算工作的微 處理器。在該產(chǎn)品基礎(chǔ)上,衍生出 GPGPU,即 General Purpose Graphics Processing Unit,其在圖形處理器 GPU 的基礎(chǔ)上進(jìn)行改造,使之可以進(jìn)行部分科學(xué)計(jì)算和 AI 計(jì)算 等的處理器。GPU 概念自 20 世紀(jì) 70 年代末提出,其角色變換從最早分擔(dān) CPU 壓 力的附屬硬件,到由于能承擔(dān)大規(guī)模運(yùn)算而逐漸被人們重視。
摩爾定律放緩無法匹配爆發(fā)式算力需求,GPU 興起
歷史上,由于摩爾定律的存在,使得 CPU 處理器的性能可以滿足應(yīng)用軟件不斷升級(jí)的 需求。但近幾年隨著半導(dǎo)體技術(shù)改進(jìn)達(dá)到物理極限,電路復(fù)雜度逐漸提升。2016 年 3 月 24 日,英特爾宣布正式停用“Tick-Tock”處理器研發(fā)模式,未來研發(fā)周期將從兩年周 期向三年期轉(zhuǎn)變。至此,摩爾定律對(duì)英特爾幾近失效。 隨著互聯(lián)網(wǎng)用戶和各類網(wǎng)絡(luò)應(yīng)用的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對(duì)計(jì)算的 需求也在迅猛上漲。諸如深度學(xué)習(xí)在線預(yù)測(cè)、直播中的視頻轉(zhuǎn)碼、圖片壓縮解壓縮以及 HTTPS 加密等各類應(yīng)用對(duì)計(jì)算的需求已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng) CPU 處理器的能力所及。 一方面處理器性能再無法按照摩爾定律進(jìn)行增長,另一方面數(shù)據(jù)增長對(duì)計(jì)算性能要求超 過了按“摩爾定律”增長的速度。CPU 處理器本身無法滿足計(jì)算性能需求,導(dǎo)致需求和 性能之間出現(xiàn)了缺口。解決方法是通過硬件加速,采用專用協(xié)處理器的異構(gòu)計(jì)算方式來 提升處理性能,而 GPU 憑借其相對(duì)通用靈活和適應(yīng)并行計(jì)算等特性成為主要選擇。
GPU 在并行運(yùn)算層面具備一定優(yōu)勢(shì)
當(dāng)前主要興起的計(jì)算芯片分別為 GPU、ASIC、FPGA 等,其中 GPU 最初專用于圖形 處理制作,后逐漸應(yīng)用于計(jì)算。其內(nèi)部包含大量的運(yùn)算單元核心,盡管單個(gè)核心緩存較 小,邏輯功能簡(jiǎn)單,僅能執(zhí)行有限類型的邏輯運(yùn)算操作,但其多核心架構(gòu)天然適合執(zhí)行 復(fù)雜的數(shù)學(xué)和幾何計(jì)算,且科學(xué)計(jì)算領(lǐng)域通用性較高,相比 CPU,綜合性能更好。當(dāng)前 缺點(diǎn)在于功耗過高,效率不足。
GPU 是核心計(jì)算資源底座。雖然提供各類計(jì)算資源的芯片種類眾多,但 GPU 依然是市 場(chǎng)的最為主要的支撐點(diǎn)。以在 AI 市場(chǎng)的應(yīng)用為例,IDC 研究發(fā)現(xiàn),2021 年上半年中國 人工智能芯片中,GPU 依然是實(shí)現(xiàn)數(shù)據(jù)中心加速的首選,占有 90% 以上的市場(chǎng)份額, 而 ASIC、FPGA、NPU 等其他非 GPU 芯片也在各個(gè)行業(yè)和領(lǐng)域被越來越多地采用, 整體市場(chǎng)份額接近 10%。
歷史復(fù)盤:當(dāng)前 GPU 進(jìn)入高速發(fā)展期
前 GPU 時(shí)代,圖形處理器初具雛形:1981 年世界上第一臺(tái)個(gè)人電腦 IBM5150 由 IBM 公司發(fā)布,其搭配黑白顯示適配器與彩色圖形適配器,是最早的圖形顯示控制器。20 世 紀(jì) 80 年代初期,出現(xiàn)了以 GE 芯片為標(biāo)志的圖形處理器,GE 芯片的具備四位向量的浮 點(diǎn)運(yùn)算功能,可以實(shí)現(xiàn)圖形渲染過程中的矩陣,裁剪,投影等運(yùn)算,其出現(xiàn)標(biāo)志著計(jì)算 機(jī)圖形學(xué)進(jìn)入以圖形處理器為主導(dǎo)的階段。后續(xù)隨著 GE 等圖形處理器功能不斷完善, 圖形處理功能逐漸由 CPU 向 GPU(前身)轉(zhuǎn)移。
GeForce 256 橫空出世,GPU 正式誕生:20 世紀(jì) 90 年代,NVIDIA 進(jìn)入個(gè)人電腦 3D 市場(chǎng),并于 1999 年推出具有標(biāo)志意義的圖形處理器 GeForce 256,真正意義上的 GPU 第一次出現(xiàn)。相較過往圖形處理器,第二代 GPU GeForce 256 將 T&L 硬件(用于處理 圖形的整體角度旋轉(zhuǎn)與光暈陰影等三維效果)從 CPU 中分離出來并整合進(jìn) GPU 中,使 得 GPU 可以獨(dú)立進(jìn)行三維頂點(diǎn)的空間坐標(biāo)變換,將 CPU 從繁重的光照計(jì)算中解脫出 來。即便是低端 CPU,搭配了支持硬件 T&L 的顯卡也可以流暢地玩游戲,這使得英偉 達(dá)在市場(chǎng)競(jìng)爭(zhēng)中能以產(chǎn)品價(jià)格獲得較大優(yōu)勢(shì),市占率持續(xù)提升。 頂點(diǎn)編程確立 GPU 編程思路:經(jīng)過 2000 年的顯卡廠商洗牌后,S3、SIS 等廠商無力 與英偉達(dá)和 ATI 競(jìng)爭(zhēng),逐漸淡出了顯卡市場(chǎng),擁有產(chǎn)品高速迭代能力的 ATI 成為繼 3Dfx 后唯一有實(shí)力和英偉達(dá)競(jìng)爭(zhēng)的廠商。2002 年第三代 GPU 芯片陸續(xù)推出(如英偉達(dá)的 GeForce 4Ti 與 ATI 的 8500),其均具備頂點(diǎn)編程能力,可以通過賦予特定算法在工作 中改變?nèi)S模型的外形。頂點(diǎn)編程能力的出現(xiàn)確立了GPU芯片的編程思路,使后續(xù)GPU 芯片用于其他計(jì)算領(lǐng)域成為可能。但本時(shí)期 GPU 尚不支持像素級(jí)編程能力(片段編程 能力),其編程自由度尚不完備。
GPU 用于通用計(jì)算,GPGPU 概念出現(xiàn):2003 年 SIGGRAPH 大會(huì)上首次提出將 GPU 運(yùn)用于通用運(yùn)算,為 GPGPU 的出現(xiàn)打下基礎(chǔ)。其后 3 年,通過用統(tǒng)一的流處理器取代 GPU 中原有的不同著色單元的設(shè)計(jì)釋放了 GPU 的計(jì)算能力,第四代 GPU 均具有頂點(diǎn) 編程和片段編程能力,完全可編程的 GPU 正式誕生。由于 GPU 的并行處理能力強(qiáng)于 CPU,因此 GPU 可以在同一時(shí)間處理大量頂點(diǎn)數(shù)據(jù),使其在人體 CT、地質(zhì)勘探、氣象 數(shù)據(jù)、流體力學(xué)等科學(xué)可視化計(jì)算處理上具備較大優(yōu)勢(shì),足以滿足各項(xiàng)實(shí)時(shí)性任務(wù)。后 續(xù)伴隨線性代數(shù)、物理仿真和光線跟蹤等各類算法向 GPU 芯片移植,GPU 由專用圖形 顯示向通用計(jì)算逐漸轉(zhuǎn)型。 架構(gòu)持續(xù)迭代,AI 計(jì)算關(guān)注度漸起:2010 年英偉達(dá)發(fā)布了全新 GPU 架構(gòu) Fermi,其是 支持 CUDA 的第三代 GPU 架構(gòu)(第一代與第二代分別是 G80 架構(gòu)與 GT200 架構(gòu))。 彼時(shí)英偉達(dá)在 Fermi 架構(gòu)的設(shè)計(jì)上并未對(duì) AI 計(jì)算場(chǎng)景做特定設(shè)置,但 GPU 芯片在 AI 計(jì)算領(lǐng)域相較 CPU 芯片已擁有了較大優(yōu)勢(shì)(GTX580 峰值算力較 i7-920 峰值算力高出 一個(gè)數(shù)量級(jí))。隨后在 2012、2014 年陸續(xù)發(fā)布的 Kepler 架構(gòu)、Maxwell 架構(gòu)中,盡管 英偉達(dá)并未在硬件層面對(duì) AI 計(jì)算做特定優(yōu)化,但在軟件層面卻引入了深度神經(jīng)網(wǎng)絡(luò)加 速庫 cuDNN v1.0,使英偉達(dá) GPU 的 AI 計(jì)算性能與易用性得到提升。
Pascal 架構(gòu)發(fā)布,AI 計(jì)算專精版本到來:Pascal 架構(gòu)在 2016 年 3 月被推出,是英偉 達(dá)面向 AI 計(jì)算場(chǎng)景發(fā)布的第一版架構(gòu)。其硬件結(jié)構(gòu)中加入了諸如 FP16(半精度浮點(diǎn)數(shù) 計(jì)算)、NVLink(總線通信協(xié)議,用于可用于單 CPU 配置多 GPU)、HBM(提升訪存 帶寬)、INT8 格式支持(支持推理場(chǎng)景)等技術(shù),而軟件層面也發(fā)布了面向推理加速場(chǎng) 景的 TensorRT 與開源通信函數(shù)庫 NCCL,Pascal 架構(gòu)在 AI 計(jì)算領(lǐng)域的前瞻性布局使 得英偉達(dá)后續(xù)架構(gòu)在競(jìng)爭(zhēng)中具有著較大優(yōu)勢(shì)。 細(xì)分場(chǎng)景不斷追趕,GPU 迎來高速發(fā)展期:繼 Pascal 架構(gòu)后,面對(duì) Google TPU 在 AI 計(jì)算層面帶來的壓力,英偉達(dá)先后更新了 Volta(2017)、Turing(2018)、Ampere(2020) 架構(gòu)。AI 計(jì)算領(lǐng)域的技術(shù)代差在 Volta 架構(gòu)通過引入第一代 Tensor Core 在訓(xùn)練場(chǎng)景進(jìn) 行了拉平,隨后 Turing 架構(gòu)的第二代 Tensor Core 在推理場(chǎng)景上進(jìn)行了拉平,直到 Ampere 時(shí)代,NV 才算再次鞏固了自己在 AI 計(jì)算領(lǐng)域的龍頭地位。雙方激烈競(jìng)爭(zhēng)下, GPU 迎來高速發(fā)展期。
多點(diǎn)開花,GPU 市場(chǎng)高速成長
我們認(rèn)為,當(dāng)前全社會(huì)對(duì)算力需求將長期保持提升態(tài)勢(shì),而 GPU 作為支撐眾多科技領(lǐng) 域發(fā)展的底層核心,是數(shù)據(jù)計(jì)算的核心底座,在商業(yè)計(jì)算、人工智能等諸多板塊均有著 較為廣泛的使用,是科技行業(yè)的重要支撐。
GPU 的市場(chǎng)空間廣闊,正穩(wěn)健增長。依據(jù) T4 的統(tǒng)計(jì)數(shù)據(jù),2020 年全球 GPU 市場(chǎng)規(guī)模 價(jià)值 200 億美元,預(yù)計(jì) 2021 年將增長 15%,從 2015 年到 2025 年平均每年增長 13%, 從 80 億美元擴(kuò)大到 350 億美元。而依據(jù) Allied Market Research 預(yù)測(cè),2019 年全球 GPU 市場(chǎng)規(guī)模為 197.5 億美元,預(yù)計(jì)到 2027 年將達(dá)到 2008.5 億美元,2020 年至 2027 年的復(fù)合年增長率為 33.6%,對(duì)比來看 Allied Market Research 對(duì) GPU 市場(chǎng)空 間更為樂觀。
從下游應(yīng)用來看,GPU 需求仍在快速增長期。游戲領(lǐng)域是 GPU 應(yīng)用的傳統(tǒng)應(yīng)用領(lǐng)域, 參考 GPU 全球龍頭英偉達(dá)的營收數(shù)據(jù),其游戲領(lǐng)域業(yè)務(wù)收入由 2019 年的 55.18 億元 增長至 2021 年的 124.62 億元,近三年符合增長率 31.20%,整體趨勢(shì)保持穩(wěn)定增長, 為英偉達(dá)占比最高的業(yè)務(wù)。另一方面,伴隨人工智能算法的不斷普及和應(yīng)用,以及對(duì)商 業(yè)計(jì)算和大數(shù)據(jù)處理的算力需求的不斷增長,全球范圍內(nèi)數(shù)據(jù)中心對(duì)計(jì)算加速硬件的需 求不斷上升。英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)收入由 2019 年的 29.83 億美元增長至 2021 年的 106.13 億美元,近三年復(fù)合增長率高達(dá) 52.66%,增速遠(yuǎn)超其他板塊業(yè)務(wù)。NVIDIA 數(shù) 據(jù)中心業(yè)務(wù)收入的快速增長體現(xiàn)了下游數(shù)據(jù)中心市場(chǎng)對(duì)于泛人工智能類芯片(以 GPU 為主)的旺盛需求。
國內(nèi)需求不斷涌現(xiàn),計(jì)算類 GPU 市場(chǎng)高速增長。依據(jù)前瞻產(chǎn)業(yè)研究院數(shù)據(jù),2020 年預(yù) 計(jì)國內(nèi)人工智能芯片市場(chǎng)規(guī)模約為 178 億元,且市場(chǎng)規(guī)模隨下游應(yīng)用領(lǐng)域的拓展而高速 增長。人工智能芯片由 GPU、ASIC、FPGA 與 NPU 構(gòu)成,其中 GPU 以科學(xué)計(jì)算型為 主,其憑借著在性能、能耗比與編程靈活性等領(lǐng)域的綜合優(yōu)勢(shì),在人工智能芯片中占據(jù)主要地位。據(jù) IDC 數(shù)據(jù)顯示,2021 年中國加速服務(wù)器市場(chǎng)中 GPU 約占人工智能芯片 的 88.4%,測(cè)算可得 2021 年計(jì)算型 GPU 市場(chǎng)規(guī)模約為 222 億元。
多方需求驅(qū)動(dòng) GPU 市場(chǎng)持續(xù)增長。從載體層面分類,GPU 在 PC 端與服務(wù)器端均可搭 載,其中 PC 端多用于游戲影音娛樂,而服務(wù)器端則多用于科學(xué)計(jì)算。伴隨對(duì)海量數(shù)據(jù) 的處理需求逐漸增大,具備矩陣運(yùn)算能力的 GPU 需求高速上行。同時(shí),受益于多核并 行計(jì)算的基礎(chǔ)架構(gòu),GPU 已在機(jī)器學(xué)習(xí)和自動(dòng)駕駛等領(lǐng)域有了較大規(guī)模的使用。
服務(wù)器層面,相對(duì)占比維度,據(jù) IDC 數(shù)據(jù)顯示,2018 年全年中國 GPU 服務(wù)器市場(chǎng)規(guī) 模約為 13.05 億美金(約合人民幣 90.05 億元),同比增長 131.2%。同時(shí) IDC 預(yù)測(cè), 到 2023 年中國 GPU 服務(wù)器市場(chǎng)規(guī)模將達(dá)到 43.2 億美金(約合人民幣 298 億元),未 來 5 年整體市場(chǎng)年復(fù)合增長率(CAGR)為 27.1%。GPU 服務(wù)器增速高于國內(nèi) X86 服 務(wù)器出貨量增速,當(dāng)前國內(nèi)服務(wù)器中 GPU 服務(wù)器占比迅速抬升。
全球格局:國際巨頭壟斷,國產(chǎn)廠商起步追趕
競(jìng)爭(zhēng)格局:國際巨頭三強(qiáng)壟斷
全球 GPU 市場(chǎng)中,基本被 Nvidia、Intel 和 AMD 三家壟斷。據(jù) JPR 統(tǒng)計(jì),全球 PC GPU 在 2022 年 Q2 出貨量達(dá)到 8400 萬臺(tái),同比下降 34%,預(yù)計(jì) 2022-2026GPU 復(fù) 合增長率為 3.8%,在未來五年內(nèi) dGPU 在 PC 中滲透率增長至 30%。從市場(chǎng)格局來看, Nvidia、Intel 和 AMD 三家在 2022 年 Q2 市場(chǎng)占有率分別為 18%、62%和 20%,Intel 憑借其集成顯卡在桌面端的優(yōu)勢(shì)占據(jù)最大的市場(chǎng)份額。
獨(dú)顯市場(chǎng)中,Nvidia 占據(jù)領(lǐng)先地位。不同于整體市場(chǎng),在獨(dú)顯市場(chǎng)中,Nvidia 與 AMD 雙雄壟斷市場(chǎng),其 2022 年 Q2 市占率分別約為 80%和 20%,可以看到近年來 Nvidia 不 斷鞏固自己的優(yōu)勢(shì),其獨(dú)立顯卡市占率整體呈現(xiàn)上升趨勢(shì)。
英偉達(dá):GPU 王國締造者,AI 時(shí)代先行軍
英偉達(dá)是一家專注于 GPU 半導(dǎo)體設(shè)計(jì)的企業(yè)。公司成立于 1993 年,由黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng)立,1999 年英偉達(dá)推出 GeForce 256 芯片, 并首次定義了 GPU 的概念;隨后創(chuàng)新性的提出 CUDA 架構(gòu),讓此前只做 3D 渲染的 GPU 實(shí)現(xiàn)通用計(jì)算功能;進(jìn)入 2010 年代后,英偉達(dá)在 AI 行業(yè)發(fā)展初期市場(chǎng)皆不看好 的情況下,前瞻性預(yù)見了 GPU 在 AI 市場(chǎng)的應(yīng)用并全力以赴開展相關(guān)布局;當(dāng)前,公司 以數(shù)據(jù)中心、游戲、汽車、專業(yè)視覺四大類芯片為收入基礎(chǔ),完成了硬件、系統(tǒng)軟件、 軟件平臺(tái)、應(yīng)用框架全棧生態(tài)的建設(shè)。
追溯公司歷史,英偉達(dá)以技術(shù)創(chuàng)新為基,持續(xù)推動(dòng) GPU 行業(yè)的發(fā)展,可以稱得上是 GPU 時(shí)代奠基人。我們認(rèn)為,英偉達(dá)公司發(fā)展史可簡(jiǎn)單劃分為四個(gè)階段:
(1)蓄力階段:1993 年黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng)立 英偉達(dá),早期致力于圖形芯片的研發(fā)。但當(dāng)時(shí)市場(chǎng)上有 20 多家圖形芯片公司,三年后 這個(gè)數(shù)字飆升至 70 家,英偉達(dá)在其中并不突出。直到 1997 年英偉達(dá)決定放棄部分已 有的專利,轉(zhuǎn)而全面支持 Direct X(微軟標(biāo)準(zhǔn)),1997 年公司推出 RIVA 128,這是公 司第一款真正意義上取得成功的產(chǎn)品。
(2)崛起階段:1999 年公司推出 GeForce 256 并定義 GPU 芯片,這是世界上第一款 功能齊全,可從真正意義上替代 CPU 渲染圖形的芯片,并首次定義了 GPU 的概念,由 此英偉達(dá)走上了重塑顯卡行業(yè)的道路。2000 年,公司收購了顯卡先驅(qū)企業(yè) 3Dfx,再次 鞏固自身行業(yè)地位,在顯卡行業(yè)與 ATi 公司形成雙寡頭壟斷的格局。
(3)制霸階段:2006 年英偉達(dá)創(chuàng)新性推出 CUDA 架構(gòu)。CUDA 全稱 Compute Unified Device Architecture,是英偉達(dá)基于自有 GPU 的一個(gè)并行計(jì)算平臺(tái)和編程模型。CUDA 帶來兩方面巨大影響,于 GPU 行業(yè)而言,CUDA 使得只做 3D 渲染的 GPU 得以實(shí)現(xiàn) 通用計(jì)算功能,GPU 的應(yīng)用領(lǐng)域得以從游戲(圖形渲染)向外擴(kuò)展至高性能計(jì)算、自 動(dòng)駕駛等多個(gè)領(lǐng)域;而對(duì)于英偉達(dá)公司本身來說,其在早期大力推廣 CUDA,并對(duì) CUDA 進(jìn)行了編程語言擴(kuò)展,如 CUDA C/C++,CUDA Fortran 語言等,使得開發(fā)人員能夠輕易地對(duì) GPU 進(jìn)行編程,目前 CUDA 是最主流的兩個(gè) GPU 編程庫之一,奠定了英偉達(dá) GPU 生態(tài)得以成型的基礎(chǔ)。而在英偉達(dá)大力推廣統(tǒng)一平臺(tái) CUDA、不斷進(jìn)行 GPU 架構(gòu) 迭代的同時(shí),其最大的競(jìng)爭(zhēng)對(duì)手 ATi 在被 AMD 收購后受其 CPU 業(yè)務(wù)拖累,發(fā)展受到限 制,英偉達(dá)在 GPU 領(lǐng)域的競(jìng)爭(zhēng)地位在這一階段進(jìn)一步得到鞏固。
(4)騰飛階段:押注 AI,數(shù)據(jù)中心業(yè)務(wù)開啟第二成長曲線。2012 年 Alex Krizhevsky 利用 GPU 進(jìn)行深度學(xué)習(xí),通過幾天訓(xùn)練在 ImageNet 競(jìng)賽中獲得冠軍,其將深度卷積 神經(jīng)網(wǎng)絡(luò) AlexNet 的準(zhǔn)確率提高了 10.8%,震撼了學(xué)術(shù)界,從此開啟 GPU 應(yīng)用于深度 學(xué)習(xí)的大門,毫無意外,其使用的正是 NVIDIA GTX 580 GPU 芯片和 CUDA 計(jì)算模型。 此后,英偉達(dá) GPU 和 CUDA 模型成為深度學(xué)習(xí)(尤其是訓(xùn)練環(huán)節(jié))的首選芯片,而英 偉達(dá)也順勢(shì)推出海量專用于 AI 的芯片及配套產(chǎn)品,從顯卡硬件公司華麗轉(zhuǎn)型成為人工 智能公司。在人工智能的推動(dòng)下,公司數(shù)據(jù)中心業(yè)務(wù) 2014~2022 財(cái)年復(fù)合增速達(dá)到 64.39%,其占收入比例也由 2014 年的不足 5%提升至 2022 財(cái)年的 40%。
而總覽英偉達(dá)歷史,即使公司在不同時(shí)期存在不同發(fā)展重點(diǎn),但貫穿始終的,是其卓越 的創(chuàng)新能力、強(qiáng)大的芯片設(shè)計(jì)能力和穩(wěn)定的決策執(zhí)行能力。事實(shí)上,英偉達(dá)平均每兩年 推出一代芯片架構(gòu)、每半年推出一款新的產(chǎn)品,多年以來堅(jiān)持不輟,從 2009 年的 Fermi 架構(gòu)到當(dāng)前的 Hopper 架構(gòu),公司產(chǎn)品性能穩(wěn)步提升,并始終引領(lǐng) GPU 芯片技術(shù)發(fā)展。
截至目前,英偉達(dá) GPU 芯片已形成覆蓋數(shù)據(jù)中心、游戲、專業(yè)視覺和學(xué)術(shù)研究四大場(chǎng) 景的芯片產(chǎn)品陣列,其中消費(fèi)級(jí) GPU 和數(shù)據(jù)中心 GPU 是最核心場(chǎng)景。
與此同時(shí),在英偉達(dá)領(lǐng)跑 GPU 市場(chǎng)的過程中,生態(tài)的建設(shè)也是不可缺少的一環(huán)。具體 來看,我們認(rèn)為英偉達(dá)生態(tài)的建立,主要應(yīng)當(dāng)歸功于以下兩方面原因: (1)通過統(tǒng)一的計(jì)算平臺(tái) CUDA,構(gòu)建開發(fā)者生態(tài)。CUDA 的存在使得開發(fā)者使用 GPU 進(jìn)行通用計(jì)算的難度大幅降低,使得開發(fā)者可以相對(duì)簡(jiǎn)單有效地對(duì)英偉達(dá) GPU 芯片進(jìn) 行編程。2006 年 CUDA 推出后,英偉達(dá)承擔(dān)巨大成本壓力,堅(jiān)持使其成為所有 GPU 芯 片的統(tǒng)一計(jì)算平臺(tái),而其競(jìng)爭(zhēng)對(duì)手 AMD 經(jīng)過重重考慮選擇應(yīng)用開源計(jì)算框架 OpenCL, 其開源屬性決定其在效率上落后于 CUDA。經(jīng)過多年培育,目前英偉達(dá)基于 CUDA 平 臺(tái)已培育近 180 萬開發(fā)者,2020 年新增超過 50 個(gè) SDK,GPU 開發(fā)者生態(tài)正在蓬勃發(fā) 展。
毋庸置疑,CUDA 是迄今為止最發(fā)達(dá)、最廣泛的生態(tài)系統(tǒng),也是深度學(xué)習(xí)庫最有力的支 持。隨著人工智能領(lǐng)域的蓬勃發(fā)展,GPU 和 CUDA 被從業(yè)者視為標(biāo)配,使用 GPU 做 加速計(jì)算已成為行業(yè)主流。雖然英偉達(dá) GPU 本身硬件平臺(tái)的算力卓越,但其強(qiáng)大的 CUDA 軟件生態(tài)才是推升 GPU 計(jì)算生態(tài)普及的關(guān)鍵力量,其幫助英偉達(dá)成為 AI 產(chǎn)業(yè) 目前最大受益者,GPU 生態(tài)效應(yīng)使得英偉達(dá)處于領(lǐng)先地位。
(2)與此同時(shí),英偉達(dá)自身也在不遺余力的進(jìn)行配套軟硬件研發(fā),持續(xù)豐富各類 GPU 應(yīng)用場(chǎng)景。目前英偉達(dá)構(gòu)建了四層技術(shù)棧:硬件、系統(tǒng)軟件、軟件平臺(tái)、應(yīng)用框架,同 時(shí)針對(duì)不同場(chǎng)景(如醫(yī)療、智能機(jī)器人等)都有相關(guān)硬件和軟件平臺(tái)的開發(fā),英偉達(dá)自 身就是 GPU 應(yīng)用生態(tài)的核心開發(fā)者。
AMD:兼具 CPU+GPU,卓越性能引領(lǐng)算力時(shí)代
AMD 是一家專門為計(jì)算機(jī)、通信和消費(fèi)電子行業(yè)設(shè)計(jì)和制造各種創(chuàng)新的微處理器(CPU、 GPU、APU、主板芯片組、電視卡芯片等)、閃存和低功率處理器解決方案的公司。公 司成立于 1969 年,由曾工作于仙童半導(dǎo)體的銷售高管 Jerry Sanders 創(chuàng)立,成立之初 生產(chǎn)邏輯芯片,后定位為高性價(jià)比的第二供應(yīng)商,與英特爾深度合作 X86 處理器,后英 特爾為鞏固自身優(yōu)勢(shì)斬?cái)嗪献麝P(guān)系,兩者競(jìng)爭(zhēng)加劇。2006 年 7 月 24 日,AMD 正式收 購 ATI,成為一家同時(shí)擁有 CPU 和 GPU 生產(chǎn)技術(shù)的半導(dǎo)體公司,GPU 版圖由此展開。 公司自成立以來收入波動(dòng)較大,近五年開始實(shí)現(xiàn)持續(xù)高增。公司2021年?duì)I業(yè)收入164.34 億元,同比大幅增長 68.33%,2016-2021 年 CAGR 30.92%。公司營業(yè)收入可分為數(shù) 據(jù)中心、客戶端、游戲和嵌入式解決方案業(yè)務(wù)收入,其中數(shù)據(jù)中心和游戲業(yè)務(wù)收入增速 最高,分別為 119.23%和 104.19%。
細(xì)究 AMD 的 GPU 發(fā)展史,可將其分為兩大階段。第一階段是收購前的 ATI 時(shí)代,隨 時(shí)代技術(shù)發(fā)展而進(jìn)步,不斷推出 Radeon 系列,憑借性能與英偉達(dá)直面對(duì)抗;第二階段 是收購后的 AMD 時(shí)代,憑借高性價(jià)比戰(zhàn)略在中端市場(chǎng)占據(jù)一席之地。
第一階段,被收購前的互相追趕。1985 年 ATI 由加拿大華人何國源與另外兩位華人 Lee Ka Lau, Benny Lau 一起創(chuàng)辦成立,主攻圖形顯示芯片的研發(fā)。1985-1995 年,PC 圖 形技術(shù)仍處于 2D 時(shí)代,ATI 看到了圖形技術(shù)發(fā)展迅速, 1987 年推出 EGA Wonder 顯 卡系列,在技術(shù)和功能上相比 IBM 同期圖形適配器都有很大提升,是可應(yīng)用于市場(chǎng)上任 何一種圖形界面、軟件和顯示器的單卡,成為當(dāng)時(shí) ATI 主要的零售產(chǎn)品。1995 年,隨 著 3D 圖形顯示技術(shù)的發(fā)展,眾多圖形廠商都紛紛推出旗下的第一代 3D 顯示卡,例如 NVIDIA 的 NV1、Matrox 的 Mlennium 以及 Mystique、PowerVR 的 PCX1、S3 的 Virge3D 等等,ATI 也推出 3D Rage 進(jìn)軍 3D 市場(chǎng)。1999 年,英偉達(dá)推出 GeForce 256 重新定 義 GPU 芯片,并于 2000 年收購昔日王者 3Dfx 重塑行業(yè)格局,ATI 發(fā)布 Radeon 256 正式迎擊。2000-2006 年期間,ATI 于英偉達(dá)呈現(xiàn)雙寡頭壟斷格局, ATI 不斷提升自身 性能與英偉達(dá)直面競(jìng)爭(zhēng)。但同時(shí),ATI 在產(chǎn)品的高成本投入加上市場(chǎng)的不良反應(yīng)讓財(cái)務(wù) 狀況出現(xiàn)問題,最終于 2006 年被 AMD 收購。
第二階段,有的放矢,憑借高性價(jià)比牢牢占據(jù)一席之地。根據(jù) 2022 年 5 月,德國 3Dcenter 網(wǎng)站對(duì)市場(chǎng)上主流 GPU 的測(cè)評(píng)數(shù)據(jù)來看,在 1080p 分辨率中,AMD Radeon RX 6950 XT 的性能指數(shù)是 2230%,性能得分最強(qiáng),但售價(jià)僅為 1240-1400 歐元,性價(jià)比指數(shù)為 70%,大幅超過 GeForce RTX 3090 Ti 的 41%。從整體來看,AMD 目前市場(chǎng)主流顯卡 的性價(jià)比得分超過 100%個(gè)數(shù)明顯超過英偉達(dá),具有較強(qiáng)的性價(jià)比優(yōu)勢(shì)。
AMD 生態(tài)相對(duì)劣勢(shì),但已推出 ROCm 生態(tài)。ROCm 是一個(gè)開放式軟件平臺(tái),為追求 高靈活性和高性能而構(gòu)建,針對(duì)加速式計(jì)算且不限定編程語言,讓機(jī)器學(xué)習(xí)和高性能計(jì) 算社區(qū)的參與者能夠借助各種開源計(jì)算語言、編譯器、庫和重新設(shè)計(jì)的工具來加快代碼 開發(fā),適合大規(guī)模計(jì)算和支持多 GPU 計(jì)算,其創(chuàng)立目標(biāo)是建立可替代 CUDA 的生態(tài)。
總量與份額雙擊,國產(chǎn)廠商迎來發(fā)展黃金期
中美摩擦不斷,國產(chǎn)替代緊迫性和重要性進(jìn)一步提升。2022 年 8 月 9 日,美國總統(tǒng)拜 登簽署《2022 年美國芯片與科學(xué)法案》,旨在為美國半導(dǎo)體的研究和生產(chǎn)提供約 520 億美元的政府補(bǔ)貼,來對(duì)抗中國及控制半導(dǎo)體產(chǎn)業(yè)鏈。8 月 31 日,英偉達(dá)發(fā)布公告,美 國政府對(duì)向中國和俄羅斯出口的 A100 和即將推出的 H100 芯片實(shí)施了新的許可要求。 據(jù)路透社消息,AMD MI250 芯片亦受到影響。高端 GPU 限制產(chǎn)品基本都是具備“64 位浮點(diǎn)數(shù)字”(FP64)雙精度算力的高性能顯卡,主要應(yīng)用于 AI、數(shù)據(jù)分析和 HPC 應(yīng) 用場(chǎng)景。此次受限雖然只針對(duì)高端 GPU 型號(hào),但依然為我國廠商敲響了警鐘,國產(chǎn) GPU 落地有望加速推進(jìn)。
龐大的需求+逐漸成熟的產(chǎn)業(yè)預(yù)示著廣闊的發(fā)展空間。在元宇宙、人工智能、云游戲、 自動(dòng)駕駛等新場(chǎng)景和需求爆發(fā)式增長的背景下,我們判斷中國 GPU 市場(chǎng)將快速增長, 相比于 PC 市場(chǎng),新增市場(chǎng)空間或更大。相比于 PC 等傳統(tǒng) IT 應(yīng)用場(chǎng)景,中國在人工智 能、自動(dòng)駕駛領(lǐng)域與美國等強(qiáng)國處于同一競(jìng)爭(zhēng)水平,且中國龐大市場(chǎng)有望為相應(yīng)細(xì)分領(lǐng) 域帶來更快的成長。另一方面,從國家安全角度,國產(chǎn) GPU 勢(shì)在必行,對(duì)于國產(chǎn) GPU 廠商而言是時(shí)代機(jī)遇。
國內(nèi)廠商奮力追趕,迎來時(shí)代黃金機(jī)遇
部分優(yōu)質(zhì)國產(chǎn) GPU 企業(yè)已逐步展現(xiàn)出發(fā)展?jié)摿?。我國部分國產(chǎn)廠商經(jīng)歷了從特殊行業(yè) 到黨政市場(chǎng)的應(yīng)用迭代升級(jí),正逐步向民用等商業(yè)市場(chǎng)布局拓展,如景嘉微在經(jīng)過 JM5 系列和 JM7 系列應(yīng)用升級(jí),當(dāng)前 JM9 系列已完成流片、封裝階段工作及初步測(cè)試工作。 海光信息自 2018 年布局 GPU 行業(yè)以來,產(chǎn)品迭代進(jìn)展迅速,2021 年首款 DCU 產(chǎn)品 深算一號(hào)便已實(shí)現(xiàn)規(guī)?;鲐?,同時(shí)深算二號(hào)的研發(fā)也保持順利。
壁仞科技
公司主營業(yè)務(wù)為高端通用智能計(jì)算芯片。壁仞科技創(chuàng)立于 2019 年,公司致力于開發(fā)原 創(chuàng)性的通用計(jì)算體系,建立高效的軟硬件平臺(tái),同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決 方案。從發(fā)展路徑上,公司將首先聚焦云端通用智能計(jì)算,逐步在人工智能訓(xùn)練和推理、 圖形渲染等多個(gè)領(lǐng)域趕超現(xiàn)有解決方案,實(shí)現(xiàn)國產(chǎn)高端通用智能計(jì)算芯片的突破。2022 年 3 月,公司首款通用 GPU 芯片 BR100 成功點(diǎn)亮,后于 2022 年 8 月正式發(fā)布,創(chuàng)下 全球算力的新紀(jì)錄。
公司的產(chǎn)品體系主要涵蓋 BR100 系列通用 GPU 芯片、BIRENSUPA 軟件開發(fā)平臺(tái)以 及開發(fā)者云三大板塊。其中,BR100 系列通用 GPU 芯片是公司的核心產(chǎn)品,目前主要 包括 BR100、BR104 兩款芯片。BR100 系列針對(duì)人工智能(AI)訓(xùn)練、推理,及科學(xué) 計(jì)算等更廣泛的通用計(jì)算場(chǎng)景開發(fā),主要部署在大型數(shù)據(jù)中心,依托“壁立仞”原創(chuàng)架 構(gòu),可提供高能效、高通用性的加速計(jì)算算力。
BR100 系列在性能、安全等方面具備多項(xiàng)核心優(yōu)勢(shì)。公司致力于打造性能先進(jìn)、競(jìng)爭(zhēng)力 強(qiáng)的 GPU 芯片,并為此采取了大量技術(shù)措施,具體包括:支持 7nm 制程,并創(chuàng)新性應(yīng) 用 Chiplet 與 2.5D CoWoS 封裝技術(shù),兼顧高良率與高性能;支持 PCIe 5.0 接口技術(shù) 與 CXL 通信協(xié)議,雙向帶寬最高達(dá) 128 GB/s 等。2022 年公司正式推出壁礪?100,其 峰值算力達(dá)到國際廠商在售旗艦的 3 倍以上,超越了國際廠商同類的在售旗艦產(chǎn)品,競(jìng) 爭(zhēng)優(yōu)勢(shì)十分顯著。同時(shí),在安全方面,BR100 系列最高支持 8 個(gè)獨(dú)立實(shí)例,每個(gè)實(shí)例物 理隔離并配備獨(dú)立的硬件資源,可獨(dú)立運(yùn)行。
摩爾線程
摩爾線程是一家以 GPU 芯片設(shè)計(jì)為主的集成電路高科技公司。公司誕生于 2020 年 10 月,專注于研發(fā)設(shè)計(jì)全功能 GPU 芯片及相關(guān)產(chǎn)品,支持 3D 高速圖形渲染、AI 訓(xùn)練推 理加速、超高清視頻編解碼和高性能科學(xué)計(jì)算等多種組合工作負(fù)載,兼顧算力與算效, 為中國科技生態(tài)合作伙伴提供強(qiáng)大的計(jì)算加速能力。在“元計(jì)算”賦能下一代互聯(lián)網(wǎng)的 愿景下,公司將持續(xù)創(chuàng)新面向元計(jì)算應(yīng)用的新一代 GPU,構(gòu)建融合視覺計(jì)算、3D 圖形 計(jì)算、科學(xué)計(jì)算及 AI 計(jì)算的綜合計(jì)算平臺(tái),建立基于云原生 GPU 計(jì)算的生態(tài)系統(tǒng),助 力驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展。 公司的產(chǎn)品體系主要包括:MTT S60、MTT S2000、MTT S100 等硬件產(chǎn)品;MT Smart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR 等軟件產(chǎn) 品;以及 MUSA 統(tǒng)一系統(tǒng)架構(gòu)、DIGITALME 數(shù)字人解決方案、元計(jì)算應(yīng)用解決方案等 其他產(chǎn)品。
MTT S60 具備先進(jìn)的硬件規(guī)格。MTT S60 顯卡由基于 MUSA 架構(gòu)的 GPU 蘇堤核心晶 片制成,采用 12nm 制程,包含 2048 個(gè) MUSA 核心,單精度算力最高可達(dá) 6TFlops, 配置 8GB 顯存,基于 MUSA 軟件運(yùn)行庫和驅(qū)動(dòng)程序等軟件工具。在先進(jìn)硬件規(guī)格的支 撐下,MTT S60 顯卡能夠在不同應(yīng)用場(chǎng)景中展現(xiàn)多重優(yōu)勢(shì):豐富圖形 API、4K/8K 超高 清顯示、領(lǐng)先的硬件視頻編解碼能力、通用 AI 功能支持等。
基于 MUSA 先進(jìn)架構(gòu),MTT S2000 致力于打造數(shù)據(jù)中心綠色多維算力。MTT S2000 采 用 12nm 制程,使用 4096 個(gè) MUSA 核心,最大配置 32GB 顯存,單精度算力最高可達(dá) 到 12TFlops,支持 H.264、H.265、AV1 多路高清視頻編解碼,以及廣泛的 AI 模型算 法加速。同時(shí),MTT S2000 還采用了被動(dòng)散熱、單槽設(shè)計(jì),以滿足數(shù)據(jù)中心高密度 GPU 配置方式。截至目前,MTT S2000 已經(jīng)能夠兼容 X86、ARM 等 CPU 架構(gòu)以及主流 Linux 操作系統(tǒng)發(fā)行版,并與浪潮、新華三、聯(lián)想、清華同方等多家服務(wù)器合作伙伴建立了合 作關(guān)系,產(chǎn)品生態(tài)持續(xù)完善。作為公司面向數(shù)據(jù)中心領(lǐng)域的 GPU 芯片,除了生態(tài)外, MTT S2000 還具備全功能 GPU、豐富的圖形 API 支持、綠色計(jì)算等優(yōu)勢(shì)?;诙嗑S算 力、生態(tài)完善等優(yōu)勢(shì),MTT S2000 有望助力公司賦能 PC 云桌面、安卓云游戲、音視頻 云處理、云端 Unreal/Unity 應(yīng)用渲染和 AI 推理計(jì)算等多類應(yīng)用場(chǎng)景。
海思昇騰
海思半導(dǎo)體成立于 2004 年,是全球領(lǐng)先的 Fabless 半導(dǎo)體與器件設(shè)計(jì)公司,旗下芯片 共有五大系列,分別是用于智能設(shè)備的麒麟系列;用于數(shù)據(jù)中心的鯤鵬系列服務(wù)器 CPU; 用于人工智能的場(chǎng)景 AI 芯片組昇騰系列 SoC;用于通信連接的芯片(基站芯片天罡、 終端芯片巴龍);以及其他專用芯片(視頻監(jiān)控、機(jī)頂盒芯片、智能電視、運(yùn)動(dòng)相機(jī)、 物聯(lián)網(wǎng)等芯片)。
海思半導(dǎo)體是華為全資子公司,核心管理團(tuán)隊(duì)皆有深厚的華為背景。公司董事長徐直軍 先生博士畢業(yè)于南京理工大學(xué),早在 1993 年就加入了華為,歷任華為無線產(chǎn)品線總裁、 戰(zhàn)略與 Marketing 總裁、產(chǎn)品與解決方案總裁、產(chǎn)品投資評(píng)審委員會(huì)主任、公司輪值 CEO、 戰(zhàn)略與發(fā)展委員會(huì)主任等。公司總經(jīng)理徐文偉先生 1991 年加入了華為,歷任華為國際 產(chǎn)品行銷及營銷總裁、歐洲片區(qū)總裁、戰(zhàn)略與 Marketing 總裁、銷售與服務(wù)總裁、片區(qū) 聯(lián)席會(huì)議總裁、企業(yè)業(yè)務(wù) BG CEO、公司戰(zhàn)略 Marketing 總裁、IRB 主任、戰(zhàn)略研究院 院長等。
公司針對(duì)人工智能領(lǐng)域應(yīng)用場(chǎng)景,推出了昇騰系列芯片,主要產(chǎn)品有昇騰 310 與昇騰 910 兩款 NPU。昇騰 310 芯片于 2017 年發(fā)布,是一款高能效、靈活可編程的人工智能 處理器,芯片在典型配置下可以輸出 16TOPS@INT8, 8TOPS@FP16,功耗僅為 8W。 昇騰 310 芯片采用自研華為達(dá)芬奇架構(gòu),集成豐富的計(jì)算單元, 提高 AI 計(jì)算完備度和 效率,進(jìn)而擴(kuò)展該芯片的適用性。芯片實(shí)現(xiàn)了全 AI 業(yè)務(wù)流程加速,大幅提高 AI 全系統(tǒng)的 性能,有效降低部署成本。 昇騰(HUAWEI Ascend) 910 于 2018 年推出,是業(yè)界算力最強(qiáng)的 AI 處理器,芯片基于 自研華為達(dá)芬奇架構(gòu) 3D Cube 技術(shù),實(shí)現(xiàn)業(yè)界最佳 AI 性能與能效。芯片架構(gòu)靈活伸縮, 支持云邊端全棧全場(chǎng)景應(yīng)用。在算力方面,昇騰 910 完全達(dá)到設(shè)計(jì)規(guī)格,半精度(FP16) 算力達(dá)到 320 TFLOPS,整數(shù)精度(INT8)算力達(dá)到 640 TOPS,功耗 310W。
百度昆侖
昆侖芯科技是一家 AI 芯片公司,前身是百度智能芯片及架構(gòu)部,在實(shí)際業(yè)務(wù)場(chǎng)景中深 耕 AI 加速領(lǐng)域已十余年,是一家在體系結(jié)構(gòu)、芯片實(shí)現(xiàn)、軟件系統(tǒng)和場(chǎng)景應(yīng)用均有深 厚積累的 AI 芯片企業(yè)。 昆侖芯科技研發(fā)實(shí)力雄厚,團(tuán)隊(duì)成員擁有全球頂尖學(xué)術(shù)背景, 多數(shù)成員來自百度、高通、Marvell、Tesla 等行業(yè)頭部公司,并提出了 100%自研的、 面向通用人工智能計(jì)算的核心架構(gòu) XPU,研究成果也在 Hotchips、ISSCC 等國際頂級(jí) 學(xué)術(shù)會(huì)議中成功發(fā)表。
2011 年,為了深度學(xué)習(xí)運(yùn)算的需要,百度開始基于 FPGA 研發(fā) AI 加速器,并于同年開 始使用 GPU。在過去幾年中,百度對(duì) FPGA 和 GPU 都進(jìn)行了大規(guī)模部署。在大規(guī)模 AI 運(yùn)算的實(shí)踐探索中,百度推出昆侖芯片。
昆侖芯科技的主要產(chǎn)品有昆侖一代芯片、二代芯片以及基于兩代芯片開發(fā)的加速卡 K 系 列與 R 系列。昆侖第一代云端通用人工智能計(jì)算處理器發(fā)布于 2020 年,采用了公司十 年積累自研的 XPU-K 架構(gòu),芯片采用了 14nm 制程工藝,算力可以輸出 256 TOPS@INT8,64 TFLOPS@FP16,可用于云數(shù)據(jù)中心和智能邊緣,支持全 AI 算法, 落地已超過兩萬片。
昆侖第二代云端通用人工智能計(jì)算處理器發(fā)布于 2021 年,采用通用性和性能顯著提升 的 XPU-R 架構(gòu),制程工藝從 14nm 升級(jí)到 7nm,算力可以輸出 256 TOPS@INT8,128 TFLOPS@FP16。相比之下功能更加完備,支持硬件虛擬化,芯片間互聯(lián)和視頻編解碼。
第二代芯片的 XPU-R 架構(gòu)使二代芯片性能比 1 代提升 2-3 倍,全品類人工智能算法上 都達(dá)到了當(dāng)前業(yè)界領(lǐng)先水平的 1.5-2 倍。第二代芯片支持硬件的虛擬化,可實(shí)現(xiàn)計(jì)算單 元和存儲(chǔ)單元的物理隔離,優(yōu)化了加速芯片的利用率。在保證延時(shí)和吞吐量的情況下支 持推理和訓(xùn)練等混合工作負(fù)載。此外,二代芯片還支持高性能分布式 AI 系統(tǒng)、芯片間 K-Link 互聯(lián)支持訓(xùn)練和推理中模型并行和數(shù)據(jù)并行策略的通訊要求。
評(píng)論