圖形處理器GPU行業(yè)研究：破曉而生，踏浪前行

作者：時(shí)間：2022-09-19 來源：未來智庫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

GPU：核心計(jì)算底座

GPU，指 Graphics Processing Unit，圖形處理器，進(jìn)行圖形和圖像相關(guān)運(yùn)算工作的微處理器。在該產(chǎn)品基礎(chǔ)上，衍生出 GPGPU，即 General Purpose Graphics Processing Unit，其在圖形處理器 GPU 的基礎(chǔ)上進(jìn)行改造，使之可以進(jìn)行部分科學(xué)計(jì)算和 AI 計(jì)算等的處理器。GPU 概念自 20 世紀(jì) 70 年代末提出，其角色變換從最早分擔(dān) CPU 壓力的附屬硬件，到由于能承擔(dān)大規(guī)模運(yùn)算而逐漸被人們重視。

本文引用地址：http://2s4d.com/article/202209/438315.htm

摩爾定律放緩無法匹配爆發(fā)式算力需求，GPU 興起

歷史上，由于摩爾定律的存在，使得 CPU 處理器的性能可以滿足應(yīng)用軟件不斷升級(jí)的需求。但近幾年隨著半導(dǎo)體技術(shù)改進(jìn)達(dá)到物理極限，電路復(fù)雜度逐漸提升。2016 年 3 月 24 日，英特爾宣布正式停用“Tick-Tock”處理器研發(fā)模式，未來研發(fā)周期將從兩年周期向三年期轉(zhuǎn)變。至此，摩爾定律對(duì)英特爾幾近失效。隨著互聯(lián)網(wǎng)用戶和各類網(wǎng)絡(luò)應(yīng)用的快速增長，數(shù)據(jù)體量的急劇膨脹，數(shù)據(jù)中心對(duì)計(jì)算的需求也在迅猛上漲。諸如深度學(xué)習(xí)在線預(yù)測、直播中的視頻轉(zhuǎn)碼、圖片壓縮解壓縮以及 HTTPS 加密等各類應(yīng)用對(duì)計(jì)算的需求已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng) CPU 處理器的能力所及。一方面處理器性能再無法按照摩爾定律進(jìn)行增長，另一方面數(shù)據(jù)增長對(duì)計(jì)算性能要求超過了按“摩爾定律”增長的速度。CPU 處理器本身無法滿足計(jì)算性能需求，導(dǎo)致需求和性能之間出現(xiàn)了缺口。解決方法是通過硬件加速，采用專用協(xié)處理器的異構(gòu)計(jì)算方式來提升處理性能，而 GPU 憑借其相對(duì)通用靈活和適應(yīng)并行計(jì)算等特性成為主要選擇。

GPU 在并行運(yùn)算層面具備一定優(yōu)勢

當(dāng)前主要興起的計(jì)算芯片分別為 GPU、ASIC、FPGA 等，其中 GPU 最初專用于圖形處理制作，后逐漸應(yīng)用于計(jì)算。其內(nèi)部包含大量的運(yùn)算單元核心，盡管單個(gè)核心緩存較小，邏輯功能簡單，僅能執(zhí)行有限類型的邏輯運(yùn)算操作，但其多核心架構(gòu)天然適合執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計(jì)算，且科學(xué)計(jì)算領(lǐng)域通用性較高，相比 CPU，綜合性能更好。當(dāng)前缺點(diǎn)在于功耗過高，效率不足。

GPU 是核心計(jì)算資源底座。雖然提供各類計(jì)算資源的芯片種類眾多，但 GPU 依然是市場的最為主要的支撐點(diǎn)。以在 AI 市場的應(yīng)用為例，IDC 研究發(fā)現(xiàn)，2021 年上半年中國人工智能芯片中，GPU 依然是實(shí)現(xiàn)數(shù)據(jù)中心加速的首選，占有 90% 以上的市場份額，而 ASIC、FPGA、NPU 等其他非 GPU 芯片也在各個(gè)行業(yè)和領(lǐng)域被越來越多地采用，整體市場份額接近 10%。

歷史復(fù)盤：當(dāng)前 GPU 進(jìn)入高速發(fā)展期

前 GPU 時(shí)代，圖形處理器初具雛形：1981 年世界上第一臺(tái)個(gè)人電腦 IBM5150 由 IBM 公司發(fā)布，其搭配黑白顯示適配器與彩色圖形適配器，是最早的圖形顯示控制器。20 世紀(jì) 80 年代初期，出現(xiàn)了以 GE 芯片為標(biāo)志的圖形處理器，GE 芯片的具備四位向量的浮點(diǎn)運(yùn)算功能，可以實(shí)現(xiàn)圖形渲染過程中的矩陣，裁剪，投影等運(yùn)算，其出現(xiàn)標(biāo)志著計(jì)算機(jī)圖形學(xué)進(jìn)入以圖形處理器為主導(dǎo)的階段。后續(xù)隨著 GE 等圖形處理器功能不斷完善，圖形處理功能逐漸由 CPU 向 GPU（前身）轉(zhuǎn)移。

GeForce 256 橫空出世，GPU 正式誕生：20 世紀(jì) 90 年代，NVIDIA 進(jìn)入個(gè)人電腦 3D 市場，并于 1999 年推出具有標(biāo)志意義的圖形處理器 GeForce 256，真正意義上的 GPU 第一次出現(xiàn)。相較過往圖形處理器，第二代 GPU GeForce 256 將 T&L 硬件（用于處理圖形的整體角度旋轉(zhuǎn)與光暈陰影等三維效果）從 CPU 中分離出來并整合進(jìn) GPU 中，使得 GPU 可以獨(dú)立進(jìn)行三維頂點(diǎn)的空間坐標(biāo)變換，將 CPU 從繁重的光照計(jì)算中解脫出來。即便是低端 CPU，搭配了支持硬件 T&L 的顯卡也可以流暢地玩游戲，這使得英偉達(dá)在市場競爭中能以產(chǎn)品價(jià)格獲得較大優(yōu)勢，市占率持續(xù)提升。頂點(diǎn)編程確立 GPU 編程思路：經(jīng)過 2000 年的顯卡廠商洗牌后，S3、SIS 等廠商無力與英偉達(dá)和 ATI 競爭，逐漸淡出了顯卡市場，擁有產(chǎn)品高速迭代能力的 ATI 成為繼 3Dfx 后唯一有實(shí)力和英偉達(dá)競爭的廠商。2002 年第三代 GPU 芯片陸續(xù)推出（如英偉達(dá)的 GeForce 4Ti 與 ATI 的 8500），其均具備頂點(diǎn)編程能力，可以通過賦予特定算法在工作中改變?nèi)S模型的外形。頂點(diǎn)編程能力的出現(xiàn)確立了GPU芯片的編程思路，使后續(xù)GPU 芯片用于其他計(jì)算領(lǐng)域成為可能。但本時(shí)期 GPU 尚不支持像素級(jí)編程能力（片段編程能力），其編程自由度尚不完備。

GPU 用于通用計(jì)算，GPGPU 概念出現(xiàn)：2003 年 SIGGRAPH 大會(huì)上首次提出將 GPU 運(yùn)用于通用運(yùn)算，為 GPGPU 的出現(xiàn)打下基礎(chǔ)。其后 3 年，通過用統(tǒng)一的流處理器取代 GPU 中原有的不同著色單元的設(shè)計(jì)釋放了 GPU 的計(jì)算能力，第四代 GPU 均具有頂點(diǎn) 編程和片段編程能力，完全可編程的 GPU 正式誕生。由于 GPU 的并行處理能力強(qiáng)于 CPU，因此 GPU 可以在同一時(shí)間處理大量頂點(diǎn)數(shù)據(jù)，使其在人體 CT、地質(zhì)勘探、氣象數(shù)據(jù)、流體力學(xué)等科學(xué)可視化計(jì)算處理上具備較大優(yōu)勢，足以滿足各項(xiàng)實(shí)時(shí)性任務(wù)。后續(xù)伴隨線性代數(shù)、物理仿真和光線跟蹤等各類算法向 GPU 芯片移植，GPU 由專用圖形顯示向通用計(jì)算逐漸轉(zhuǎn)型。架構(gòu)持續(xù)迭代，AI 計(jì)算關(guān)注度漸起：2010 年英偉達(dá)發(fā)布了全新 GPU 架構(gòu) Fermi，其是支持 CUDA 的第三代 GPU 架構(gòu)（第一代與第二代分別是 G80 架構(gòu)與 GT200 架構(gòu)）。彼時(shí)英偉達(dá)在 Fermi 架構(gòu)的設(shè)計(jì)上并未對(duì) AI 計(jì)算場景做特定設(shè)置，但 GPU 芯片在 AI 計(jì)算領(lǐng)域相較 CPU 芯片已擁有了較大優(yōu)勢（GTX580 峰值算力較 i7-920 峰值算力高出一個(gè)數(shù)量級(jí)）。隨后在 2012、2014 年陸續(xù)發(fā)布的 Kepler 架構(gòu)、Maxwell 架構(gòu)中，盡管英偉達(dá)并未在硬件層面對(duì) AI 計(jì)算做特定優(yōu)化，但在軟件層面卻引入了深度神經(jīng)網(wǎng)絡(luò)加速庫 cuDNN v1.0，使英偉達(dá) GPU 的 AI 計(jì)算性能與易用性得到提升。

Pascal 架構(gòu)發(fā)布，AI 計(jì)算專精版本到來：Pascal 架構(gòu)在 2016 年 3 月被推出，是英偉達(dá)面向 AI 計(jì)算場景發(fā)布的第一版架構(gòu)。其硬件結(jié)構(gòu)中加入了諸如 FP16（半精度浮點(diǎn)數(shù) 計(jì)算）、NVLink（總線通信協(xié)議，用于可用于單 CPU 配置多 GPU）、HBM（提升訪存帶寬）、INT8 格式支持（支持推理場景）等技術(shù)，而軟件層面也發(fā)布了面向推理加速場景的 TensorRT 與開源通信函數(shù)庫 NCCL，Pascal 架構(gòu)在 AI 計(jì)算領(lǐng)域的前瞻性布局使得英偉達(dá)后續(xù)架構(gòu)在競爭中具有著較大優(yōu)勢。細(xì)分場景不斷追趕，GPU 迎來高速發(fā)展期：繼 Pascal 架構(gòu)后，面對(duì) Google TPU 在 AI 計(jì)算層面帶來的壓力，英偉達(dá)先后更新了 Volta（2017）、Turing（2018）、Ampere（2020）架構(gòu)。AI 計(jì)算領(lǐng)域的技術(shù)代差在 Volta 架構(gòu)通過引入第一代 Tensor Core 在訓(xùn)練場景進(jìn) 行了拉平，隨后 Turing 架構(gòu)的第二代 Tensor Core 在推理場景上進(jìn)行了拉平，直到 Ampere 時(shí)代，NV 才算再次鞏固了自己在 AI 計(jì)算領(lǐng)域的龍頭地位。雙方激烈競爭下， GPU 迎來高速發(fā)展期。

多點(diǎn)開花，GPU 市場高速成長

我們認(rèn)為，當(dāng)前全社會(huì)對(duì)算力需求將長期保持提升態(tài)勢，而 GPU 作為支撐眾多科技領(lǐng) 域發(fā)展的底層核心，是數(shù)據(jù)計(jì)算的核心底座，在商業(yè)計(jì)算、人工智能等諸多板塊均有著較為廣泛的使用，是科技行業(yè)的重要支撐。

GPU 的市場空間廣闊，正穩(wěn)健增長。依據(jù) T4 的統(tǒng)計(jì)數(shù)據(jù)，2020 年全球 GPU 市場規(guī)模價(jià)值 200 億美元，預(yù)計(jì) 2021 年將增長 15%，從 2015 年到 2025 年平均每年增長 13%，從 80 億美元擴(kuò)大到 350 億美元。而依據(jù) Allied Market Research 預(yù)測，2019 年全球 GPU 市場規(guī)模為 197.5 億美元，預(yù)計(jì)到 2027 年將達(dá)到 2008.5 億美元，2020 年至 2027 年的復(fù)合年增長率為 33.6%，對(duì)比來看 Allied Market Research 對(duì) GPU 市場空間更為樂觀。

從下游應(yīng)用來看，GPU 需求仍在快速增長期。游戲領(lǐng)域是 GPU 應(yīng)用的傳統(tǒng)應(yīng)用領(lǐng)域，參考 GPU 全球龍頭英偉達(dá)的營收數(shù)據(jù)，其游戲領(lǐng)域業(yè)務(wù)收入由 2019 年的 55.18 億元增長至 2021 年的 124.62 億元，近三年符合增長率 31.20%，整體趨勢保持穩(wěn)定增長，為英偉達(dá)占比最高的業(yè)務(wù)。另一方面，伴隨人工智能算法的不斷普及和應(yīng)用，以及對(duì)商業(yè)計(jì)算和大數(shù)據(jù)處理的算力需求的不斷增長，全球范圍內(nèi)數(shù)據(jù)中心對(duì)計(jì)算加速硬件的需求不斷上升。英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)收入由 2019 年的 29.83 億美元增長至 2021 年的 106.13 億美元，近三年復(fù)合增長率高達(dá) 52.66%，增速遠(yuǎn)超其他板塊業(yè)務(wù)。NVIDIA 數(shù) 據(jù)中心業(yè)務(wù)收入的快速增長體現(xiàn)了下游數(shù)據(jù)中心市場對(duì)于泛人工智能類芯片（以 GPU 為主）的旺盛需求。

國內(nèi)需求不斷涌現(xiàn)，計(jì)算類 GPU 市場高速增長。依據(jù)前瞻產(chǎn)業(yè)研究院數(shù)據(jù)，2020 年預(yù) 計(jì)國內(nèi)人工智能芯片市場規(guī)模約為 178 億元，且市場規(guī)模隨下游應(yīng)用領(lǐng)域的拓展而高速增長。人工智能芯片由 GPU、ASIC、FPGA 與 NPU 構(gòu)成，其中 GPU 以科學(xué)計(jì)算型為主，其憑借著在性能、能耗比與編程靈活性等領(lǐng)域的綜合優(yōu)勢，在人工智能芯片中占據(jù)主要地位。據(jù) IDC 數(shù)據(jù)顯示，2021 年中國加速服務(wù)器市場中 GPU 約占人工智能芯片的 88.4%，測算可得 2021 年計(jì)算型 GPU 市場規(guī)模約為 222 億元。

多方需求驅(qū)動(dòng) GPU 市場持續(xù)增長。從載體層面分類，GPU 在 PC 端與服務(wù)器端均可搭載，其中 PC 端多用于游戲影音娛樂，而服務(wù)器端則多用于科學(xué)計(jì)算。伴隨對(duì)海量數(shù)據(jù) 的處理需求逐漸增大，具備矩陣運(yùn)算能力的 GPU 需求高速上行。同時(shí)，受益于多核并行計(jì)算的基礎(chǔ)架構(gòu)，GPU 已在機(jī)器學(xué)習(xí)和自動(dòng)駕駛等領(lǐng)域有了較大規(guī)模的使用。

服務(wù)器層面，相對(duì)占比維度，據(jù) IDC 數(shù)據(jù)顯示，2018 年全年中國 GPU 服務(wù)器市場規(guī) 模約為 13.05 億美金（約合人民幣 90.05 億元），同比增長 131.2%。同時(shí) IDC 預(yù)測，到 2023 年中國 GPU 服務(wù)器市場規(guī)模將達(dá)到 43.2 億美金（約合人民幣 298 億元），未來 5 年整體市場年復(fù)合增長率（CAGR）為 27.1%。GPU 服務(wù)器增速高于國內(nèi) X86 服務(wù)器出貨量增速，當(dāng)前國內(nèi)服務(wù)器中 GPU 服務(wù)器占比迅速抬升。

全球格局：國際巨頭壟斷，國產(chǎn)廠商起步追趕

競爭格局：國際巨頭三強(qiáng)壟斷

全球 GPU 市場中，基本被 Nvidia、Intel 和 AMD 三家壟斷。據(jù) JPR 統(tǒng)計(jì)，全球 PC GPU 在 2022 年 Q2 出貨量達(dá)到 8400 萬臺(tái)，同比下降 34%，預(yù)計(jì) 2022-2026GPU 復(fù) 合增長率為 3.8%，在未來五年內(nèi) dGPU 在 PC 中滲透率增長至 30%。從市場格局來看， Nvidia、Intel 和 AMD 三家在 2022 年 Q2 市場占有率分別為 18%、62%和 20%，Intel 憑借其集成顯卡在桌面端的優(yōu)勢占據(jù)最大的市場份額。

獨(dú)顯市場中，Nvidia 占據(jù)領(lǐng)先地位。不同于整體市場，在獨(dú)顯市場中，Nvidia 與 AMD 雙雄壟斷市場，其 2022 年 Q2 市占率分別約為 80%和 20%，可以看到近年來 Nvidia 不斷鞏固自己的優(yōu)勢，其獨(dú)立顯卡市占率整體呈現(xiàn)上升趨勢。

英偉達(dá)：GPU 王國締造者，AI 時(shí)代先行軍

英偉達(dá)是一家專注于 GPU 半導(dǎo)體設(shè)計(jì)的企業(yè)。公司成立于 1993 年，由黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng)立，1999 年英偉達(dá)推出 GeForce 256 芯片，并首次定義了 GPU 的概念；隨后創(chuàng)新性的提出 CUDA 架構(gòu)，讓此前只做 3D 渲染的 GPU 實(shí)現(xiàn)通用計(jì)算功能；進(jìn)入 2010 年代后，英偉達(dá)在 AI 行業(yè)發(fā)展初期市場皆不看好的情況下，前瞻性預(yù)見了 GPU 在 AI 市場的應(yīng)用并全力以赴開展相關(guān)布局；當(dāng)前，公司以數(shù)據(jù)中心、游戲、汽車、專業(yè)視覺四大類芯片為收入基礎(chǔ)，完成了硬件、系統(tǒng)軟件、軟件平臺(tái)、應(yīng)用框架全棧生態(tài)的建設(shè)。

追溯公司歷史，英偉達(dá)以技術(shù)創(chuàng)新為基，持續(xù)推動(dòng) GPU 行業(yè)的發(fā)展，可以稱得上是 GPU 時(shí)代奠基人。我們認(rèn)為，英偉達(dá)公司發(fā)展史可簡單劃分為四個(gè)階段：

（1）蓄力階段：1993 年黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng)立英偉達(dá)，早期致力于圖形芯片的研發(fā)。但當(dāng)時(shí)市場上有 20 多家圖形芯片公司，三年后這個(gè)數(shù)字飆升至 70 家，英偉達(dá)在其中并不突出。直到 1997 年英偉達(dá)決定放棄部分已有的專利，轉(zhuǎn)而全面支持 Direct X（微軟標(biāo)準(zhǔn)），1997 年公司推出 RIVA 128，這是公司第一款真正意義上取得成功的產(chǎn)品。

（2）崛起階段：1999 年公司推出 GeForce 256 并定義 GPU 芯片，這是世界上第一款功能齊全，可從真正意義上替代 CPU 渲染圖形的芯片，并首次定義了 GPU 的概念，由此英偉達(dá)走上了重塑顯卡行業(yè)的道路。2000 年，公司收購了顯卡先驅(qū)企業(yè) 3Dfx，再次鞏固自身行業(yè)地位，在顯卡行業(yè)與 ATi 公司形成雙寡頭壟斷的格局。

（3）制霸階段：2006 年英偉達(dá)創(chuàng)新性推出 CUDA 架構(gòu)。CUDA 全稱 Compute Unified Device Architecture，是英偉達(dá)基于自有 GPU 的一個(gè)并行計(jì)算平臺(tái)和編程模型。CUDA 帶來兩方面巨大影響，于 GPU 行業(yè)而言，CUDA 使得只做 3D 渲染的 GPU 得以實(shí)現(xiàn) 通用計(jì)算功能，GPU 的應(yīng)用領(lǐng)域得以從游戲（圖形渲染）向外擴(kuò)展至高性能計(jì)算、自動(dòng)駕駛等多個(gè)領(lǐng)域；而對(duì)于英偉達(dá)公司本身來說，其在早期大力推廣 CUDA，并對(duì) CUDA 進(jìn)行了編程語言擴(kuò)展，如 CUDA C/C++,CUDA Fortran 語言等，使得開發(fā)人員能夠輕易地對(duì) GPU 進(jìn)行編程，目前 CUDA 是最主流的兩個(gè) GPU 編程庫之一，奠定了英偉達(dá) GPU 生態(tài)得以成型的基礎(chǔ)。而在英偉達(dá)大力推廣統(tǒng)一平臺(tái) CUDA、不斷進(jìn)行 GPU 架構(gòu) 迭代的同時(shí)，其最大的競爭對(duì)手 ATi 在被 AMD 收購后受其 CPU 業(yè)務(wù)拖累，發(fā)展受到限制，英偉達(dá)在 GPU 領(lǐng)域的競爭地位在這一階段進(jìn)一步得到鞏固。

（4）騰飛階段：押注 AI，數(shù)據(jù)中心業(yè)務(wù)開啟第二成長曲線。2012 年 Alex Krizhevsky 利用 GPU 進(jìn)行深度學(xué)習(xí)，通過幾天訓(xùn)練在 ImageNet 競賽中獲得冠軍，其將深度卷積神經(jīng)網(wǎng)絡(luò) AlexNet 的準(zhǔn)確率提高了 10.8%，震撼了學(xué)術(shù)界，從此開啟 GPU 應(yīng)用于深度學(xué)習(xí)的大門，毫無意外，其使用的正是 NVIDIA GTX 580 GPU 芯片和 CUDA 計(jì)算模型。此后，英偉達(dá) GPU 和 CUDA 模型成為深度學(xué)習(xí)（尤其是訓(xùn)練環(huán)節(jié)）的首選芯片，而英偉達(dá)也順勢推出海量專用于 AI 的芯片及配套產(chǎn)品，從顯卡硬件公司華麗轉(zhuǎn)型成為人工智能公司。在人工智能的推動(dòng)下，公司數(shù)據(jù)中心業(yè)務(wù) 2014~2022 財(cái)年復(fù)合增速達(dá)到 64.39%，其占收入比例也由 2014 年的不足 5%提升至 2022 財(cái)年的 40%。

而總覽英偉達(dá)歷史，即使公司在不同時(shí)期存在不同發(fā)展重點(diǎn)，但貫穿始終的，是其卓越的創(chuàng)新能力、強(qiáng)大的芯片設(shè)計(jì)能力和穩(wěn)定的決策執(zhí)行能力。事實(shí)上，英偉達(dá)平均每兩年推出一代芯片架構(gòu)、每半年推出一款新的產(chǎn)品，多年以來堅(jiān)持不輟，從 2009 年的 Fermi 架構(gòu)到當(dāng)前的 Hopper 架構(gòu)，公司產(chǎn)品性能穩(wěn)步提升，并始終引領(lǐng) GPU 芯片技術(shù)發(fā)展。

截至目前，英偉達(dá) GPU 芯片已形成覆蓋數(shù)據(jù)中心、游戲、專業(yè)視覺和學(xué)術(shù)研究四大場景的芯片產(chǎn)品陣列，其中消費(fèi)級(jí) GPU 和數(shù)據(jù)中心 GPU 是最核心場景。

與此同時(shí)，在英偉達(dá)領(lǐng)跑 GPU 市場的過程中，生態(tài)的建設(shè)也是不可缺少的一環(huán)。具體來看，我們認(rèn)為英偉達(dá)生態(tài)的建立，主要應(yīng)當(dāng)歸功于以下兩方面原因：（1）通過統(tǒng)一的計(jì)算平臺(tái) CUDA，構(gòu)建開發(fā)者生態(tài)。CUDA 的存在使得開發(fā)者使用 GPU 進(jìn)行通用計(jì)算的難度大幅降低，使得開發(fā)者可以相對(duì)簡單有效地對(duì)英偉達(dá) GPU 芯片進(jìn) 行編程。2006 年 CUDA 推出后，英偉達(dá)承擔(dān)巨大成本壓力，堅(jiān)持使其成為所有 GPU 芯片的統(tǒng)一計(jì)算平臺(tái)，而其競爭對(duì)手 AMD 經(jīng)過重重考慮選擇應(yīng)用開源計(jì)算框架 OpenCL，其開源屬性決定其在效率上落后于 CUDA。經(jīng)過多年培育，目前英偉達(dá)基于 CUDA 平臺(tái)已培育近 180 萬開發(fā)者，2020 年新增超過 50 個(gè) SDK，GPU 開發(fā)者生態(tài)正在蓬勃發(fā) 展。

毋庸置疑，CUDA 是迄今為止最發(fā)達(dá)、最廣泛的生態(tài)系統(tǒng)，也是深度學(xué)習(xí)庫最有力的支持。隨著人工智能領(lǐng)域的蓬勃發(fā)展，GPU 和 CUDA 被從業(yè)者視為標(biāo)配，使用 GPU 做加速計(jì)算已成為行業(yè)主流。雖然英偉達(dá) GPU 本身硬件平臺(tái)的算力卓越，但其強(qiáng)大的 CUDA 軟件生態(tài)才是推升 GPU 計(jì)算生態(tài)普及的關(guān)鍵力量，其幫助英偉達(dá)成為 AI 產(chǎn)業(yè) 目前最大受益者，GPU 生態(tài)效應(yīng)使得英偉達(dá)處于領(lǐng)先地位。

（2）與此同時(shí)，英偉達(dá)自身也在不遺余力的進(jìn)行配套軟硬件研發(fā)，持續(xù)豐富各類 GPU 應(yīng)用場景。目前英偉達(dá)構(gòu)建了四層技術(shù)棧：硬件、系統(tǒng)軟件、軟件平臺(tái)、應(yīng)用框架，同時(shí)針對(duì)不同場景（如醫(yī)療、智能機(jī)器人等）都有相關(guān)硬件和軟件平臺(tái)的開發(fā)，英偉達(dá)自身就是 GPU 應(yīng)用生態(tài)的核心開發(fā)者。

AMD：兼具 CPU+GPU，卓越性能引領(lǐng)算力時(shí)代

AMD 是一家專門為計(jì)算機(jī)、通信和消費(fèi)電子行業(yè)設(shè)計(jì)和制造各種創(chuàng)新的微處理器（CPU、 GPU、APU、主板芯片組、電視卡芯片等）、閃存和低功率處理器解決方案的公司。公司成立于 1969 年，由曾工作于仙童半導(dǎo)體的銷售高管 Jerry Sanders 創(chuàng)立，成立之初生產(chǎn)邏輯芯片，后定位為高性價(jià)比的第二供應(yīng)商，與英特爾深度合作 X86 處理器，后英特爾為鞏固自身優(yōu)勢斬?cái)嗪献麝P(guān)系，兩者競爭加劇。2006 年 7 月 24 日，AMD 正式收購 ATI，成為一家同時(shí)擁有 CPU 和 GPU 生產(chǎn)技術(shù)的半導(dǎo)體公司，GPU 版圖由此展開。公司自成立以來收入波動(dòng)較大，近五年開始實(shí)現(xiàn)持續(xù)高增。公司2021年?duì)I業(yè)收入164.34 億元，同比大幅增長 68.33%，2016-2021 年 CAGR 30.92%。公司營業(yè)收入可分為數(shù) 據(jù)中心、客戶端、游戲和嵌入式解決方案業(yè)務(wù)收入，其中數(shù)據(jù)中心和游戲業(yè)務(wù)收入增速最高，分別為 119.23%和 104.19%。

細(xì)究 AMD 的 GPU 發(fā)展史，可將其分為兩大階段。第一階段是收購前的 ATI 時(shí)代，隨時(shí)代技術(shù)發(fā)展而進(jìn)步，不斷推出 Radeon 系列，憑借性能與英偉達(dá)直面對(duì)抗；第二階段是收購后的 AMD 時(shí)代，憑借高性價(jià)比戰(zhàn)略在中端市場占據(jù)一席之地。

第一階段，被收購前的互相追趕。1985 年 ATI 由加拿大華人何國源與另外兩位華人 Lee Ka Lau, Benny Lau 一起創(chuàng)辦成立，主攻圖形顯示芯片的研發(fā)。1985-1995 年，PC 圖形技術(shù)仍處于 2D 時(shí)代，ATI 看到了圖形技術(shù)發(fā)展迅速， 1987 年推出 EGA Wonder 顯卡系列，在技術(shù)和功能上相比 IBM 同期圖形適配器都有很大提升，是可應(yīng)用于市場上任何一種圖形界面、軟件和顯示器的單卡，成為當(dāng)時(shí) ATI 主要的零售產(chǎn)品。1995 年，隨著 3D 圖形顯示技術(shù)的發(fā)展，眾多圖形廠商都紛紛推出旗下的第一代 3D 顯示卡，例如 NVIDIA 的 NV1、Matrox 的 Mlennium 以及 Mystique、PowerVR 的 PCX1、S3 的 Virge3D 等等，ATI 也推出 3D Rage 進(jìn)軍 3D 市場。1999 年，英偉達(dá)推出 GeForce 256 重新定義 GPU 芯片，并于 2000 年收購昔日王者 3Dfx 重塑行業(yè)格局，ATI 發(fā)布 Radeon 256 正式迎擊。2000-2006 年期間，ATI 于英偉達(dá)呈現(xiàn)雙寡頭壟斷格局， ATI 不斷提升自身性能與英偉達(dá)直面競爭。但同時(shí)，ATI 在產(chǎn)品的高成本投入加上市場的不良反應(yīng)讓財(cái)務(wù) 狀況出現(xiàn)問題，最終于 2006 年被 AMD 收購。

第二階段，有的放矢，憑借高性價(jià)比牢牢占據(jù)一席之地。根據(jù) 2022 年 5 月，德國 3Dcenter 網(wǎng)站對(duì)市場上主流 GPU 的測評(píng)數(shù)據(jù)來看，在 1080p 分辨率中，AMD Radeon RX 6950 XT 的性能指數(shù)是 2230%，性能得分最強(qiáng)，但售價(jià)僅為 1240-1400 歐元，性價(jià)比指數(shù)為 70%，大幅超過 GeForce RTX 3090 Ti 的 41%。從整體來看，AMD 目前市場主流顯卡的性價(jià)比得分超過 100%個(gè)數(shù)明顯超過英偉達(dá)，具有較強(qiáng)的性價(jià)比優(yōu)勢。

AMD 生態(tài)相對(duì)劣勢，但已推出 ROCm 生態(tài)。ROCm 是一個(gè)開放式軟件平臺(tái)，為追求高靈活性和高性能而構(gòu)建，針對(duì)加速式計(jì)算且不限定編程語言，讓機(jī)器學(xué)習(xí)和高性能計(jì) 算社區(qū)的參與者能夠借助各種開源計(jì)算語言、編譯器、庫和重新設(shè)計(jì)的工具來加快代碼開發(fā)，適合大規(guī)模計(jì)算和支持多 GPU 計(jì)算，其創(chuàng)立目標(biāo)是建立可替代 CUDA 的生態(tài)。

龐大需求+國產(chǎn)替代，國產(chǎn)廠商迎來時(shí)代機(jī)遇

總量與份額雙擊，國產(chǎn)廠商迎來發(fā)展黃金期

中美摩擦不斷，國產(chǎn)替代緊迫性和重要性進(jìn)一步提升。2022 年 8 月 9 日，美國總統(tǒng)拜登簽署《2022 年美國芯片與科學(xué)法案》，旨在為美國半導(dǎo)體的研究和生產(chǎn)提供約 520 億美元的政府補(bǔ)貼，來對(duì)抗中國及控制半導(dǎo)體產(chǎn)業(yè)鏈。8 月 31 日，英偉達(dá)發(fā)布公告，美國政府對(duì)向中國和俄羅斯出口的 A100 和即將推出的 H100 芯片實(shí)施了新的許可要求。據(jù)路透社消息，AMD MI250 芯片亦受到影響。高端 GPU 限制產(chǎn)品基本都是具備“64 位浮點(diǎn)數(shù)字”（FP64）雙精度算力的高性能顯卡，主要應(yīng)用于 AI、數(shù)據(jù)分析和 HPC 應(yīng) 用場景。此次受限雖然只針對(duì)高端 GPU 型號(hào)，但依然為我國廠商敲響了警鐘，國產(chǎn) GPU 落地有望加速推進(jìn)。

龐大的需求+逐漸成熟的產(chǎn)業(yè)預(yù)示著廣闊的發(fā)展空間。在元宇宙、人工智能、云游戲、自動(dòng)駕駛等新場景和需求爆發(fā)式增長的背景下，我們判斷中國 GPU 市場將快速增長，相比于 PC 市場，新增市場空間或更大。相比于 PC 等傳統(tǒng) IT 應(yīng)用場景，中國在人工智能、自動(dòng)駕駛領(lǐng)域與美國等強(qiáng)國處于同一競爭水平，且中國龐大市場有望為相應(yīng)細(xì)分領(lǐng) 域帶來更快的成長。另一方面，從國家安全角度，國產(chǎn) GPU 勢在必行，對(duì)于國產(chǎn) GPU 廠商而言是時(shí)代機(jī)遇。

國內(nèi)廠商奮力追趕，迎來時(shí)代黃金機(jī)遇

部分優(yōu)質(zhì)國產(chǎn) GPU 企業(yè)已逐步展現(xiàn)出發(fā)展?jié)摿?。我國部分國產(chǎn)廠商經(jīng)歷了從特殊行業(yè) 到黨政市場的應(yīng)用迭代升級(jí)，正逐步向民用等商業(yè)市場布局拓展，如景嘉微在經(jīng)過 JM5 系列和 JM7 系列應(yīng)用升級(jí)，當(dāng)前 JM9 系列已完成流片、封裝階段工作及初步測試工作。海光信息自 2018 年布局 GPU 行業(yè)以來，產(chǎn)品迭代進(jìn)展迅速，2021 年首款 DCU 產(chǎn)品深算一號(hào)便已實(shí)現(xiàn)規(guī)模化出貨，同時(shí)深算二號(hào)的研發(fā)也保持順利。

壁仞科技

公司主營業(yè)務(wù)為高端通用智能計(jì)算芯片。壁仞科技創(chuàng)立于 2019 年，公司致力于開發(fā)原創(chuàng)性的通用計(jì)算體系，建立高效的軟硬件平臺(tái)，同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上，公司將首先聚焦云端通用智能計(jì)算，逐步在人工智能訓(xùn)練和推理、圖形渲染等多個(gè)領(lǐng)域趕超現(xiàn)有解決方案，實(shí)現(xiàn)國產(chǎn)高端通用智能計(jì)算芯片的突破。2022 年 3 月，公司首款通用 GPU 芯片 BR100 成功點(diǎn)亮，后于 2022 年 8 月正式發(fā)布，創(chuàng)下全球算力的新紀(jì)錄。

公司的產(chǎn)品體系主要涵蓋 BR100 系列通用 GPU 芯片、BIRENSUPA 軟件開發(fā)平臺(tái)以及開發(fā)者云三大板塊。其中，BR100 系列通用 GPU 芯片是公司的核心產(chǎn)品，目前主要包括 BR100、BR104 兩款芯片。BR100 系列針對(duì)人工智能（AI）訓(xùn)練、推理，及科學(xué) 計(jì)算等更廣泛的通用計(jì)算場景開發(fā)，主要部署在大型數(shù)據(jù)中心，依托“壁立仞”原創(chuàng)架構(gòu)，可提供高能效、高通用性的加速計(jì)算算力。

BR100 系列在性能、安全等方面具備多項(xiàng)核心優(yōu)勢。公司致力于打造性能先進(jìn)、競爭力強(qiáng)的 GPU 芯片，并為此采取了大量技術(shù)措施，具體包括：支持 7nm 制程，并創(chuàng)新性應(yīng) 用 Chiplet 與 2.5D CoWoS 封裝技術(shù)，兼顧高良率與高性能；支持 PCIe 5.0 接口技術(shù) 與 CXL 通信協(xié)議，雙向帶寬最高達(dá) 128 GB/s 等。2022 年公司正式推出壁礪?100，其峰值算力達(dá)到國際廠商在售旗艦的 3 倍以上，超越了國際廠商同類的在售旗艦產(chǎn)品，競爭優(yōu)勢十分顯著。同時(shí)，在安全方面，BR100 系列最高支持 8 個(gè)獨(dú)立實(shí)例，每個(gè)實(shí)例物理隔離并配備獨(dú)立的硬件資源，可獨(dú)立運(yùn)行。

摩爾線程

摩爾線程是一家以 GPU 芯片設(shè)計(jì)為主的集成電路高科技公司。公司誕生于 2020 年 10 月，專注于研發(fā)設(shè)計(jì)全功能 GPU 芯片及相關(guān)產(chǎn)品，支持 3D 高速圖形渲染、AI 訓(xùn)練推理加速、超高清視頻編解碼和高性能科學(xué)計(jì)算等多種組合工作負(fù)載，兼顧算力與算效，為中國科技生態(tài)合作伙伴提供強(qiáng)大的計(jì)算加速能力。在“元計(jì)算”賦能下一代互聯(lián)網(wǎng)的愿景下，公司將持續(xù)創(chuàng)新面向元計(jì)算應(yīng)用的新一代 GPU，構(gòu)建融合視覺計(jì)算、3D 圖形計(jì)算、科學(xué)計(jì)算及 AI 計(jì)算的綜合計(jì)算平臺(tái)，建立基于云原生 GPU 計(jì)算的生態(tài)系統(tǒng)，助力驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展。公司的產(chǎn)品體系主要包括：MTT S60、MTT S2000、MTT S100 等硬件產(chǎn)品；MT Smart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR 等軟件產(chǎn) 品；以及 MUSA 統(tǒng)一系統(tǒng)架構(gòu)、DIGITALME 數(shù)字人解決方案、元計(jì)算應(yīng)用解決方案等其他產(chǎn)品。

MTT S60 具備先進(jìn)的硬件規(guī)格。MTT S60 顯卡由基于 MUSA 架構(gòu)的 GPU 蘇堤核心晶片制成，采用 12nm 制程，包含 2048 個(gè) MUSA 核心，單精度算力最高可達(dá) 6TFlops，配置 8GB 顯存，基于 MUSA 軟件運(yùn)行庫和驅(qū)動(dòng)程序等軟件工具。在先進(jìn)硬件規(guī)格的支撐下，MTT S60 顯卡能夠在不同應(yīng)用場景中展現(xiàn)多重優(yōu)勢：豐富圖形 API、4K/8K 超高清顯示、領(lǐng)先的硬件視頻編解碼能力、通用 AI 功能支持等。

基于 MUSA 先進(jìn)架構(gòu)，MTT S2000 致力于打造數(shù)據(jù)中心綠色多維算力。MTT S2000 采用 12nm 制程，使用 4096 個(gè) MUSA 核心，最大配置 32GB 顯存，單精度算力最高可達(dá) 到 12TFlops，支持 H.264、H.265、AV1 多路高清視頻編解碼，以及廣泛的 AI 模型算法加速。同時(shí)，MTT S2000 還采用了被動(dòng)散熱、單槽設(shè)計(jì)，以滿足數(shù)據(jù)中心高密度 GPU 配置方式。截至目前，MTT S2000 已經(jīng)能夠兼容 X86、ARM 等 CPU 架構(gòu)以及主流 Linux 操作系統(tǒng)發(fā)行版，并與浪潮、新華三、聯(lián)想、清華同方等多家服務(wù)器合作伙伴建立了合作關(guān)系，產(chǎn)品生態(tài)持續(xù)完善。作為公司面向數(shù)據(jù)中心領(lǐng)域的 GPU 芯片，除了生態(tài)外， MTT S2000 還具備全功能 GPU、豐富的圖形 API 支持、綠色計(jì)算等優(yōu)勢?；诙嗑S算力、生態(tài)完善等優(yōu)勢，MTT S2000 有望助力公司賦能 PC 云桌面、安卓云游戲、音視頻云處理、云端 Unreal/Unity 應(yīng)用渲染和 AI 推理計(jì)算等多類應(yīng)用場景。

海思昇騰

海思半導(dǎo)體成立于 2004 年，是全球領(lǐng)先的 Fabless 半導(dǎo)體與器件設(shè)計(jì)公司，旗下芯片共有五大系列，分別是用于智能設(shè)備的麒麟系列；用于數(shù)據(jù)中心的鯤鵬系列服務(wù)器 CPU；用于人工智能的場景 AI 芯片組昇騰系列 SoC；用于通信連接的芯片（基站芯片天罡、終端芯片巴龍）；以及其他專用芯片（視頻監(jiān)控、機(jī)頂盒芯片、智能電視、運(yùn)動(dòng)相機(jī)、物聯(lián)網(wǎng)等芯片）。

海思半導(dǎo)體是華為全資子公司，核心管理團(tuán)隊(duì)皆有深厚的華為背景。公司董事長徐直軍先生博士畢業(yè)于南京理工大學(xué)，早在 1993 年就加入了華為，歷任華為無線產(chǎn)品線總裁、戰(zhàn)略與 Marketing 總裁、產(chǎn)品與解決方案總裁、產(chǎn)品投資評(píng)審委員會(huì)主任、公司輪值 CEO、戰(zhàn)略與發(fā)展委員會(huì)主任等。公司總經(jīng)理徐文偉先生 1991 年加入了華為，歷任華為國際產(chǎn)品行銷及營銷總裁、歐洲片區(qū)總裁、戰(zhàn)略與 Marketing 總裁、銷售與服務(wù)總裁、片區(qū) 聯(lián)席會(huì)議總裁、企業(yè)業(yè)務(wù) BG CEO、公司戰(zhàn)略 Marketing 總裁、IRB 主任、戰(zhàn)略研究院院長等。

公司針對(duì)人工智能領(lǐng)域應(yīng)用場景，推出了昇騰系列芯片，主要產(chǎn)品有昇騰 310 與昇騰 910 兩款 NPU。昇騰 310 芯片于 2017 年發(fā)布，是一款高能效、靈活可編程的人工智能處理器，芯片在典型配置下可以輸出 16TOPS@INT8, 8TOPS@FP16，功耗僅為 8W。昇騰 310 芯片采用自研華為達(dá)芬奇架構(gòu)，集成豐富的計(jì)算單元, 提高 AI 計(jì)算完備度和效率，進(jìn)而擴(kuò)展該芯片的適用性。芯片實(shí)現(xiàn)了全 AI 業(yè)務(wù)流程加速,大幅提高 AI 全系統(tǒng)的性能，有效降低部署成本。昇騰（HUAWEI Ascend) 910 于 2018 年推出，是業(yè)界算力最強(qiáng)的 AI 處理器，芯片基于自研華為達(dá)芬奇架構(gòu) 3D Cube 技術(shù)，實(shí)現(xiàn)業(yè)界最佳 AI 性能與能效。芯片架構(gòu)靈活伸縮，支持云邊端全棧全場景應(yīng)用。在算力方面，昇騰 910 完全達(dá)到設(shè)計(jì)規(guī)格，半精度（FP16）算力達(dá)到 320 TFLOPS，整數(shù)精度（INT8）算力達(dá)到 640 TOPS，功耗 310W。

百度昆侖

昆侖芯科技是一家 AI 芯片公司，前身是百度智能芯片及架構(gòu)部，在實(shí)際業(yè)務(wù)場景中深耕 AI 加速領(lǐng)域已十余年，是一家在體系結(jié)構(gòu)、芯片實(shí)現(xiàn)、軟件系統(tǒng)和場景應(yīng)用均有深厚積累的 AI 芯片企業(yè)。昆侖芯科技研發(fā)實(shí)力雄厚，團(tuán)隊(duì)成員擁有全球頂尖學(xué)術(shù)背景，多數(shù)成員來自百度、高通、Marvell、Tesla 等行業(yè)頭部公司，并提出了 100%自研的、面向通用人工智能計(jì)算的核心架構(gòu) XPU，研究成果也在 Hotchips、ISSCC 等國際頂級(jí) 學(xué)術(shù)會(huì)議中成功發(fā)表。

2011 年，為了深度學(xué)習(xí)運(yùn)算的需要，百度開始基于 FPGA 研發(fā) AI 加速器，并于同年開始使用 GPU。在過去幾年中，百度對(duì) FPGA 和 GPU 都進(jìn)行了大規(guī)模部署。在大規(guī)模 AI 運(yùn)算的實(shí)踐探索中，百度推出昆侖芯片。

昆侖芯科技的主要產(chǎn)品有昆侖一代芯片、二代芯片以及基于兩代芯片開發(fā)的加速卡 K 系列與 R 系列。昆侖第一代云端通用人工智能計(jì)算處理器發(fā)布于 2020 年，采用了公司十年積累自研的 XPU-K 架構(gòu)，芯片采用了 14nm 制程工藝，算力可以輸出 256 TOPS@INT8，64 TFLOPS@FP16，可用于云數(shù)據(jù)中心和智能邊緣，支持全 AI 算法，落地已超過兩萬片。

昆侖第二代云端通用人工智能計(jì)算處理器發(fā)布于 2021 年，采用通用性和性能顯著提升的 XPU-R 架構(gòu)，制程工藝從 14nm 升級(jí)到 7nm，算力可以輸出 256 TOPS@INT8，128 TFLOPS@FP16。相比之下功能更加完備，支持硬件虛擬化，芯片間互聯(lián)和視頻編解碼。

第二代芯片的 XPU-R 架構(gòu)使二代芯片性能比 1 代提升 2-3 倍，全品類人工智能算法上都達(dá)到了當(dāng)前業(yè)界領(lǐng)先水平的 1.5-2 倍。第二代芯片支持硬件的虛擬化，可實(shí)現(xiàn)計(jì)算單元和存儲(chǔ)單元的物理隔離,優(yōu)化了加速芯片的利用率。在保證延時(shí)和吞吐量的情況下支持推理和訓(xùn)練等混合工作負(fù)載。此外，二代芯片還支持高性能分布式 AI 系統(tǒng)、芯片間 K-Link 互聯(lián)支持訓(xùn)練和推理中模型并行和數(shù)據(jù)并行策略的通訊要求。

新聞中心

圖形處理器GPU行業(yè)研究：破曉而生，踏浪前行

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

圖形處理器GPU行業(yè)研究：破曉而生，踏浪前行

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

圖形處理器GPU行業(yè)研究：破曉而生，踏浪前行