行業(yè)大牛開啟新征程，芯片架構(gòu)創(chuàng)新迎來新局面

作者：時(shí)間：2023-12-05 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

本周，全球 IT 業(yè)最大的新聞非 OpenAI 聯(lián)合創(chuàng)始人山姆·奧特曼（Sam Altman）離開原公司、加入微軟莫屬。當(dāng)然，這并不是終點(diǎn)。

本文引用地址：http://2s4d.com/article/202312/453557.htm

Sam Altman 被 OpenAI 董事會(huì)驅(qū)逐，被認(rèn)為是技術(shù)派的勝利，因?yàn)榱硪幻?lián)合創(chuàng)始人薩斯克維爾認(rèn)為 Altman 商業(yè)化行動(dòng)過于激進(jìn)，存在很多安全隱患，因此，聯(lián)合其他三名外部董事驅(qū)逐了 Altman。

本文不關(guān)注 OpenAI 的「宮斗」大戲，無論 Altman 最終留在微軟，還是回歸 OpenAI，都不會(huì)影響他開創(chuàng) AI 軟硬件新技術(shù)和市場(chǎng)的意愿，區(qū)別只是在哪里做而已。

據(jù)悉，在被解職之前，Altman 就在探尋新業(yè)務(wù)，曾試圖在中東籌集數(shù)十億美元用于人工智能（AI）芯片項(xiàng)目 Tigris，還想創(chuàng)建一家專注于 AI 芯片研發(fā)的公司，或許，這一項(xiàng)目已經(jīng)被微軟拿下了。另外，Altman 還一直在尋求為一款 AI 硬件設(shè)備籌集資金，該設(shè)備是他與前蘋果設(shè)計(jì)總監(jiān) Jony Ive 共同開發(fā)的。

近些年，在 AI 發(fā)展方興未艾的大背景下，不甘于已經(jīng)取得的「輝煌成績(jī)」，選擇開創(chuàng)新業(yè)務(wù)（從新創(chuàng)業(yè)或加盟一家富有活力的大公司）的行業(yè)大牛不止 Altman 一人，還有多位業(yè)界知名業(yè)界人士，特別是技術(shù)大牛，都選擇了再創(chuàng)業(yè)，因?yàn)樗麄儫o法抵擋 AI 發(fā)展的巨大潛力，要趁當(dāng)下還處于「野蠻成長(zhǎng)」的產(chǎn)業(yè)發(fā)展初級(jí)階段，爭(zhēng)取用先進(jìn)的技術(shù)和產(chǎn)品，掌控未來競(jìng)爭(zhēng)的主動(dòng)權(quán)。在這些人當(dāng)中，典型代表是 CPU 架構(gòu)大神 Jim Keller 和 GPU 架構(gòu)大神 Raja Koduri。

2020 年 6 月，Jim Keller 離開了工作兩年的英特爾，2021 年初，AI 芯片初創(chuàng)公司 Tenstorrent 宣布任命 Jim Keller 為公司總裁兼首席技術(shù)官，以及董事會(huì)成員。Tenstorrent 創(chuàng)立于 2016 年，旨在通過一種新方法和體系結(jié)構(gòu)，研發(fā)新型 AI 處理器，以推動(dòng) AI 和機(jī)器學(xué)習(xí)的發(fā)展。近兩年，Tenstorrent 十分看重 RISC-V 的應(yīng)用前景，認(rèn)為其非常適合未來低功耗 AI 應(yīng)用市場(chǎng)需求。

2023 年 3 月，Raja Koduri 離開了工作五年的英特爾，選擇創(chuàng)業(yè)。據(jù) Koduri 透露，他的新創(chuàng)公司 Mihira AI 要打造新的生成式人工智能工具，這些工具可以在英特爾、AMD、蘋果等公司的芯片上運(yùn)行，也可以在未來的 RISC-V 架構(gòu)芯片上運(yùn)行。

AI 系統(tǒng)和芯片需要改進(jìn)

當(dāng)下的 AI 服務(wù)器，多采用異構(gòu)形式搭建，也就是在計(jì)算系統(tǒng)中，使用多種不同類型的處理器（CPU、GPU、FPGA、NPU 等），這樣可以增加計(jì)算速度和效率，以滿足不同工作負(fù)載的需求，因?yàn)?AI 工作負(fù)載通常需要大量的數(shù)值計(jì)算和并行運(yùn)算。

傳統(tǒng) CPU 在通用計(jì)算方面表現(xiàn)出色，但對(duì)于深度學(xué)習(xí)等需要大量矩陣計(jì)算的任務(wù)，效能就會(huì)不足，這時(shí)，將 GPU、TPU 等處理器組合其中，可以更好地滿足 AI 任務(wù)的需求，提供更高效的運(yùn)算能力。

對(duì)于 AI 系統(tǒng)的這種異構(gòu)需求，不同處理器廠商，特別是像 AMD 和英偉達(dá)這樣的傳統(tǒng)大廠，以及自研 AI 芯片的互聯(lián)網(wǎng)大廠，都有各自的解決方案，但不同方案雖然有各自優(yōu)勢(shì)，但也存在這樣或那樣的缺點(diǎn)。

AMD 公司推出了 APU 概念和產(chǎn)品，它就是 CPU +GPU 的組合，其優(yōu)點(diǎn)是可以充分發(fā)揮兩種處理器各自的優(yōu)勢(shì)，互相彌補(bǔ)短板，也能在一定程度上減少功耗。不過，其 AI 訓(xùn)練性能并不比獨(dú)立的 GPU 好。

為了滿足自家系統(tǒng)的需求，Google 自研了張量處理器 TPU（Tensor Processing Unit），它是一種 ASIC 處理器，與 CPU、GPU 和 APU 等通用處理器有很大區(qū)別，TPU 的專用性很強(qiáng)，針對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等 AI 應(yīng)用進(jìn)行了優(yōu)化，專門用于加速 AI 的計(jì)算任務(wù)。不過，在 Google 的整個(gè)網(wǎng)絡(luò)系統(tǒng)當(dāng)中，依然需要用到大量的通用 CPU 和 GPU，TPU 雖然很好用，但可用規(guī)模還是有限的。

可見，要不斷改善 AI 服務(wù)器系統(tǒng)性能，單一的通用或?qū)Ｓ锰幚砥鞫紵o法獨(dú)自解決問題，需要多種處理器配合工作才行，這就給新的 AI 芯片技術(shù)和產(chǎn)品發(fā)展提供了機(jī)會(huì)。

AI 系統(tǒng)的訓(xùn)練和推理平衡水平需要改善。

目前，英偉達(dá)的 GPU 是 AI 訓(xùn)練芯片市場(chǎng)的領(lǐng)導(dǎo)者，但這只占整個(gè) AI 芯片需求的 20% 左右，推理芯片市場(chǎng)相當(dāng)大，當(dāng)下的 GPU 擅長(zhǎng) AI 訓(xùn)練，而 CPU 擅長(zhǎng)推理，二者在對(duì)方領(lǐng)域的局限性都很大。

在 AI 推理市場(chǎng)，除了數(shù)據(jù)中心和云計(jì)算，用戶對(duì)邊緣側(cè)（如手機(jī)、PC，以及機(jī)器人、工業(yè)系統(tǒng)和汽車等）的推理需求在快速增長(zhǎng)。因此，AI 推理市場(chǎng)不僅很大，而且相當(dāng)分散。在這種情況下，邊緣側(cè) AI 推理芯片的市場(chǎng)規(guī)模非常大，而且具有極大的發(fā)展?jié)摿Α?/span>

蘋果公司的 iPhone 就是一個(gè)典型的例子，它在 A 系列處理器中集成了 AI 內(nèi)核，目前，AI 功能已經(jīng)占據(jù)了 A 系列處理器整體功能的 20%。近些年，多家公司也在采用類似于蘋果的 SoC AI 策略。

粗略計(jì)算，AI 芯片市場(chǎng)包括約 15% 的訓(xùn)練，45% 的數(shù)據(jù)中心推理，以及 40% 的邊緣側(cè)推理。在這樣的市場(chǎng)背景下，一方面，各大處理器廠商正在提升 AI 訓(xùn)練和推理能力的融合水平，另一方面，邊緣側(cè)推理市場(chǎng)的巨大發(fā)展空間給很多移動(dòng)處理器廠商提供了拓展機(jī)會(huì)。

AI 系統(tǒng)和芯片的功耗也需要改善。

如上文所述，邊緣側(cè)推理市場(chǎng)巨大，而這些應(yīng)用對(duì)低功耗要求很高。同時(shí)，數(shù)據(jù)中心和云計(jì)算系統(tǒng)的功耗高的嚇人，不可能無止境地增加下去，解決這一大應(yīng)用領(lǐng)域的功耗問題也被越來越多的芯片和系統(tǒng)廠商所重視。

問題如何解決？

從上文介紹中可以看出，AI 系統(tǒng)和相關(guān)芯片還處于成長(zhǎng)期，有很多問題需要解決，特別是 AI 訓(xùn)練和推理芯片的功能融合、邊緣側(cè) AI 推理，以及功耗問題，是各大廠商，以及初創(chuàng)企業(yè)共同關(guān)注的。

最近，英偉達(dá)推出的新 GPU 在 AI 訓(xùn)練和推理融合能力方面就有很大進(jìn)步，該公司表示，H100 芯片的升級(jí)產(chǎn)品 H200 集成了 141GB 的 HBM3e 內(nèi)存，更加擅長(zhǎng)推理，在用于推理或生成問題答案時(shí)，性能較 H100 提高了 60%-90%。英偉達(dá)表示，與 H100 相比，H200 在 Llama 2 這樣擁有 700 億參數(shù)大語言模型上的推理速度提升了近一倍。

在邊緣側(cè)推理方面，以蘋果為學(xué)習(xí)對(duì)象，傳統(tǒng)手機(jī)處理器廠商也在增加新產(chǎn)品的 AI 推理能力。以聯(lián)發(fā)科為例，該公司推出的天璣 8300 可支持生成式 AI，最高支持 100 億參數(shù) AI 大語言模型。該芯片集成了生成式 AI 引擎，整數(shù)運(yùn)算和浮點(diǎn)運(yùn)算的性能是上一代的兩倍，支持 Transformer 算子加速和混合精度 INT4 量化技術(shù)，AI 綜合性能是上一代的 3.3 倍，可流暢運(yùn)行終端側(cè)生成式 AI 的各種新應(yīng)用。

在降低 AI 服務(wù)器功耗方面，初創(chuàng)企業(yè)和各大知名廠商投入的力度更大。

以上文提到的 Jim Keller 加入的 Tenstorrent 為例，該公司正在開發(fā)數(shù)據(jù)中心解決方案，核心產(chǎn)品是基于 RISC-V 架構(gòu)的 AI/ML 加速器和通用處理器。之所以采用 RISC-V 指令集，很重要的一個(gè)原因就是其功耗低。

據(jù)悉，Tenstorrent 正在與日本新創(chuàng)晶圓廠 Rapidus 合作，開發(fā)基于 2nm 制程工藝的邊緣側(cè) AI 處理器及相關(guān) IP。從目前的 AI 系統(tǒng)市場(chǎng)需求，以及未來該領(lǐng)域?qū)Φ凸模〝?shù)據(jù)中心、云和邊緣側(cè)都要求降低功耗）的要求來看，先進(jìn)制程的未來發(fā)展前景依然值得期待，因?yàn)?3nm、2nm，甚至是 1nm 這樣的先進(jìn)制程技術(shù)，就是要在不斷提升性能的同時(shí)，持續(xù)降低功耗。未來，先進(jìn)制程工藝幾乎就是為 AI 芯片而生的。

對(duì)于開發(fā) RISC-V 芯片和系統(tǒng)，半導(dǎo)體大國政府都很重視。美國政府已經(jīng)下達(dá)了使用 RISC-V 處理器來模擬下一代稀疏性超級(jí)計(jì)算機(jī)的指示，歐盟也建立了一個(gè)基于 RISC-V 架構(gòu)的本土加速器項(xiàng)目，稱為 EPAC。

除了新創(chuàng)企業(yè)，傳統(tǒng)大廠也在發(fā)展低功耗 AI 芯片方面不遺余力。

以微軟為例，該公司于近期推出了用于云端軟件服務(wù)的處理器 Cobalt，該芯片是基于 Arm 架構(gòu)的通用處理器，同時(shí)，微軟還推出了另一款專用 AI 加速器 Maia 100，用于云端訓(xùn)練和推理。這兩款芯片將于 2024 年導(dǎo)入該公司的 Azure 數(shù)據(jù)中心。微軟基于 Arm 架構(gòu)研發(fā)芯片，很重要的一個(gè)原因就是其功耗比較低。

除了將 AI 訓(xùn)練和推理融合，以及低功耗之外，現(xiàn)有架構(gòu)芯片，特別是 CPU、GPU，在 AI 計(jì)算方面都存在局限性，因此，一些初創(chuàng)公司，以及傳統(tǒng)知名廠商還在探索新型架構(gòu)的 AI 芯片，特別是在打破處理單元與內(nèi)存之間的「通信墻「方面，下了很多功夫。

近些年，以 Groq、Cerebras、SambaNova、NextSilicon 等為代表的創(chuàng)業(yè)公司都在開發(fā)各自的新型 AI 加速器，目標(biāo)是替代英偉達(dá)的 GPU。這些公司的產(chǎn)品多為 ASIC，也就是 AI 專用處理器，目前來看，這些新型處理器正在被美國能源部實(shí)驗(yàn)室所采用，用于科學(xué)研究。同時(shí)，美國多家大學(xué)也對(duì)試用這些芯片持開放態(tài)度，例如，NCSA 正在與 SambaNova 合作開發(fā)芯片，Cerebras 的處理器已經(jīng)用于 AI 訓(xùn)練。

在創(chuàng)新架構(gòu)處理器研發(fā)方面，大廠 IBM 一直都是業(yè)界的典型代表，AI 專用芯片方面同樣如此。最近，IBM 推出了一種新的原型芯片架構(gòu) NorthPole，可以使 AI 計(jì)算更快、更節(jié)能。NorthPole 是一款基于人腦計(jì)算通路進(jìn)行神經(jīng)推理的數(shù)字 AI 芯片，它采用了一種截然不同的設(shè)計(jì)方法，將所有內(nèi)存都集成在了處理器芯片上，無需外掛 RAM，這使得該處理器能夠進(jìn)行快速的 AI 推理。該芯片專為 AI 推理而設(shè)計(jì)，不需要復(fù)雜的冷卻系統(tǒng)。據(jù)悉，小巧靈活的 NorthPole 非常適合邊緣側(cè) AI 應(yīng)用。

以上介紹的都是各種 AI 處理器，是硬件。要使整個(gè) AI 系統(tǒng)充分發(fā)揮效能，軟件工具的作用也很重要。如前文所述，GPU 架構(gòu)大神 Raja Koduri 離開英特爾后，創(chuàng)建了新公司 Mihira AI，該公司研發(fā)的就是 AI 軟件工具。

據(jù) Koduri 介紹，Mihira AI 的最底層是一個(gè)異構(gòu)數(shù)據(jù)中心架構(gòu)，涵蓋三類工作負(fù)載，分別是：用于渲染通用 CPU 計(jì)算；用于 AI 的異構(gòu)加速器；用于游戲 GPU 工作負(fù)載。他說，未來的第四個(gè)集群可以針對(duì)低功耗 AI 推理進(jìn)行優(yōu)化。

從未來發(fā)展來看，Mihira AI 的目標(biāo)很可能是替代英偉達(dá)的 CUDA，以及 AMD 的 ROCm 軟件生態(tài)系統(tǒng)。不過，目前它還處于發(fā)展初期，未來的道路十分艱辛。