盤(pán)點(diǎn)2021年全球AI芯片，詳解“xPU”，請(qǐng)收下最新最全的知識(shí)點(diǎn)

作者：貓堡主時(shí)間：2022-03-18 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

前言

你一定聽(tīng)說(shuō)過(guò)CPU、GPU，但是TPU、VPU、NPU、XPU…等等其他字母開(kāi)頭的“xPU”呢？

本文引用地址：http://2s4d.com/article/202203/432156.htm

AI概念在幾年前火爆全球，科技巨頭們紛紛投入AI芯片的研發(fā)，小公司也致力于提出概念靠AI浪潮融資，為了快速在AI市場(chǎng)上立足，也為了讓市場(chǎng)和用戶能記住自家的產(chǎn)品，各家在芯片命名方面都下了點(diǎn)功夫，既要獨(dú)特，又要和公司產(chǎn)品契合，還要朗朗上口，也要容易讓人記住。前文所提到的“xPU”的命名方式就深受各大廠商的喜愛(ài)。

本文就從字母A到Z來(lái)盤(pán)點(diǎn)一下目前各種“xPU”命名AI芯片，以及芯片行業(yè)里的各種“xPU”縮寫(xiě)，給大家漲漲知識(shí)。此外，除了“xPU”命名方式，本文也擴(kuò)展了一些“xxP”方式的以Processor命名的芯片或IP。

1、APU

Accelerated Processing Unit

APU是AMD的一個(gè)處理器品牌，它第一次將中央處理器和獨(dú)顯核心做在一個(gè)晶片上，它同時(shí)具有高性能處理器和最新獨(dú)立顯卡的處理性能。AMD在一顆芯片上集成傳統(tǒng)CPU和圖形處理器GPU，這樣主板上將不再需要北橋，任務(wù)可以靈活地在CPU和GPU間分配。AMD將這種異構(gòu)結(jié)構(gòu)稱為加速處理單元，即APU。

2021年8月，AMD即將發(fā)售新款A(yù)PU：5600G和5700G。

Audio Processing Unit

聲音處理器，顧名思義，處理聲音數(shù)據(jù)的專用處理器。不多說(shuō)，生產(chǎn)APU的芯片商有好多家。聲卡里都有。

2、BPU

Brain Processing Unit

地平線機(jī)器人（Horizon Robotics）以BPU來(lái)命名自家的AI芯片。地平線是一家成立于2015年的start-up，總部在北京，目標(biāo)是“嵌入式人工智能全球領(lǐng)導(dǎo)者”。地平線的芯片未來(lái)會(huì)直接應(yīng)用于自己的主要產(chǎn)品中，包括：智能駕駛、智能生活和智能城市。地平線機(jī)器人的公司名容易讓人誤解，以為是做“機(jī)器人”的，其實(shí)不然。地平線做的不是“機(jī)器”的部分，是在做“人”的部分，是在做人工智能的“大腦”，所以，其處理器命名為BPU。相比于國(guó)內(nèi)外其他AI芯片start-up公司，地平線的第一代BPU走的相對(duì)保守的TSMC的40nm工藝。BPU已經(jīng)被地平線申請(qǐng)了注冊(cè)商標(biāo)，其他公司就別打BPU的主意了。

Biological Processing Unit

一個(gè)口號(hào)“21 世紀(jì)是生物學(xué)的世紀(jì)”忽悠了無(wú)數(shù)的有志青年跳入了生物領(lǐng)域的大坑。其實(shí)，這句話需要這么理解，生物學(xué)的進(jìn)展會(huì)推動(dòng)21世紀(jì)其他學(xué)科的發(fā)展。比如，對(duì)人腦神經(jīng)系統(tǒng)的研究成果就會(huì)推動(dòng)AI領(lǐng)域的發(fā)展，SNN結(jié)構(gòu)就是對(duì)人腦神經(jīng)元的模擬。不管怎么說(shuō)，隨著時(shí)間的推移，坑總會(huì)被填平的。不知道生物處理器在什么時(shí)間會(huì)有質(zhì)的發(fā)展。

Bio-Recognition Processing Unit

生物特征識(shí)別現(xiàn)在已經(jīng)不是紙上談兵的事情了。指紋識(shí)別已經(jīng)是近來(lái)智能手機(jī)的標(biāo)配，電影里的黑科技虹膜識(shí)別也上了手機(jī)，聲紋識(shí)別可以支付了…不過(guò)，除了指紋識(shí)別有專門(mén)的ASIC芯片外，其他生物識(shí)別還基本都是sensor加通用cpu/dsp的方案。不管怎樣，這些芯片都沒(méi)占用BPU或BRPU這個(gè)寶貴位置。

3、CPU

Central Processing Unit

CPU就不多說(shuō)了，中央處理器。不會(huì)有AI公司將自己的芯片命名為CPU的。不過(guò)，CPU與AI處理器并不沖突。

首先，很多公司的AI處理器中還是會(huì)使用CPU做控制調(diào)度。比如，wave computing用的是Andes的CPU core；Mobileye用了好幾個(gè)MIPS的CPU core；國(guó)內(nèi)的某些AI芯片公司用的ARM的CPU core。

此外，在現(xiàn)有的移動(dòng)市場(chǎng)的AP中，在CPU之外，再集成一兩個(gè)AI加速器IP（例如針對(duì)視覺(jué)應(yīng)用的DSP，見(jiàn)VPU部分）也是一種趨勢(shì)。2017 年，麒麟 970 第一次把 NPU 技術(shù)應(yīng)用在手機(jī)里。今天我們看到的情況是所有的手機(jī)芯片都必須有 AI 處理芯片了，2020年麒麟9000的出現(xiàn)更是把AI移動(dòng)端處理器的性能再升一大截。

另外一種趨勢(shì)，做高性能計(jì)算CPU的公司也不甘錯(cuò)過(guò)AI的浪潮。例如，

Adapteva。一家做多核MIMD結(jié)構(gòu)處理器的公司。2016年tapeout的Epiphany V集成有1024個(gè)核。相對(duì)以前的版本，針對(duì)deep learning和加密增加了特定指令。
kalrayinc。一家做多核并行處理器的公司，有針對(duì)數(shù)據(jù)中心和自動(dòng)駕駛的解決方案。最近公布了第三代MPPA處理器“Coolidge”的計(jì)劃，并融資$26 Million。計(jì)劃采用16nm FinFET工藝，集成80-160個(gè)kalray 64-bit core，以及80-160個(gè)用于機(jī)器視覺(jué)處理和深度學(xué)習(xí)計(jì)算的協(xié)處理器。

4、DPU

作為Deep Learning的首字母，以D開(kāi)頭來(lái)命名AI芯片是一種很自然的思路。

Deep-Learning Processing Unit

深度學(xué)習(xí)處理器。DPU并不是哪家公司的專屬術(shù)語(yǔ)。在學(xué)術(shù)圈，Deep Learning Processing Unit（或processor）被經(jīng)常提及。例如ISSCC 2017新增的一個(gè)session的主題就是Deep Learning Processor。以DPU為目標(biāo)的公司如下：

Deephi Tech（深鑒）。深鑒是一家位于北京的start-up，初創(chuàng)團(tuán)隊(duì)有很深的清華背景。深鑒將其開(kāi)發(fā)的基于FPGA的神經(jīng)網(wǎng)絡(luò)處理器稱為DPU。到目前為止，深鑒公開(kāi)發(fā)布了兩款DPU：亞里士多德架構(gòu)和笛卡爾架構(gòu)，分別針對(duì)CNN以及DNN/RNN。雖然深鑒號(hào)稱是做基于FPGA的處理器開(kāi)發(fā)，但是從公開(kāi)渠道可以看到的招聘信息以及非公開(kāi)的業(yè)內(nèi)交流來(lái)看，其做芯片已成事實(shí)。

TensTorrent。一家位于Toronto的start-up，研發(fā)專為深度學(xué)習(xí)和智能硬件而設(shè)計(jì)的高性能處理器，技術(shù)人員來(lái)自NVDIA和AMD。

Deep Learning Unit

深度學(xué)習(xí)單元。Fujitsu（富士通）最近高調(diào)宣布了自家的AI芯片，命名為DLU。名字雖然沒(méi)什么創(chuàng)意，但是可以看到DLU已經(jīng)被富士通標(biāo)了“TM”，雖然TM也沒(méi)啥用。在其公布的信息里可以看到，DLU的ISA是重新設(shè)計(jì)的，DLU的架構(gòu)中包含眾多小的DPU（Deep Learning Processing Unit）和幾個(gè)大的master core（控制多個(gè)DPU和memory訪問(wèn)）。每個(gè)DPU中又包含了16個(gè)DPE（Deep-Learning Processing Element），共128個(gè)執(zhí)行單元來(lái)執(zhí)行SIMD指令。富士通預(yù)計(jì)2018財(cái)年內(nèi)推出DLU。

Deep Learning Accelerator

深度學(xué)習(xí)加速器。2019年，英偉達(dá)在 GitHub 上開(kāi)源了 NVDLA 編譯器的源代碼，這是世界上首個(gè)軟硬件推理平臺(tái)的完整開(kāi)源代碼，給業(yè)界帶來(lái)了不小的波瀾。下圖是NVDLA的架構(gòu)示意。

Dataflow Processing Unit

數(shù)據(jù)流處理器。創(chuàng)立于2010年的wave computing公司將其開(kāi)發(fā)的深度學(xué)習(xí)加速處理器稱為Dataflow Processing Unit(DPU)，應(yīng)用于數(shù)據(jù)中心。Wave的DPU內(nèi)集成1024個(gè)cluster。每個(gè)Cluster對(duì)應(yīng)一個(gè)獨(dú)立的全定制版圖，每個(gè)Cluster內(nèi)包含8個(gè)算術(shù)單元和16個(gè)PE。其中，PE用異步邏輯設(shè)計(jì)實(shí)現(xiàn)，沒(méi)有時(shí)鐘信號(hào)，由數(shù)據(jù)流驅(qū)動(dòng)，這就是其稱為Dataflow Processor的緣由。使用TSMC 16nm FinFET工藝，DPU die面積大概400mm^2，內(nèi)部單口sram至少24MB，功耗約為200W，等效頻率可達(dá)10GHz，性能可達(dá)181TOPS。

Data-storage Processing Unit

數(shù)據(jù)存儲(chǔ)處理器。深圳大普微電子開(kāi)發(fā)固態(tài)硬盤(pán)SSD主控芯片。SSD的主控也是一個(gè)很大的市場(chǎng)，國(guó)內(nèi)在這個(gè)方向上奮斗的公司不少。

Digital Signal Processor

數(shù)字信號(hào)處理器。芯片行業(yè)的人對(duì)DSP都不陌生，設(shè)計(jì)DSP的公司也很多，TI，Qualcomm，CEVA，Tensilica，ADI，F(xiàn)reescale等等，都是大公司，此處不多做介紹。相比于CPU，DSP通過(guò)增加指令并行度來(lái)提高數(shù)字計(jì)算的性能，如SIMD、VLIW、SuperScalar等技術(shù)。面對(duì)AI領(lǐng)域新的計(jì)算方式（例如CNN、DNN等）的挑戰(zhàn)，DSP公司也在馬不停蹄地改造自己的DSP，推出支持神經(jīng)網(wǎng)絡(luò)計(jì)算的芯片系列。在后面VPU的部分，會(huì)介紹一下針對(duì)Vision應(yīng)用的DSP。和CPU一樣，DSP的技術(shù)很長(zhǎng)時(shí)間以來(lái)都掌握在外國(guó)公司手里，國(guó)內(nèi)也不乏兢兢業(yè)業(yè)在這方向努力的科研院所，如清華大學(xué)微電子所的Lily DSP（VLIW架構(gòu)，有獨(dú)立的編譯器），以及國(guó)防科大的YHFT-QDSP和矩陣2000。但是，也有臭名昭著的“漢芯”。

5、EPU

Emotion Processing Unit

Emoshape 并不是這兩年才推出EPU的，號(hào)稱是全球首款情緒合成（emotion synthesis）引擎，可以讓機(jī)器人具有情緒。但是，從官方渠道消息看，EPU本身并不復(fù)雜，也不需要做任務(wù)量巨大的神經(jīng)網(wǎng)絡(luò)計(jì)算，是基于MCU的芯片。結(jié)合應(yīng)用API以及云端的增強(qiáng)學(xué)習(xí)算法，EPU可以讓機(jī)器能夠在情緒上了解它們所讀或所看的內(nèi)容。結(jié)合自然語(yǔ)言生成(NLG)及WaveNet技術(shù)，可以讓機(jī)器個(gè)性化的表達(dá)各種情緒。例如，一部能夠朗讀的Kindle，其語(yǔ)音將根據(jù)所讀的內(nèi)容充滿不同的情緒狀態(tài)。

6、FPU

先說(shuō)一個(gè)最常用的FPU縮寫(xiě)：Floating Point Unit。浮點(diǎn)單元，不多做解釋了?，F(xiàn)在高性能的CPU、DSP、GPU內(nèi)都集成了FPU做浮點(diǎn)運(yùn)算。

7、GPU

Graphics Processing Unit

圖形處理器。GPU原來(lái)最大的需求來(lái)自PC市場(chǎng)上各類游戲?qū)D形處理的需求，隨著AI的火熱，在深度學(xué)習(xí)并行訓(xùn)練和推理上應(yīng)用十分廣泛。但是隨著移動(dòng)設(shè)備的升級(jí)，在移動(dòng)端也逐漸發(fā)展起來(lái)。

NVIDIA。說(shuō)起GPU，毫無(wú)疑問(wèn)現(xiàn)在的老大是NVIDIA。這家成立于1993年的芯片公司一直致力于設(shè)計(jì)各種GPU：針對(duì)個(gè)人和游戲玩家的GeForce系列，針對(duì)專業(yè)工作站的Quadro系列，以及針對(duì)服務(wù)器和高性能運(yùn)算的Tesla系列。隨著AI的發(fā)展，NVIDIA在AI應(yīng)用方面不斷發(fā)力，推出了針對(duì)自動(dòng)駕駛的DRIVE系列，以及專為AI打造的VOLTA架構(gòu)。特別提一下VOLTA，今年5月份，NVIDIA發(fā)布的Tesla V100采用TSMC 12nm工藝，面積竟然815mm^2，號(hào)稱相關(guān)研發(fā)費(fèi)用高達(dá)30億美元。得益于在AI領(lǐng)域的一家獨(dú)大，NVIFIA的股價(jià)在過(guò)去一年的時(shí)間里狂漲了300%。最后，也別忘了NVIDIA家還有集成了GeForce GPU的Tegra系列移動(dòng)處理器。
AMD。這幾年NVIDIA的火爆，都快讓大家忘了AMD的存在了。AMD是芯片行業(yè)中非常古老的一家芯片公司，成立于1969年，比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon來(lái)自于其2006年以54億美元收購(gòu)的ATI公司。AMD新出的MI系列GPU將目標(biāo)對(duì)準(zhǔn)AI。

在移動(dòng)端市場(chǎng)，GPU被三家公司瓜分，但是也阻止不了新的競(jìng)爭(zhēng)者殺入。

ARM家的Mali。Mali不是ARM的自創(chuàng)GPU品牌，來(lái)自于ARM于2006年收購(gòu)的Falanx公司。Falanx最初的GPU是面向PC市場(chǎng)的，但是根本就無(wú)法參與到NVIDIA和ATI的競(jìng)爭(zhēng)中去，于是轉(zhuǎn)向移動(dòng)市場(chǎng)；并且Falanx最初的GPU的名字也不是Mali，而是Maliak，為了好記，改為Mali，來(lái)自羅馬尼亞文，意思是small，而不是我們熟悉的吃蘑菇救公主的超級(jí)瑪麗（SuperMALI）。
Imagination的PowerVR。主要客戶是蘋(píng)果，所以主要精力都在支持蘋(píng)果，對(duì)其他客戶的支持不足。但是，蘋(píng)果突然宣布放棄PVR轉(zhuǎn)為自研，對(duì)Imagination打擊不小，股價(jià)大跌六成。Imagination現(xiàn)在正在尋求整體出售，土財(cái)快追，但是，美國(guó)未必批。
Qualcomm的Adreno。技術(shù)來(lái)自于AMD收購(gòu)ATI后出售的移動(dòng)GPU品牌Imageon。有意思的是，名字改自于ATI的知名GPU品牌Radeon；
VeriSilicon的Vivante。Vivante（圖芯）是一家成立于2004年的以做嵌入式GPU為主的芯片公司，于2015年被VSI收購(gòu)。Vivante的市場(chǎng)占有率較低。這里多加一段小八卦，Vivante的創(chuàng)始人叫戴偉進(jìn)，VSI的創(chuàng)始人叫戴偉民，一句話對(duì)這次收購(gòu)進(jìn)行總結(jié)就是，戴家老大收購(gòu)了戴家老二。哦，對(duì)了，戴家還有一個(gè)三妹戴偉立，創(chuàng)立的公司名號(hào)更響亮：Marvell。
Samsung的。。。哦，三星沒(méi)有自己的GPU。2021年中旬，三星表示即將推出的三星Exynos旗艦處理器中的GPU將基于AMD最新的RDNA2架構(gòu)打造，這標(biāo)志著新GPU首次登陸移動(dòng)平臺(tái)。

再簡(jiǎn)單補(bǔ)充國(guó)內(nèi)的兩家開(kāi)發(fā)GPU的公司：

上海兆芯。兆芯是VIA（威盛）分離出來(lái)的。兆芯于2016年針對(duì)移動(dòng)端出了一款GPU芯片ZX-2000，名字有點(diǎn)簡(jiǎn)單直接。主要技術(shù)來(lái)源于威盛授權(quán)，GPU核心技術(shù)來(lái)自收購(gòu)的美國(guó)S3 Graphics。
長(zhǎng)沙景嘉微電子。于2014年推出一款GPU芯片JM5400。這是一家有國(guó)防科大背景的公司，與龍芯為合作伙伴，芯片主要應(yīng)用在軍用飛機(jī)和神舟飛船上。

Graph Streaming Processor

圖形流處理器。這是ThinCI（取意think-eye）提出的縮寫(xiě)。ThinCI是一家致力于打造deep learning和computer vision芯片的start-up，由4名Intel前員工創(chuàng)立于2010年，總部在Sacramento，在印度也有研發(fā)人員。ThinCI的視覺(jué)芯片瞄準(zhǔn)了自動(dòng)駕駛應(yīng)用，投資方有世界頂級(jí)汽車零部件供應(yīng)商公司日本電裝DENSO。在剛結(jié)束的hotchip會(huì)議上，ThinCI介紹了他們的GSP，使用了多種結(jié)構(gòu)性技術(shù)來(lái)實(shí)現(xiàn)任務(wù)級(jí)、線程級(jí)、數(shù)據(jù)級(jí)和指令級(jí)的并行。GSP使用TSMC 28nm HPC+工藝，功耗預(yù)計(jì)2.5W。

8、HPU

Holographic Processing Unit

全息處理器。Microsoft專為自家Hololens應(yīng)用開(kāi)發(fā)的。第一代HPU采用28nm HPC工藝，使用了24個(gè)Tensilica DSP并進(jìn)行了定制化擴(kuò)展。HPU支持5路cameras、1路深度傳感器（Depth sensor）和1路動(dòng)作傳感器（Motion Sensor）。Microsoft 在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2將搭載一顆支持DNN的協(xié)處理器，專門(mén)用于在本地運(yùn)行各種深度學(xué)習(xí)。指的一提的是，HPU是一款為特定應(yīng)用所打造的芯片，這個(gè)做產(chǎn)品的思路可以學(xué)習(xí)。據(jù)說(shuō)Microsoft評(píng)測(cè)過(guò)Movidius（見(jiàn)VPU部分）的芯片，但是覺(jué)得無(wú)法滿足算法對(duì)性能、功耗和延遲的要求，所有才有了HPU。

9、IPU

Intelligence Processing Unit

智能處理器。以IPU命名芯片的有兩家公司。

Graphcore。Graphcore公司的IPU是專門(mén)針對(duì)graph的計(jì)算而打造的。稍微說(shuō)說(shuō)Graph，Graphcore認(rèn)為Graph是知識(shí)模型及相應(yīng)算法的非常自然的表示，所以將Graph作為機(jī)器智能的基礎(chǔ)表示方法，既適用于神經(jīng)網(wǎng)絡(luò)，也適用于貝葉斯網(wǎng)絡(luò)和馬爾科夫場(chǎng)，以及未來(lái)可能出現(xiàn)的新的模型和算法。Graphcore的IPU一直比較神秘，直到近期才有一些細(xì)節(jié)的信息發(fā)布。比如：16nm，同構(gòu)多核（>1000）架構(gòu)，同時(shí)支持training和inference，使用大量片上sram，性能優(yōu)于Volta GPU和TPU2，預(yù)計(jì)2017年底會(huì)有產(chǎn)品發(fā)布，等等。多八卦一點(diǎn)，Graphcore的CEO和CTO以前創(chuàng)立的做無(wú)線通信芯片的公司Icera于2011年被Nvidia收購(gòu)并于2015年關(guān)閉。關(guān)于IPU更細(xì)節(jié)的描述，可以看唐博士的微信公號(hào)的一篇文章，傳輸門(mén)：解密又一個(gè)xPU：Graphcore的IPU。

看懂全球AI芯片，詳解“xPU”，這可能是至今最全的一份知識(shí)點(diǎn)

Mythic。另外一家剛?cè)诹?9.3 million的start-up公司Mythic也提到了IPU：“Mythic’s intelligence processing unit (IPU) adds best-in-class intelligence to any device”。和現(xiàn)在流行的數(shù)字電路平臺(tái)方案相比，Mythic號(hào)稱可以將功耗降到1/50。之所以這么有信心，是因?yàn)樗麄兪褂玫摹皃rocessing in memory”結(jié)構(gòu)。

Image Cognition Processor

圖像認(rèn)知處理器ICP，加拿大公司CogniVue開(kāi)發(fā)的用于視覺(jué)處理和圖像認(rèn)知的IP。跑個(gè)題，CogniVue一開(kāi)始是Freescale的IP供應(yīng)商，后來(lái)于2015年被Freescale收購(gòu)以進(jìn)一步加強(qiáng)ADAS芯片的整合開(kāi)發(fā)；隨后，F(xiàn)reescale又被NXP 118億美元拿下；還沒(méi)完，高通近400億美元吞并了NXP。現(xiàn)在NXP家的ADAS SOC芯片S32V系列中，就用到了兩個(gè)ICP IP。

Image Processing Unit

圖像處理器。一些SOC芯片中將處理靜態(tài)圖像的模塊稱為IPU。但是，IPU不是一個(gè)常用的縮寫(xiě)，更常見(jiàn)的處理圖像信號(hào)的處理器的縮寫(xiě)為下面的ISP。

Image Signal Processor

圖像信號(hào)處理器。這個(gè)話題也不是一個(gè)小話題。ISP的功能，簡(jiǎn)單的來(lái)說(shuō)就是處理camera等攝像設(shè)備的輸出信號(hào)，實(shí)現(xiàn)降噪、Demosaicing、HDR、色彩管理等功能。以前是各種數(shù)碼相機(jī)、單反相機(jī)中的標(biāo)配。Canon、Nikon、Sony等等，你能想到的出數(shù)碼相機(jī)的公司幾乎都有自己的ISP。進(jìn)入手機(jī)攝影時(shí)代，人們對(duì)攝影攝像的要求也越來(lái)越高，ISP必不可少。說(shuō)回AI領(lǐng)域，camera采集圖像數(shù)據(jù)，也要先經(jīng)過(guò)ISP進(jìn)行處理之后，再由視覺(jué)算法（運(yùn)行在CPU、GPU或ASIC加速器上的）進(jìn)行分析、識(shí)別、分類、追蹤等進(jìn)一步處理。也許，隨著AI技術(shù)發(fā)展，ISP的一些操作會(huì)直接被end-2-end的視覺(jué)算法統(tǒng)一。

10、JPU

暫無(wú)

11、KPU

Knowledge Processing Unit

嘉楠耘智（canaan）號(hào)稱2017年將發(fā)布自己的AI芯片KPU。嘉楠耘智要在KPU單一芯片中集成人工神經(jīng)網(wǎng)絡(luò)和高性能處理器，主要提供異構(gòu)、實(shí)時(shí)、離線的人工智能應(yīng)用服務(wù)。這又是一家向AI領(lǐng)域擴(kuò)張的不差錢的礦機(jī)公司。作為一家做礦機(jī)芯片（自稱是區(qū)塊鏈專用芯片）和礦機(jī)的公司，嘉楠耘智累計(jì)獲得近3億元融資，估值近33億人民幣。2020年，嘉楠耘智公司內(nèi)部出了問(wèn)題，財(cái)報(bào)很難看。

另：Knowledge Processing Unit這個(gè)詞并不是嘉楠耘智第一個(gè)提出來(lái)的，早在10年前就已經(jīng)有論文和書(shū)籍講到這個(gè)詞匯了。只是，現(xiàn)在嘉楠耘智將KPU申請(qǐng)了注冊(cè)商標(biāo)。

12、LPU

暫無(wú)

13、MPU

Micro Processing Unit

微處理器。MPU，CPU，MCU，這三個(gè)概念差不多，知道就行了。

題外話：并不是所有的xPU都是處理器，比如有個(gè)MPU，是Memory Protection Unit的縮寫(xiě)，是內(nèi)存保護(hù)單元，是ARM核中配備的具有內(nèi)存區(qū)域保護(hù)功能的模塊。

14、NPU

Neural-Network Processing Unit

與GPU類似，神經(jīng)網(wǎng)絡(luò)處理器NPU已經(jīng)成為了一個(gè)通用名詞，而非某家公司的專用縮寫(xiě)。由于神經(jīng)網(wǎng)絡(luò)計(jì)算的類型和計(jì)算量與傳統(tǒng)計(jì)算的區(qū)別，導(dǎo)致在進(jìn)行NN計(jì)算的時(shí)候，傳統(tǒng)CPU、DSP甚至GPU都有算力、性能、能效等方面的不足，所以激發(fā)了專為NN計(jì)算而設(shè)計(jì)NPU的需求。這里羅列幾個(gè)以NPU名義發(fā)布過(guò)產(chǎn)品的公司，以及幾個(gè)學(xué)術(shù)圈的神經(jīng)網(wǎng)絡(luò)加速器。

中星微電子（Vimicro）的星光智能一號(hào)。中星微于2016年搶先發(fā)布了“星光智能一號(hào)”NPU。但是，這不是一個(gè)專為加速Neural Network而開(kāi)發(fā)的處理器。業(yè)內(nèi)都知道其內(nèi)部集成了多個(gè)DSP核（其稱為NPU core），通過(guò)SIMD指令的調(diào)度來(lái)實(shí)現(xiàn)對(duì)CNN、DNN的支持。以這個(gè)邏輯，似乎很多芯片都可以叫NPU，其他以DSP為計(jì)算核心的SOC芯片的命名和宣傳都相對(duì)保守了。

Kneron。這是一家位于San Diego的start-up公司，針對(duì)IOT應(yīng)用領(lǐng)域做deep learning IP開(kāi)發(fā)。Kneron開(kāi)發(fā)的NPU實(shí)現(xiàn)了39層CNN，28nm下的功耗為0.3W，能效200GFLOPs/W。其主頁(yè)上給出的另一個(gè)能效數(shù)據(jù)是600GOPs/W。此外，Kneron同時(shí)也在FPGA開(kāi)發(fā)云端的硬件IP。據(jù)可靠消息，Kneron也要在中國(guó)大陸建立研發(fā)部門(mén)了，地點(diǎn)涉及北京、上海、深圳。

VeriSilicon（芯原）的VIP8000。VSI創(chuàng)立于2001年。VSI于今年5月以神經(jīng)網(wǎng)絡(luò)處理器IP的名義發(fā)布了這款代號(hào)VIP8000的IP。從其公布的消息“VeriSilicon’s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second”來(lái)看，這款芯片使用的并不是其DSP core，而是內(nèi)置了其2015年收購(gòu)的Vivante的GPU core。按照VSI的說(shuō)法，VIP8000在16nm FinFET工藝下的計(jì)算力超過(guò)3 TMAC/s，能效高于1.5 GMAC/s/mW。

DNPU-Deep Neural-Network Processing Unit。DNPU來(lái)自于KAIST在ISSCC2017上發(fā)表的一篇文章。我把DNPU當(dāng)做是NPU的一種別名，畢竟現(xiàn)在業(yè)內(nèi)做的支持神經(jīng)網(wǎng)絡(luò)計(jì)算的芯片沒(méi)有只支持“非深度”神經(jīng)網(wǎng)絡(luò)的。關(guān)于DNPU可以參考“從ISSCC Deep Learning處理器論文到人臉識(shí)別產(chǎn)品”。
Eyeriss。MIT的神經(jīng)網(wǎng)絡(luò)項(xiàng)目，針對(duì)CNN的進(jìn)行高能效的計(jì)算加速設(shè)計(jì)。
Thinker。清華微電子所設(shè)計(jì)的一款可重構(gòu)多模態(tài)神經(jīng)計(jì)算芯片，可以平衡CNN和RNN在計(jì)算和帶寬之間的資源沖突。

Neural/Neuromorphic Processing Unit

神經(jīng)/神經(jīng)形態(tài)處理器。這和上面的神經(jīng)網(wǎng)絡(luò)處理器還有所不同。而且，一般也不以“處理器”的名字出現(xiàn)，更多的時(shí)候被稱為“神經(jīng)形態(tài)芯片（Neuromorphic Chip）”或者是“類腦芯片（Brain-Inspired Chip）”。這類AI芯片不是用CNN、DNN等網(wǎng)絡(luò)形式來(lái)做計(jì)算，而是以更類似于腦神經(jīng)組成結(jié)構(gòu)的SNN（Spiking Neural Network）的形式來(lái)進(jìn)行計(jì)算。隨便列幾個(gè)，都不是“xPU”的命名方式。

Qualcomm的Zeroth。高通幾年前將Zeroth定義為一款NPU，配合以軟件，可以方便的實(shí)現(xiàn)SNN的計(jì)算。但是，NPU似乎不見(jiàn)了蹤影，現(xiàn)在只剩下了同名的機(jī)器學(xué)習(xí)引擎Zeroth SDK。
IBM的TrueNorth。IBM2014年公布的TrueNorth。在一顆芯片上集成了4096個(gè)并行的core，每個(gè)core包含了256個(gè)可編程的神經(jīng)元neurons，一共1百萬(wàn)個(gè)神經(jīng)元。每個(gè)神經(jīng)元有256個(gè)突觸synapses，共256 Mlillion。TrueNorth使用了三星的28nm的工藝，共5.4 billion個(gè)晶體管。
BrainChip的SNAP（Spiking Neuron Adaptive Processor ）。已經(jīng)有了賭場(chǎng)的應(yīng)用。
GeneralVision的CM1K、NM500 chip，以及NeuroMem IP。這家公司的CM1K芯片有1k個(gè)神經(jīng)元，每個(gè)神經(jīng)元對(duì)應(yīng)256Byte存儲(chǔ)。雖然無(wú)法和強(qiáng)大的TrueNorth相提并論，但是已有客戶應(yīng)用。并且，提供BrainCard，上面有FPGA，并且可以直接和Arduino以及Raspberry Pi連接。
Knowm。這家start-up在憶阻器（memristor）技術(shù)基礎(chǔ)上做“processing in memory”的AI芯片研發(fā)。不過(guò)，與前面提到的Mythic（IPU部分）不同的是，Known做的是類腦芯片。Knowm所用的關(guān)鍵技術(shù)是一種稱為熱力學(xué)內(nèi)存(kT-RAM)的memory，是根據(jù)AHaH理論(Anti-Hebbian and Hebbian)發(fā)展而來(lái)。
Koniku。成立于2014年的start-up，要利用生物神經(jīng)元來(lái)做計(jì)算，”Biological neurons on a chip”。

15、OPU

Optical-Flow Processing Unit。光流處理器。有需要用專門(mén)的芯片來(lái)實(shí)現(xiàn)光流算法嗎？

不知道，但是，用ASIC IP來(lái)做加速應(yīng)該是要的。

16、PPU

Physical Processing Unit

物理處理器。要先解釋一下物理運(yùn)算，就知道物理處理器是做什么的了。物理計(jì)算，就是模擬一個(gè)物體在真實(shí)世界中應(yīng)該符合的物理定律。具體的說(shuō)，可以使虛擬世界中的物體運(yùn)動(dòng)符合真實(shí)世界的物理定律，可以使游戲中的物體行為更加真實(shí)，例如布料模擬、毛發(fā)模擬、碰撞偵測(cè)、流體力學(xué)模擬等。開(kāi)發(fā)物理計(jì)算引擎的公司有那么幾家，使用CPU來(lái)完成物理計(jì)算，支持多種平臺(tái)。

Ageia應(yīng)該是唯一一個(gè)使用專用芯片來(lái)加速物理計(jì)算的公司。Ageia于2006年發(fā)布了PPU芯片PhysX，還發(fā)布了基于PPU的物理加速卡，同時(shí)提供SDK給游戲開(kāi)發(fā)者。2008年被NVIDIA收購(gòu)后，PhysX加速卡產(chǎn)品被逐漸取消，現(xiàn)在物理計(jì)算的加速功能由NVIDIA的GPU實(shí)現(xiàn)，PhysX SDK被NVIDIA重新打造。

17、QPU

Quantum Processing Unit

量子處理器。量子計(jì)算機(jī)也是近幾年比較火的研究方向。作者承認(rèn)在這方面所知甚少?？梢躁P(guān)注這家成立于1999年的公司D-Wave System。DWave大概每?jī)赡昕梢詫⑵銺PU上的量子位個(gè)數(shù)翻倍一次。

18、RPU

Resistive Processing Unit

阻抗處理單元RPU。這是IBM Watson Research Center的研究人員提出的概念，真的是個(gè)處理單元，而不是處理器。RPU可以同時(shí)實(shí)現(xiàn)存儲(chǔ)和計(jì)算。利用RPU陣列，IBM研究人員可以實(shí)現(xiàn)80TOPS/s/W的性能。

Ray-tracing Processing Unit

光線追蹤處理器。Ray tracing是計(jì)算機(jī)圖形學(xué)中的一種渲染算法，RPU是為加速其中的數(shù)據(jù)計(jì)算而開(kāi)發(fā)的加速器。現(xiàn)在這些計(jì)算都是GPU的事情了。

19、SPU

Streaming Processing Unit

流處理器。流處理器的概念比較早了，是用于處理視頻數(shù)據(jù)流的單元，一開(kāi)始出現(xiàn)在顯卡芯片的結(jié)構(gòu)里。可以說(shuō)，GPU就是一種流處理器。甚至，還曾經(jīng)存在過(guò)一家名字為“Streaming Processor Inc”的公司，2004年創(chuàng)立，2009年，隨著創(chuàng)始人兼董事長(zhǎng)被挖去NVIDIA當(dāng)首席科學(xué)家，SPI關(guān)閉。

Speech-Recognition Processing Unit

語(yǔ)音識(shí)別處理器，SPU或SRPU。這個(gè)縮寫(xiě)還沒(méi)有公司拿來(lái)使用?，F(xiàn)在的語(yǔ)音識(shí)別和語(yǔ)義理解主要是在云端實(shí)現(xiàn)的，比如科大訊飛?？拼笥嶏w最近推出了一個(gè)翻譯機(jī)，可以將語(yǔ)音傳回云端，做實(shí)時(shí)翻譯，內(nèi)部硬件沒(méi)有去專門(mén)了解。和語(yǔ)音識(shí)別相關(guān)的芯片如下：

啟英泰倫（chipintelli）。于2015年11月在成都成立。該公司的CI1006是一款集成了神經(jīng)網(wǎng)絡(luò)加速硬件來(lái)做語(yǔ)音識(shí)別的芯片，可實(shí)現(xiàn)單芯片本地離線大詞匯量識(shí)別。

chipintelli

MIT項(xiàng)目。今年年初媒體爆過(guò)MIT的一款黑科技芯片，其實(shí)就是MIT在ISSCC2017上發(fā)表的paper里的芯片，也是可以實(shí)現(xiàn)單芯片離線識(shí)別上k個(gè)單詞。可以參考閱讀“分析一下MIT的智能語(yǔ)音識(shí)別芯片”。
云知聲（UniSound）。云知聲是一家專攻智能語(yǔ)音識(shí)別技術(shù)的公司，成立于2012年6月，總部在北京。云知聲獲得了3億人民幣戰(zhàn)略投資，其中一部分將用來(lái)研發(fā)其稍早公布的AI芯片計(jì)劃，命名“UniOne”。據(jù)官方透漏，UniOne將內(nèi)置DNN處理單元，兼容多麥克風(fēng)、多操作系統(tǒng)。并且，芯片將以模組的形式提供給客戶，讓客戶直接擁有一整套云端芯的服務(wù)。

20、TPU

Tensor Processing Unit

Google的張量處理器。TPU項(xiàng)目開(kāi)始于2014年。2016年AlphaGo打敗李世石，2017年AlphaGo打敗柯潔，兩次人工智能催化事件給芯片行業(yè)帶來(lái)的沖擊無(wú)疑就是TPU的出現(xiàn)和解密。

Google在2017年5月的開(kāi)發(fā)者I/O大會(huì)上正式公布了TPU2，又稱Cloud TPU。相比于TPU v1，TPU v2既可以用于training，又可以用于inference。TPU v3是在TPU v2的基礎(chǔ)上做了進(jìn)一步的性能提升，可參考下圖。

具體可以看這篇知乎文章淺談Google TPU。

21、UPU

暫無(wú)

22、VPU

Vision Processing Unit

視覺(jué)處理器VPU也有希望成為通用名詞。作為現(xiàn)今最火熱的AI應(yīng)用領(lǐng)域，計(jì)算機(jī)視覺(jué)的發(fā)展的確能給用戶帶來(lái)前所未有的體驗(yàn)。為了處理計(jì)算機(jī)視覺(jué)應(yīng)用中遇到的超大計(jì)算量，多家公司正在為此設(shè)計(jì)專門(mén)的VPU。

Movidius（已被Intel收購(gòu)）。Movidius成立于2006年，總部位于硅谷的San Mateo，創(chuàng)始人是兩個(gè)愛(ài)爾蘭人，所以在愛(ài)爾蘭有分部。Movidius早期做的是將舊電影轉(zhuǎn)為3D電影的業(yè)務(wù)，后期開(kāi)始研發(fā)應(yīng)用于3D渲染的芯片，并開(kāi)始應(yīng)用于計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域（這說(shuō)明：1，芯片行業(yè)才是高技術(shù)含量、高門(mén)檻、高價(jià)值的行業(yè)；2，初創(chuàng)公司要隨著發(fā)展調(diào)整自己的戰(zhàn)略）。Movidius開(kāi)發(fā)的Myriad系列VPU專門(mén)為計(jì)算機(jī)視覺(jué)進(jìn)行優(yōu)化，可以用于 3D 掃描建模、室內(nèi)導(dǎo)航、360°全景視頻等更前沿的計(jì)算機(jī)視覺(jué)用途。例如，2014年，谷歌的Project Tango項(xiàng)目用 Myriad 1幫助打造室內(nèi)三維地圖；2016年，大疆的“精靈4”和“御”都采用了Movidius 的 Myriad 2芯片。采用TSMC 28nm工藝的Myriad2中集成了12個(gè)向量處理器SHAVE (Streaming Hybrid Architecture Vector Engine)。按照Movidius的說(shuō)法，SHAVE是一種混合型流處理器，集成了GPU、 DSP和RISC的優(yōu)點(diǎn)，支持8/16/32 bit定點(diǎn)和16/32 bit浮點(diǎn)計(jì)算，而且硬件上支持稀疏數(shù)據(jù)結(jié)構(gòu)。此外，Myriad2中有兩個(gè)RISC核以及video硬件加速器，可以同時(shí)處理多個(gè)視頻流。2017年8月28日，Movidius宣布推出新一代VPU：Myriad X。與上一代Myriad2比，Myriad X將集成DNN加速器：神經(jīng)計(jì)算引擎（Neural Compute Engine），支持浮點(diǎn)16bit和定點(diǎn)8bit。據(jù)稱，DNN推理吞吐量能達(dá)到1TOPS，而理論運(yùn)算量能達(dá)到4+ TOPS。Myriad X有四個(gè)128位VLIW矢量處理器，支持最新的LPDDR4，并且支持4K硬件編碼，支持USB3.1和PCIe3.0。工藝上，使用TSMC 16nm。

Inuitive。一家以色列公司，提供3D圖像和視覺(jué)處理方案，用于AR/VR、無(wú)人機(jī)等應(yīng)用場(chǎng)景。Inuitive的下一代視覺(jué)處理器NU4000采用28nm工藝，選擇使用CEVA的XM4 DSP，并集成了深度學(xué)習(xí)處理器和深度處理引擎等硬件加速器。

DeepVision。一家總部位于Palo Alto的start-up，為嵌入式設(shè)備設(shè)計(jì)和開(kāi)發(fā)低功耗VPU，以支持深度學(xué)習(xí)、CNN以及傳統(tǒng)的視覺(jué)算法，同時(shí)提供實(shí)時(shí)處理軟件。

Visual Processing Unit

這里是visual，不是vision。ATI一開(kāi)始稱自家顯卡上的芯片為VPU，后來(lái)見(jiàn)賢思齊，都改叫GPU了。

Video Processing Unit

視頻處理器。處理動(dòng)態(tài)視頻而不是圖像，例如進(jìn)行實(shí)時(shí)編解碼。

Vector Processing Unit

向量處理器。標(biāo)量處理器、向量處理器、張量處理器，這是以處理器處理的數(shù)據(jù)類型進(jìn)行的劃分。現(xiàn)在的CPU已經(jīng)不再是單純的標(biāo)量處理器，很多CPU都集成了向量指令，最典型的就是SIMD。向量處理器在超級(jí)計(jì)算機(jī)和高性能計(jì)算中，扮演著重要角色?；谙蛄刻幚砥餮邪l(fā)AI領(lǐng)域的專用芯片，也是很多公司的選項(xiàng)。例如，前面剛提到Movidius的Myriad2中，就包含了12個(gè)向量處理器。

Vision DSP

針對(duì)AI中的計(jì)算機(jī)視覺(jué)應(yīng)用，各家DSP公司都發(fā)布了DSP的Vision系列IP。簡(jiǎn)單羅列如下：

CEVA的XM4，最新的XM6 DSP。除了可以連接支持自家的硬件加速器HWA（CEVA Deep Neural Network Hardware Accelerator )，也可以支持第三方開(kāi)發(fā)的HWA。前面提到的Inuitive使用了XM4?？梢詤⒖肌疤幚砥鱅P廠商的機(jī)器學(xué)習(xí)方案 – CEVA”。
Tensilica（2013年被Cadence以3.8億美元收購(gòu)）的P5、P6，以及最新的C5 DSP。一個(gè)最大的特色就是可以用TIE語(yǔ)言來(lái)定制指令。前面微軟的HPU中使用他家的DSP?？梢詤⒖肌吧窠?jīng)網(wǎng)絡(luò)DSP核的一桌麻將終于湊齊了”。
Synopsys的EV5x和EV6x系列DSP?？梢詤⒖肌疤幚砥鱅P廠商的機(jī)器學(xué)習(xí)方案 – Synopsys”。
Videantis的v-MP4系列。Videantis成立于1997年，總部位于德國(guó)漢諾頓。v-MP4雖然能做很多機(jī)器視覺(jué)的任務(wù)，但還是傳統(tǒng)DSP增強(qiáng)設(shè)計(jì)，并沒(méi)有針對(duì)神經(jīng)網(wǎng)絡(luò)做特殊設(shè)計(jì)。

23、WPU

Wearable Processing Unit

一家印度公司Ineda Systems在2014年大肆宣傳了一下他們針對(duì)IOT市場(chǎng)推出的WPU概念，獲得了高通和三星的注資。Ineda Systems研發(fā)的這款“Dhanush WPU”分為四個(gè)級(jí)別，可適應(yīng)普通級(jí)別到高端級(jí)別的可穿戴設(shè)備的運(yùn)算需求，可以讓可穿戴設(shè)備的電池達(dá)到30天的持續(xù)續(xù)航、減少10x倍的能耗。但是，一切似乎在2015年戛然而止，沒(méi)有了任何消息。只在主頁(yè)的最下端有文字顯示，Ineda將WPU申請(qǐng)了注冊(cè)商標(biāo)。有關(guān)WPU的信息只有大概結(jié)構(gòu)，哦，對(duì)了，還有一個(gè)美國(guó)專利。

Wisdom Processing Unit

智慧處理器。這個(gè)WPU聽(tīng)起來(lái)比較高大上，拿去用，不謝。不過(guò)，有點(diǎn)“腦白金”的味道。

24、XPU

2017年，在加州Hot Chips大會(huì)上，百度發(fā)布了XPU，這是一款256核、基于FPGA的云計(jì)算加速芯片。百度自研了AI芯片“昆侖”，瞄準(zhǔn)云計(jì)算和邊緣用例。該芯片采用三星的14nm制程，內(nèi)存帶寬為512GBps，每秒可運(yùn)行260Tops，功率為100瓦，是百度為云計(jì)算、邊緣計(jì)算和人工智能的設(shè)計(jì)的神經(jīng)處理器架構(gòu)XPU，它支持處理自然語(yǔ)言的預(yù)訓(xùn)練模型Ernie，相對(duì)傳統(tǒng)的GPU/FPGA模型，推理速度可以加快3倍。

百度在自研深度學(xué)習(xí)平臺(tái)Paddle（飛槳）上下了血本。目前Paddle Lite已支持百度XPU在x86和arm服務(wù)器（例如飛騰 FT-2000+/64）上進(jìn)行預(yù)測(cè)部署。詳情可查看Paddle Lite使用百度XPU預(yù)測(cè)部署。

25、YPU

暫無(wú)

26、ZPU

Zylin CPU

挪威公司Zylin的CPU的名字。為了在資源有限的FPGA上能擁有一個(gè)靈活的微處理器，Zylin開(kāi)發(fā)了ZPU。ZPU是一種stack machine（堆棧結(jié)構(gòu)機(jī)器），指令沒(méi)有操作數(shù)，代碼量很小，并有GCC工具鏈支持，被稱為“The worlds smallest 32 bit CPU with GCC toolchain”。Zylin在2008年將ZPU在opencores上開(kāi)源。有組織還將Arduino的開(kāi)發(fā)環(huán)境進(jìn)行了修改給ZPU用。

結(jié)束語(yǔ)

AI芯片廠商雖然推出了各式各樣的自家產(chǎn)品，但是大廠的資金實(shí)力和技術(shù)積淀還是更勝一籌，所謂的獨(dú)角獸也只是在融資上站穩(wěn)腳跟，能否扭轉(zhuǎn)盈虧還是要靠實(shí)際的產(chǎn)品說(shuō)話。再過(guò)若干年，上述“xPU”還能存活多少都猶未可知。

新聞中心

盤(pán)點(diǎn)2021年全球AI芯片，詳解“xPU”，請(qǐng)收下最新最全的知識(shí)點(diǎn)