用VPU帶來(lái)全民AI能力｜英特爾AI on PC技術(shù)解讀

作者：新潮電子時(shí)間：2023-06-07 來(lái)源：搜狐科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

如今的AI技術(shù)的進(jìn)步可以說(shuō)是一日千里，也從前幾年我們經(jīng)常提到的判定式AI的基礎(chǔ)上，產(chǎn)生了大量的生成式AI的應(yīng)用，這些基于AI大模型的新應(yīng)用，其實(shí)也給產(chǎn)業(yè)鏈上游的硬件廠商提出了新的要求。

本文引用地址：http://2s4d.com/article/202306/447448.htm

通過(guò)布局異構(gòu)計(jì)算，藍(lán)色巨人如何涉入AI這條河流

對(duì)于藍(lán)色芯片巨頭英特爾來(lái)說(shuō)，目前已經(jīng)通過(guò)OneAPI和OPENVINO為基礎(chǔ)，形成了CPU、GPU、FPGA/ASIC 、神經(jīng)網(wǎng)絡(luò)計(jì)劃、RISC-V一系列的異構(gòu)計(jì)算的產(chǎn)品線，前兩年，英特爾提出了XPU——超異構(gòu)計(jì)算的概念，其實(shí)就是將不同計(jì)算構(gòu)架下的計(jì)算能力統(tǒng)在一個(gè)通用計(jì)算的平臺(tái)下生成，而且據(jù)說(shuō)英特爾的RISC-V處理器也處理于即將推出的狀態(tài)。

今天給大家聊的自然不是RISC-V，而是大家耳熟能悉的通用計(jì)算CPU平臺(tái)的AI應(yīng)用，是的，你沒(méi)聽(tīng)錯(cuò)，在英特爾最新的CPU MapRoad（產(chǎn)品圖線圖）上，將整合進(jìn)新的AI運(yùn)算模塊，讓每一臺(tái)PC都具備一定的AI能力。而實(shí)現(xiàn)這一能力的正是下半年即將面市的Meteor Lake，如果放在個(gè)人PC上，也就是大家所關(guān)注的Meteor Lake。

你如果仔細(xì)關(guān)注過(guò)英特爾酷睿處理器，就知道英特爾其實(shí)早在Alder Lake到Raptor Lake，也就是之前混合架構(gòu)的12代和13代酷睿就集成了AI深度學(xué)習(xí)的能力，它是通過(guò)一塊嵌入式芯片專(zhuān)門(mén)處理向量神經(jīng)網(wǎng)絡(luò)指今集（VNNI），其實(shí)也就向AVX-512中增加了新的深度學(xué)習(xí)的功能，諸如英特爾智音技術(shù)、語(yǔ)音喚醒、高質(zhì)音頻等以判定式AI為底層的技術(shù)都是通過(guò)它來(lái)實(shí)現(xiàn)的。而且英特爾通過(guò)向13代酷睿上加載Movidius Myriad X視覺(jué)處理單元，通過(guò)計(jì)算機(jī)視覺(jué)和深度神經(jīng)網(wǎng)絡(luò)推理讓PC具備了生成式AI的能力。

對(duì)英特爾極為關(guān)鍵的Meteor Lake，會(huì)有哪些技術(shù)亮點(diǎn)

在日前英特爾的一場(chǎng)名為“AI on PC”技術(shù)交流會(huì)上，英特爾明確了Meteor Lake將在硬件能力上對(duì)AI的主要應(yīng)用場(chǎng)景進(jìn)行支持，而且細(xì)聊到了支持AI功能的具體構(gòu)架，甚至還進(jìn)一步聊到英特爾接下來(lái)IDM 2.0對(duì)芯片構(gòu)架的影響。我們一步一步來(lái)給大家展開(kāi)來(lái)聊。

從帕特·基辛格主導(dǎo)的產(chǎn)品路線圖來(lái)看，英特爾會(huì)在四年時(shí)間里跨越5個(gè)制程工藝的節(jié)點(diǎn)，其中會(huì)有三個(gè)非常重要的飛躍，第一是intel 7的Alder Lake到Raptor Lake，通過(guò)混合構(gòu)架，英特爾重塑了CPU的異構(gòu)計(jì)算能力；第二便是今年下半年發(fā)布的intel 4工藝制程，它采用Foveros 3D封裝技術(shù)，包含即將發(fā)布的到Meteor Lake和Arrow Lake，從英特爾代工步伐和面臨的競(jìng)爭(zhēng)環(huán)境來(lái)看，它甚至比下一步的Intel 20A更加重要；第三就是Intel 20A和18A的2nm和1.8nm工藝。就這樣的節(jié)奏來(lái)看，英特爾必須在Meteor Lake上為新的工藝制程開(kāi)一個(gè)好頭，將AI能力集成在PC中自然就是一個(gè)非常有看點(diǎn)的技術(shù)路線。

我們都知道，目前用于AI計(jì)算的主要是GPU，英特爾的技術(shù)人員已經(jīng)明確談到，得益于前兩年在銳炫（Arc）獨(dú)立顯卡上的布局，Meteor Lake的GPU能力將會(huì)更加強(qiáng)大，這一代的酷睿平臺(tái)中集成的顯卡將集成銳炫顯卡技術(shù)同樣的圖形引擎——的確，英特爾過(guò)去兩代沿用相同的集成顯卡，讓競(jìng)爭(zhēng)對(duì)手在輕薄筆記本領(lǐng)域，甚至在英特爾過(guò)去一直很強(qiáng)勢(shì)的商用筆記本領(lǐng)域中嘗盡了甜頭。Meteor Lake英特爾一定會(huì)利用強(qiáng)大的集顯能力扳回一程，甚至?xí)尲娠@卡具備光線追蹤、XeSS超級(jí)分辨率這樣的獨(dú)顯才會(huì)擁有的技術(shù)。要知道，光追對(duì)硬件能力的要求其實(shí)是很高的，這也讓我們對(duì)Meteor Lake即將展示的集顯性能非常期待。

VPU，英特爾首次在CPU上放入獨(dú)立的AI硬件單元

但是，但是，但是（重要的事說(shuō)三遍），集成顯卡并不是英特爾用來(lái)實(shí)現(xiàn)AI的關(guān)鍵硬件，我在文章開(kāi)始時(shí)一再?gòu)?qiáng)調(diào)英特爾在異構(gòu)計(jì)算上的整合能力，是因?yàn)橛⑻貭栍脕?lái)實(shí)現(xiàn)AI能力的是一個(gè)CPU上首次出現(xiàn)的全新計(jì)算模式——VPU，而在完全掌控異構(gòu)計(jì)算的底層技術(shù)之后，英特爾是隨時(shí)有為新一波的科技浪潮添加相對(duì)應(yīng)的硬件能力的。

之前，Movidius視覺(jué)處理器就被命名為VPU，不必意外，集成入Meteor Lake的就是這樣一個(gè)基于神經(jīng)網(wǎng)絡(luò)計(jì)算的獨(dú)立運(yùn)算模塊，與以往的通過(guò)CPU和GPU的人工智能加速指令集去實(shí)現(xiàn)人工智能服務(wù)不同，這是一個(gè)獨(dú)立的處理單元，在針對(duì)人工智能進(jìn)行加速處理模式中，采用的也是“CPU+GPU+VPU“的混合處理方式，通過(guò)各個(gè)計(jì)算單元的特點(diǎn)，將AI處理效率最大化。這件事之所以是英特爾率先落地，是因?yàn)橛⑻貭柾ㄟ^(guò)OneAPI和OPENVINO對(duì)不同構(gòu)架的算力已經(jīng)形成了”歸一化“的統(tǒng)籌，換其他人，還真不一定干得這么利索。

我們?cè)賮?lái)看看這塊VPU究竟有何優(yōu)勢(shì)？按英特爾技術(shù)人員的介紹，它最大的優(yōu)勢(shì)就是在消費(fèi)端PC上用最快速、最便宜、最低成本的方式實(shí)現(xiàn)AI功能。其實(shí)，英特爾的Movidius視覺(jué)處理器已經(jīng)在非常寬泛的領(lǐng)域得到應(yīng)用，它以非常優(yōu)秀的每瓦性能比實(shí)現(xiàn)了高性能的深度學(xué)習(xí)功能，特別在視覺(jué)判別上擁有支持ISP、高兼容性，以及邊緣端易于布署等優(yōu)勢(shì)，適于在邊緣端部署，從某種意義上來(lái)說(shuō)它很容易移植在“端”上，事實(shí)上，過(guò)去Movidius也有很多“端”上部署的案例。

放在一臺(tái)酷睿PC上行不行？答案自然是肯定的。Meteor Lake上的這個(gè)VPU計(jì)算單元便擁有端側(cè)上非常優(yōu)秀的延時(shí)表現(xiàn)、數(shù)據(jù)安全性和較低的運(yùn)營(yíng)成本。目前，大規(guī)模的AI運(yùn)算都是通過(guò)云端來(lái)提供支持的，自然就有延時(shí)和數(shù)據(jù)安全等問(wèn)題，而且云端需要有大量的服務(wù)器設(shè)備來(lái)支持，從目前的用于AI運(yùn)算的超算設(shè)備來(lái)看（比如英偉達(dá)才發(fā)布的DGX GH200），AI運(yùn)營(yíng)方需要支付非常巨大的成本，相應(yīng)，消費(fèi)者也需要為AI成果支付巨額的費(fèi)用，之所以止前GPT和各個(gè)運(yùn)營(yíng)方都沒(méi)有收費(fèi)，只是大模型還在發(fā)展階段，能夠開(kāi)源免費(fèi)使用的也是大語(yǔ)言模型等一些基礎(chǔ)服務(wù)，那些沒(méi)開(kāi)源的項(xiàng)目未來(lái)都是非常昂貴的，不是每個(gè)項(xiàng)目都能玩得起的。

英特爾在酷睿平臺(tái)上集成AI能力，這無(wú)疑為AI應(yīng)用打開(kāi)了一個(gè)新的天窗。如果每一臺(tái)消費(fèi)級(jí)PC都具有本地化的AI能力，那么未來(lái)很可能會(huì)誕生無(wú)數(shù)多的新商業(yè)模式，所以如今圖片生成式AI除了云端支持的Midjourney之外，還有端側(cè)支持的Stable Diffusion，我相信未來(lái)更多富有想象力的AI畫(huà)作將出自Stable Diffusion，而不是Midjourney。未來(lái)，還有可能會(huì)有統(tǒng)籌每臺(tái)電腦AI算力的網(wǎng)絡(luò)平臺(tái)或拓?fù)錁?gòu)架出現(xiàn)，用于支撐大型的AI應(yīng)用，當(dāng)然，這種商業(yè)模式就不是本文的探討范圍之內(nèi)了。

英特爾如何推進(jìn)AI技術(shù)，VPN在未來(lái)PC構(gòu)架上承擔(dān)怎樣的角色

再回到英特爾VPU的討論之上。英特爾一直在推進(jìn)AI方面的應(yīng)用，過(guò)去我們看到的大多是判定式AI，比如像噪音抑制、圖像分割等，比如英特爾今年在網(wǎng)絡(luò)會(huì)議的背景處理上就采用非常完善的分割模型，能夠?qū)㈩^部和背景非常細(xì)致地區(qū)分，相比兩年前模型有了10倍復(fù)雜度的提升；另外，噪音抑制的復(fù)雜度也有50倍的提升。而在生成式AI上，大語(yǔ)言模型、Stable Diffusion同樣也對(duì)硬件提出了較高的要求。

所以英特爾在Meteor Lake和接下來(lái)的產(chǎn)品路線上明確加入了VPU這樣的獨(dú)立IP，并且也在和眾多ISV合作，目前已經(jīng)與超過(guò)100家的ISV開(kāi)展AI方面的合作。與其他廠商不同，英特爾提供的AI服務(wù)基于整個(gè)處理器算力，也就是CPU+GPU+VPU，他們可以處理不同使用場(chǎng)景、不同負(fù)載、不同延時(shí)下的AI需求。比如CPU處理AI 的延時(shí)很低，不需要長(zhǎng)時(shí)間裝載，適合敏感的AI負(fù)載；GPU延時(shí)高，但算力強(qiáng)，適于AI大模型；而VPU則是專(zhuān)門(mén)為AI設(shè)計(jì)的一套架構(gòu)，能夠非常高效地完成一些矩陣運(yùn)算，而且對(duì)稀疏化的處理非常擅長(zhǎng)。之前英特爾在無(wú)人機(jī)避障上便強(qiáng)入了這個(gè)嵌入式IP，它的功耗非常低，對(duì)流媒體的AI處理，比如手勢(shì)控制、背景虛化等需要長(zhǎng)時(shí)間運(yùn)行的AI負(fù)載，是非常高耗且省電的。

之所以要將VPU引入到PC之上，是因?yàn)樽鳛橥ㄓ糜?jì)算平臺(tái)，如今PC上會(huì)并行很多運(yùn)算任務(wù)，如果將AI負(fù)載過(guò)多加載在CPU和GPU之上，那么在占用率高的情況下就會(huì)擠占渲染等實(shí)時(shí)任務(wù)，造成游戲等應(yīng)用場(chǎng)景的卡頓，而交給能耗較低的VPU，那么就會(huì)讓CPU和GPU隨時(shí)保持較為空載的狀態(tài)，留給其他通用計(jì)算的任務(wù)。

在Meteor Lake發(fā)布之后，哪些任務(wù)可以交給VPU來(lái)做呢？以Adobe的一些軟件為例，自動(dòng)化的處理、智能化摳圖都可以交由VPU執(zhí)行，另外，Blender（3D創(chuàng)作）、Audacity（音頻剪輯）、OBS（直播推流）、GIMP（對(duì)標(biāo) Photoshop的一個(gè)開(kāi)源軟件）等軟件會(huì)做VPU的資源調(diào)用。另外，英特爾與跟Unreal Engine做的數(shù)字人，以及其他引擎級(jí)別的插件，也會(huì)由VPU來(lái)支撐AI方面的負(fù)載。另外，基于Stable Diffusion做的生成式AI，同樣可以交由英特爾的這套CPU+GPU+VPU的執(zhí)行邏輯高效的完成。

現(xiàn)場(chǎng)，英特爾為我們展示了一個(gè)在Stable Diffusion完成的Diffusion的模型生成，就是跑在了Meteor Lake的開(kāi)發(fā)機(jī)之上，上邊沒(méi)有獨(dú)立GPU，是通過(guò)不同的IP協(xié)作完成的。比如VPU上承載了VNET模塊運(yùn)行，GPU上承載了encoder模塊的運(yùn)行。就VPU的具體AI性能，英特爾技術(shù)人員并沒(méi)有直接回答，最終指標(biāo)會(huì)留在Meteor Lake正式發(fā)布時(shí)才會(huì)公布。不過(guò)經(jīng)過(guò)我再三向英特爾技術(shù)人員確認(rèn)，Meteor Lake中的這塊VPU性能，將比在13代酷睿上加載的那塊Movidius Myriad X視覺(jué)處理單元在性能和功耗上均更為強(qiáng)大！

可以明確的是，在上述演示的僅需20秒完成的DEMO中，明確基于VPU的方案是INT8精度，與GPU上常用的FP32或BF16相比，的確在精度上有一定差別，但大部分消費(fèi)類(lèi)場(chǎng)景上，用戶的感知差別都不會(huì)太明顯。

英特爾硬件布局上更多的話題，非常重要！

對(duì)于VPU的前生過(guò)往，今天都給大家談到了，最終只剩下一個(gè)問(wèn)題，英特爾為什么要推VPU？其實(shí)我在上談解讀中已經(jīng)解構(gòu)得非常清晰——之所以要推VPU這個(gè)新IP，還是基于解決AI門(mén)檻的出發(fā)點(diǎn)，英特爾希望未來(lái)每一臺(tái)筆記本上都能運(yùn)行Stable Diffusion這樣的生成式AI大模型。更何況，VPU本身是一個(gè)低功耗的IP，在實(shí)現(xiàn)AI能力同時(shí)，不會(huì)給整塊芯片帶來(lái)更大負(fù)載壓力，也符合行業(yè)越來(lái)越看重“每瓦性能比”的趨勢(shì)。

VPU本身并不是一個(gè)解決所有AI應(yīng)用場(chǎng)景的硬件，但英特爾，卻是一個(gè)擁有解決AI所有場(chǎng)景、負(fù)載的芯片廠商。而且，英特爾在整合能力上，擁有比NVIDIA更強(qiáng)的能力，比如英偉達(dá)最近推出的DGX GH200上首次采用了拓?fù)浣Y(jié)構(gòu)，而英特爾去年構(gòu)架日推出Xe HPC的GPU——Ponte Vecchio，就已經(jīng)在SoC里將這個(gè)結(jié)構(gòu)玩得非常溜了。

在這個(gè)技術(shù)溝通會(huì)上，我和英特爾技術(shù)人員還聊到一個(gè)關(guān)于Meteor Lake的重要的話題。這個(gè)全新處理器將采用Foveros 3D封裝技術(shù)，也就意味著英特爾在整合整個(gè)SoC的連接能力上將更強(qiáng)。更為重要的是，在這個(gè)封裝中，英特爾的芯片將全面啟用分離式的模塊構(gòu)架，這意味著芯片中的每一個(gè)IP都可以作為獨(dú)立模塊設(shè)計(jì)，根據(jù)計(jì)算和功用，甚至?xí)捎貌煌闹瞥坦に?。大家可以留意到，AMD早就采用了Chiplet技術(shù)對(duì)SoC內(nèi)不同IP采用不同制程工藝節(jié)點(diǎn)來(lái)降低成本，從ZEN 2開(kāi)始就把邏輯運(yùn)算模塊和I/O模塊分用不同制程工藝，這樣的需求遠(yuǎn)不止AMD一家，而英特爾這樣做的目的更多是為了服務(wù)其代工業(yè)務(wù)（IDM2.0），滿足的客戶按需采購(gòu)要求。

VPU在DIE上的面積不大，功耗也低，但卻從硬件端解決了AI功能的入門(mén)問(wèn)題，讓未來(lái)所有的PC用戶都能夠使用本地端的AI功能。在芯片行業(yè)，制程工藝的進(jìn)步是芯片廠商能力的重要標(biāo)志，異構(gòu)計(jì)算的整合能力則是另一方面的能力體現(xiàn)，所以未來(lái)英特爾在AI方面的布局會(huì)持續(xù)加強(qiáng)，從VPU到獨(dú)立GPU，再到Xe HPC GPU產(chǎn)品上都會(huì)看到具體AI能力的落地。

新聞中心

用VPU帶來(lái)全民AI能力｜英特爾AI on PC技術(shù)解讀

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)