大模型走向終端，芯片怎么辦？

發(fā)布人：旺材芯片時間：2023-07-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：半導(dǎo)體行業(yè)觀察

人工智能已經(jīng)成為半導(dǎo)體行業(yè)過去幾年最重要的新推動力。而去年以ChatGPT為代表的大模型更是進(jìn)一步點燃了人工智能以及相關(guān)的芯片市場，ChatGPT背后的大模型正在成為下一代人工智能的代表并可望進(jìn)一步推進(jìn)新的應(yīng)用誕生。

說起大模型，一般我們想到的往往是在云端服務(wù)器上運(yùn)行模型。然而，事實上大模型已經(jīng)在走入終端設(shè)備。一方面，目前已經(jīng)有相當(dāng)多的工作證明了大模型經(jīng)過適當(dāng)處理事實上可以運(yùn)行在終端設(shè)備上（而不局限于運(yùn)行在云端服務(wù)器）；另一方面，大模型運(yùn)行在終端設(shè)備上也會給用戶帶來很大的價值。因此，我們認(rèn)為在未來幾年內(nèi)，大模型將會越來越多地運(yùn)行在終端設(shè)備上，而這也會推動相關(guān)芯片技術(shù)和行業(yè)的進(jìn)一步發(fā)展。

智能汽車是大模型運(yùn)行在終端的第一個重要市場。從應(yīng)用角度來看，大模型運(yùn)行在智能汽車的首要推動力就是大模型確實能給智能駕駛相關(guān)的任務(wù)帶來客觀的性能提升。去年，以BEVformer為代表的端到端鳥瞰攝像頭大模型可以說是大模型在智能汽車領(lǐng)域的第一個里程碑，它把多個攝像頭的視頻流直接輸入使用transformer模塊的大模型做計算，最后的性能比之前使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型的結(jié)果好了接近10個點，這個可謂是革命性的變化。而在上個月召開的CVPR上，商湯科技發(fā)布的UniAD大模型更是使用單個視覺大模型在經(jīng)過統(tǒng)一訓(xùn)練后去適配多個不同的下游任務(wù)，最后在多個任務(wù)中都大大超越了現(xiàn)有最好的模型：例如，多目標(biāo)跟蹤準(zhǔn)確率超越了20%，車道線預(yù)測準(zhǔn)確率提升 30%，預(yù)測運(yùn)動位移和規(guī)劃的誤差則分別降低了 38% 和 28%。

目前，汽車企業(yè)（尤其是造車新勢力）已經(jīng)在積極擁抱這些智能汽車的大模型，BEVformer（以及相關(guān)的模型）已經(jīng)被不少車企使用，我們預(yù)計下一代大模型也將會在未來幾年逐漸進(jìn)入智能駕駛。如果從應(yīng)用角度考慮，智能汽車上的大模型必須要在終端設(shè)備上運(yùn)行，因為智能汽車對于模型運(yùn)行的可靠性和延遲要求非常高，在云端運(yùn)行大模型并且使用網(wǎng)絡(luò)把結(jié)果傳送到終端無法滿足智能汽車的需求。

商湯科技提出的UniAD大模型架構(gòu)，使用統(tǒng)一模型去適配多個任務(wù)

除了智能汽車之外，手機(jī)也是大模型進(jìn)入終端的另一個重要市場。以ChatGPT為代表的語言類大模型事實上已經(jīng)成為了下一代用戶交互的重要組成部分，因此在手機(jī)上使用大語言模型將會能把這樣的新用戶交互體驗帶入手機(jī)操作系統(tǒng)中。而在手機(jī)設(shè)備終端直接運(yùn)行大語言模型的主要好處在于能夠在保護(hù)用戶隱私的情況下給用戶帶來個性化的體驗（例如歸納和某個用戶的聊天記錄等等）。目前，開源社區(qū)已經(jīng)可以把Llama大語言模型能夠運(yùn)行在安卓手機(jī)上CPU，回答一個問題大約需要5-10秒的時間，我們認(rèn)為未來的潛力巨大。

智能汽車芯片加速大模型：算力與功耗成為關(guān)鍵

目前，人工智能已經(jīng)在智能汽車的輔助駕駛應(yīng)用中得到了廣泛應(yīng)用，因此大多數(shù)智能汽車上使用的芯片也有對于人工智能的支持，例如加入人工智能加速器等。然而，這些人工智能加速器主要考慮的加速對象模型仍然是上一代以卷積神經(jīng)網(wǎng)絡(luò)為代表的模型，這些模型往往參數(shù)量比較小，對于算力的需求也比較低。

為了適配下一代大模型，智能汽車芯片會有相應(yīng)的改動。下一代大模型對于智能汽車芯片的要求主要包括：

1	大算力：由于智能汽車上的相關(guān)感知和規(guī)劃任務(wù)都必須在實時完成，因此相關(guān)芯片必須能夠提供足夠的算力來支持這樣的計算
2	低功耗：智能汽車上的計算功耗仍然有限制，考慮到散熱等因素，芯片不可能做到像GPU一樣有幾百瓦的功耗
3	合理的成本：智能汽車上的芯片不能像GPU一樣成本高達(dá)數(shù)千美元。因此，智能汽車上的大模型加速芯片主要考慮的就是如何在功耗和成本的限制下，實現(xiàn)盡可能高的算力。

我們可以從目前最成功的大模型加速芯片（即GPU）出發(fā)去推測支持大模型智能汽車芯片的具體架構(gòu)，考慮GPU上有哪些設(shè)計思路需要進(jìn)一步發(fā)揚(yáng)光大，另外有哪些應(yīng)該考慮重新設(shè)計。

首先，GPU上有海量的矩陣計算單元，這些計算單元是GPU算力的核心支撐（與之相對的，CPU上缺乏這些海量的矩陣計算單元因此算力無論如何不可能高上去），這些計算單元在智能汽車芯片上同樣也是必須的；但是由于智能汽車芯片上的計算不用考慮GPU上對于數(shù)據(jù)流和算子通用性的支持，因此智能汽車芯片上無需做GPU上這樣的大量stream core，因此從控制邏輯的角度可以做簡化以減少芯片面積成本。

第二，GPU能成功運(yùn)行大模型的另一個關(guān)鍵在于有超高速的內(nèi)存接口和海量的內(nèi)存，因為目前大模型的參數(shù)量動輒千億級，這些模型必須有相應(yīng)的內(nèi)存支持。這一點在智能車芯片上同樣需要，只是智能汽車芯片未必能使用GPU上的HBM這樣的超高端（同時也是高成本）內(nèi)存，而是會考慮和架構(gòu)協(xié)同設(shè)計來盡可能地利用LPDDR這樣的接口的帶寬。

第三，GPU有很好的規(guī)?；头植际接嬎隳芰?，當(dāng)模型無法在一個GPU上裝下時，GPU可以方便地把模型分割成多個子模型在多個GPU上做計算。智能車芯片也可以考慮這樣的架構(gòu)，從而確保汽車可以在使用周期內(nèi)滿足日新月異的模型的需求。

綜合上述考慮，我們推測針對大模型的智能車芯片架構(gòu)中，可能會有多個人工智能加速器同時運(yùn)行，每個加速器都有簡單的設(shè)計（例如一個簡單的控制核配合大量計算單元），搭配大內(nèi)存和高速內(nèi)存接口，并且加速器之間通過高速互聯(lián)互相通信從而可以以本地分布計算的方法來加速大模型。從這個角度，我們認(rèn)為智能駕駛芯片中的內(nèi)存和內(nèi)存接口將會扮演決定性的角色，而另一方面，這樣的架構(gòu)也非常適合使用chiplet的方式來實現(xiàn)每個加速器并且使用高級封裝技術(shù)（包括2.5D和3D封裝）來完成多個加速器的整合，換句話說大模型在智能汽車的應(yīng)用將會進(jìn)一步推動下一代內(nèi)存接口和高級封裝技術(shù)的普及和演進(jìn)。

大模型將會推動手機(jī)內(nèi)存和AI加速器革新

如前所述，大模型進(jìn)入手機(jī)將會把下一代用戶交互范式帶入手機(jī)。我們認(rèn)為，大模型進(jìn)入手機(jī)將會是一個漸進(jìn)的過程：例如，目前的大語言模型，即使是小版本的Llama 70億參數(shù)的模型，也沒法完全裝入手機(jī)的內(nèi)存中，而必須部分放在手機(jī)的閃存中運(yùn)行，這就導(dǎo)致了運(yùn)行速度比較慢。在未來的幾年中，我們認(rèn)為手機(jī)上面的大語言模型會首先從更小的版本（例如10億參數(shù)以下的模型）開始進(jìn)入應(yīng)用，然后再逐漸增大參數(shù)量。

華為在春季發(fā)布會上宣布大模型技術(shù)已經(jīng)落地手機(jī)端

從這個角度來看，手機(jī)上運(yùn)行大模型仍然會加速推動手機(jī)芯片在相關(guān)領(lǐng)域的發(fā)展，尤其是內(nèi)存和AI加速器領(lǐng)域——畢竟目前主流運(yùn)行在手機(jī)上的模型參數(shù)量都小于10M，大語言模型的參數(shù)量大了兩個數(shù)量級，而且未來模型參數(shù)量會快速增大。這一方面將會推動手機(jī)內(nèi)存以及接口技術(shù)以更快的速度進(jìn)化——為了滿足大模型的需求，未來我們可望會看到手機(jī)內(nèi)存芯片容量增長更快，而且手機(jī)內(nèi)存接口帶寬也會加快發(fā)展速度，因為目前來看內(nèi)存實際上是大模型的瓶頸。

除了內(nèi)存之外，手機(jī)芯片上的人工智能加速器也會為了大模型而做出相關(guān)的改變。目前手機(jī)芯片上的人工智能加速器（例如各種NPU IP）幾乎已經(jīng)是標(biāo)配，但是這些加速器的設(shè)計基本上是針對上一代卷積神經(jīng)網(wǎng)絡(luò)設(shè)計，因此在設(shè)計上并不完全針對大模型。為了適配大模型，人工智能加速器首先必須能有更大的內(nèi)存訪問帶寬并減少內(nèi)存訪問延遲，這一方面需要人工智能加速器的接口上做出一些改變（例如分配更多的pin給內(nèi)存接口），另一方面需要片上數(shù)據(jù)互聯(lián)做出相應(yīng)的改變來滿足人工智能加速器訪存的需求。

除此之外，在加速器內(nèi)部邏輯設(shè)計上，我們認(rèn)為可能會更加激進(jìn)地推進(jìn)低精度量化計算（例如4bit甚至2bit）和稀疏計算，目前的學(xué)術(shù)界研究表明大語言模型有較大的機(jī)會可以做這樣的低精度量化/稀疏化，而如果能量化到例如4bit的話，就會大大減小相關(guān)計算單元需要的芯片面積，同時也能減小模型在內(nèi)存中需要的空間（例如4bit量化精度相對于之前的標(biāo)準(zhǔn)8bit精度就會內(nèi)存需求減半），這預(yù)計也會是未來針對手機(jī)端人工智能加速器的設(shè)計方向。

根據(jù)上述分析，我們預(yù)計從市場角度手機(jī)內(nèi)存芯片將會借著手機(jī)大模型的東風(fēng)變得更重要，預(yù)計會在未來看到相比之前更快的發(fā)展，包括大容量內(nèi)存以及高速內(nèi)存接口。另一方面，手機(jī)端人工智能加速器IP也會迎來新的需求和發(fā)展，我們預(yù)計相關(guān)市場會變得更加熱鬧一些。

-End-

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。