解讀邊緣計算芯片運行大模型的挑戰(zhàn)與機會。編輯 | GACS
9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在15日的高能效AI芯片專場上,云天勵飛公司的副總裁、芯片業(yè)務線總經理李愛軍,分享了主題為《大模型時代下國產邊緣計算芯片的挑戰(zhàn)和突圍》的主題演講。李愛軍在演講中說,大模型的出現讓邊緣計算看到了Corner case的破解之道。全球邊緣計算市場規(guī)模不斷擴大,但面臨著場景、芯片平臺、算力需求碎片化的痛點,算法投入產出不成正比。大模型具有強大的圖像或語言理解能力、場景泛化能力,有望解決這些痛點。為滿足大模型部署需求,邊緣計算芯片設計需要考慮SoC集成、算力可靈活擴展芯片架構、統(tǒng)一的工具鏈架構、隱私保護等方面因素。李愛軍談道,云天勵飛基于其自研算法開發(fā)平臺和算法芯片化平臺,不僅訓練了“云天天書”大模型,還推出了新一代邊緣計算芯片平臺。以下為李愛軍的演講實錄:大家好!我是云天勵飛的李愛軍,今天我給大家?guī)泶竽P瓦吘売嬎阈酒奶魬?zhàn)和突圍的主題分享,我的分享里面有三個關鍵詞:一個是邊緣計算,第二個是大模型,第三個是國產芯片。為什么是這三個關鍵詞?我們大家都知道,AI在落地的過程中,特別是芯片,主要涉及到端、邊、云三個大的場景。對于芯片來說,云和端這兩個場景相對而言比較明確。比如說云,主要是拿來做訓練,強調它的通用性;對于端,它強調場景非常聚焦,比方說手機,強調了它極致的能效比;中間的邊,就代表邊緣計算。而邊緣計算場景對于整個AI來說,實際上是一個全新的場景,過去這十年,大家都在這個場景里面探索。邊緣計算這個場景本身給大家?guī)淼南胂罂臻g也是非常巨大和無限,因為大家對于邊緣計算的共識是場景非常的豐富。大模型自從去年11月份ChatGPT出來以后,已經經歷了大半年的過程,大家也都能看到,整個AI的方向基本上已經非常明確,或者說大模型代表AI的第二階段。大模型在云端帶動了整個GPU,在端側,包括手機也在迅速跟進,高通的手機芯片,以及類似蘋果、華為這些業(yè)內的頂尖廠家,都在陸續(xù)推出基于端側的大模型。對邊緣計算來說,大模型跟邊緣計算有沒有結合點、交叉點?這是我們在思考和探索的。另外一個是國產芯片,在現在這樣的大國際形勢下,國產芯片,特別是國產工藝芯片,我想這已經是一個繞不開的主題了。我相信在邊緣計算這個場景下,在不久的將來,一定會有一家企業(yè)基于國產的工藝推出滿足邊緣計算場景的突破。我將從下面三個方面進行主題分享。
01.三個技術平臺,實現“算法芯片化”
云天勵飛是一家什么樣的企業(yè)?云天勵飛是一個應用驅動的技術型企業(yè),公司是2014年的8月份成立的,云天勵飛是一家為數不多的,具有算法、芯片、大數據全棧能力的AI企業(yè)。在過去九年時間里,我們探索出了一條AI落地的一套方法和設計平臺,就是算法芯片化這樣的設計平臺。通過這個平臺,我們有效地把AI的算法、邊緣場景的落地,以及AI處理器的指令集和芯片架構、工具鏈,能夠有機整合在一起。通過應用產生數據、數據訓練算法、算法定義芯片、芯片賦能應用,這樣的一個數據飛輪,我們不斷地推動AI在邊緣場景的落地。云天勵飛的算法芯片化平臺,它由下面三個可落地的技術平臺組成:第一個是應用落地驅動的算法平臺。在這個平臺上,我們實現了算法超過14個領域,以及102個種類的落地。同時,這些算法可以支持端云協同,支持細分場景下的算法快速微調和部署。同時基于這樣的平臺,我們也正在研發(fā)云天勵飛的“云天天書”大模型。二是算法驅動的神經網絡處理器平臺,通過這個平臺上,我們能夠實現算法高效推理的指令集設計。同時,基于這樣的平臺,我們也完成了四代神經網絡處理器的迭代。并且得益于這些迭代,我們能夠高效地支持卷積神經網絡(CNN)以及新一代的Transformer計算范式。并且能夠高效地支持目前大家所熟悉的,包括視覺大模型、多模態(tài)大模型、NLP大模型在邊緣端的高效部署。三是面向邊緣計算場景的芯片平臺,通過這樣的平臺,我們實現了三代可商用的邊緣計算芯片的落地,并且算力范圍從2TOPS到128TOPS的這樣的覆蓋。我們通過這個平臺,實現了D2D Chiplet這樣的先進封裝技術,這個可能是基于國產工藝,第一個進入可量產的Chiplet技術。同時,基于這樣的平臺,我們還實現了C2C Mesh這種高效互聯技術,通過這樣的互聯技術,我們可以實現算力的靈活可擴展。
02.大模型時代下,邊緣計算芯片面臨多重技術挑戰(zhàn)
在大模型時代下,邊緣計算芯片具有哪些挑戰(zhàn)。我們知道,整個邊緣計算場景,它的規(guī)模是呈不斷擴大的趨勢。那什么是邊緣計算?邊緣計算,它卡在端和云的中間。邊緣計算又分成Edge Device和Edge Server兩個細分場景,包括有邊緣的智能終端設備、邊緣的智能網關,以及邊緣服務器這些場景。據IDC的預測,到2023年底,全球的邊緣計算市場將達到2000億美金的規(guī)模,年增長率也非常高,達到13%以上。預計到2026年,邊緣計算市場將突破3000億美金??梢哉f,這是一個非常值得大家期待的AI落地的場景。1、邊緣計算場景落地痛點:Corner Case難以有效解決但是在落地的過程中,特別是云天勵飛過去九年,我們在落地過程中,我們所看到的現狀是怎樣的?首先邊緣計算的場景非常眾多、紛繁復雜,有園區(qū)、安防、商業(yè)、教育等等。這么多的場景,場景的要求又各種各樣。同時,在邊緣計算場景落地的芯片平臺種類也是五花八門,有X86架構的、ARM架構的,有FPGA的,也有SoC主控芯片,也有算力芯片,甚至傳統(tǒng)的NVR芯片也被歸在這個類。算力的需求也是極度碎片化的,從0.5T算力,到幾十T甚至到幾百T,需求各異。同時對數據精度的要求也不一樣,有INT8的要求,INT12的要求,還有FP16的要求。從算法角度來說,算法投入產出不成正比,難以實現商業(yè)閉環(huán)。算法從研發(fā)訓練出來,在場景落地的過程中,會遇到各種各樣的精度、識別度的問題,以及目標變化的問題。目標變化并不是目標本身有變化,而是這個目標的姿態(tài)有變化,比如說一個貓,正面看像是貓,可是背面看就不認識了。這需要算法不斷進行迭代和訓練,這就導致整個落地的過程中成本不收斂,也就是我們做一個項目,不掙錢甚至虧錢。因為整個落地過程中客戶對于整個體驗是不滿意的,客戶不滿意就不會給方案商繼續(xù)下訂單,方案商沒有訂單,意味著芯片原廠也沒有訂單,這就形成了碎片化的惡性循環(huán),這就是當前邊緣計算場景落地的困境。邊緣計算場景的痛點究其問題,最大的痛點在哪里?在于場景的Corner Case難以有效解決。我們以長尾算法為例,長尾算法的開發(fā)部署要經歷,第一個是單場景數據的搜集,還有算法的訓練,產品的測試,再到應用部署4個環(huán)節(jié)。這里面有兩個循環(huán),一個是產品研發(fā)階段的小循環(huán),還有一個產品研發(fā)完以后去部署應用的時候,還有叫Corner Case的持續(xù)的循環(huán)。因為這兩個循環(huán)的存在,導致整個落地成本居高不下。2、Corner Case破解之道:大模型的運用大模型的出現,讓我們看到了解決場景邊緣,特別是解決邊緣計算場景的Corner Case的希望。大模型現在有兩種,一個是CV(計算機視覺)大模型,一個是NLP(自然語言處理)大模型。CV大模型具有什么樣的特點和優(yōu)勢?首先,CV大模型具有強大的圖像理解能力,同時它也具有強大的場景泛化能力,這意味著它可以實現在攝像頭視野范圍內所有目標的分割、檢測和深度估計,為泛場景的精確識別提供技術保障。這里面我們可以看到目前的開源網絡,包括Dino-v2、Segment-Anything、Ground-Dino等等這些算法。而NLP大模型,它有強大的語言理解能力,以及強大的多輪交互能力,這意味著算法能夠快速、準確地理解用戶指令,從而可以實現場景Corner case的精準操作。CV大模型與NLP大模型的結合,在邊緣計算場景的落地,讓我們能夠看到Corner Case有被解決的希望。3、邊緣計算芯片運行大模型的雙重挑戰(zhàn)大模型在邊緣計算場景運用,對于邊緣計算芯片有什么樣的要求和挑戰(zhàn)呢?對于AI處理器而言,因為大模型帶來全新的計算泛式和計算要求,它需要AI處理器能夠高效地執(zhí)行Transformer這樣的計算范式,同時要能夠高效執(zhí)行包括Softmax、Layer norm等新算子,它的算力要求要大,大模型的算力,特別CV大模型的算力是傳統(tǒng)小模型的幾倍甚至十幾倍。因為大模型的參數量巨大,它對于內存的帶寬要求以及內存容量要求,相比原來的小模型也是翻番,甚至翻幾番。另外大模型同樣帶來了對邊緣計算芯片的全新設計要求。大模型在邊緣計算場景落地,需要形成邊緣的計算芯片上全業(yè)務的閉環(huán)。這就意味著對邊緣計算芯片,不光對于算力有要求,還需要芯片是一個具有SoC集成度的芯片要求。也就是它不光要有AI算力,還要有相對比較強的通用算力,包括CPU、GPU等等。因為大模型在落地場景中參數規(guī)模有變化,有可能10億規(guī)模,也有可能百億規(guī)模,也有可能是幾百億規(guī)模,它希望芯片的架構是一個算力可靈活擴展的架構,在應用的時候可以量體裁衣,根據場景的要求選擇不同的算力。不同算力的芯片對于算法來說,希望有一個統(tǒng)一的工具鏈架構,而不是說這個算力場景我要用這家芯片,那個算力用那家芯片,而工具鏈又是各家做各家的。如果這種情況下,整個大模型在邊緣場景下的落地仍然會舉步維艱。同時大模型因為比傳統(tǒng)的小模型帶來一些優(yōu)勢,包括泛化的優(yōu)勢、理解的優(yōu)勢等,對于用戶的數據,它的處理量級比小模型會大一個數量級甚至兩個數量級,也就是有更多海量的用戶數據會被在邊緣側處理,同時這些數據的理解也會更加深刻,這就帶來用戶數據的隱私保護的問題。
03.加速大模型落地邊緣場景,解構云天勵飛的架構創(chuàng)新
在邊緣計算芯片這些技術困境下,云天勵飛做了哪些事情?首先是云天勵飛正在自研“云天天書”大模型,這個大模型是基于云天的算法開放平臺和算法芯片化平臺,通過結合互聯網上海量的語料數據,訓練出通用的基礎大模型。在通用基礎大模型的基礎上,結合云天勵飛過去九年來的沉淀積累,訓練出行業(yè)大模型,這里面就包括智慧城市、智慧安防、智慧交通、智慧商超等等,這些領域的行業(yè)大模型。之后再針對落地細分的場景,將數據集進行微調,從而實現真正可落地的,滿足場景泛化要求的場景大模型。云天天書大模型也是由CV大模型、NLP大模型和多模態(tài)大模型組成。在芯片側,云天勵飛打造了新一代的邊緣計算芯片平臺DeepEdge10。它是一個系列化的芯片平臺。它是基于國產的工藝,可以說這顆芯片是真正的國產芯片。其次它采用了先進的Chiplet技術,它能實現算力的靈活擴展。DeepEdge10是具有SoC主控集成度的芯片,內置了云天最新的第四代神經網絡處理器,可以高效支持大模型邊緣側的執(zhí)行和落地。另外它實現了D2D Chiplet創(chuàng)新技術,同時實現了D2D/C2C Mash擴展架構,來實現算力的靈活可擴展。在主控集SoC方面,DeepEdge10具有性能強勁的、主流的CPU核。另外它集成了滿足邊緣場景應用的2D/3D的GPU能力,同時集成了第四代神經網絡處理器400T,所以它具有澎湃的邊緣AI的算力。它還有強大的多媒體能力,包括對于8K30視頻以及2億像素的圖像處理能力,還有不錯的顯示能力,支持雙屏異顯等等。它有完備的高低速外圍接口,例如我們熟悉的USB、PCI等,包括以太網口都全部支持,甚至還支持CAN FD,可以滿足工業(yè)場景的實時連接需要。同時,它具有硬件級安全特性,支持國際主流的加解密算法,同時支持安全boot,以及物理級的安全系統(tǒng)。DeepEdge10內置了云天勵飛第四代神經網絡處理器,具有這些特點:首先它的數據格式,它是支持FP16、INT16和INT8這些精度,因為有了這些支持,我們得以做混合精度量化。另外支持多線程執(zhí)行,同時支持QAT模型、支持動態(tài)量化模型、支持最新的Transformer網絡結構模型。對于大模型的新的計算,我們有哪些考慮呢?首先是我們設計了三維并行的矩陣計算架構。結合矩陣計算和矢量計算的聯合優(yōu)化,我們可以高效地提升像Softmax、LayerNorm這些算子的性能。通過稀疏化、參數/數據的壓縮和低比特量化技術,我們可以實現大模型對帶寬要求的極致優(yōu)化。通過INT8、INT16、FP16,可以實現混合數據精度的量化,從而保證大模型在邊緣側落地的時候幾乎不掉精度。通過D2D以及C2C的高速互聯接口,可以實現算力的靈活擴展。DeepEdge10芯片是國內首個基于國產工藝量產的D2D Chiplet芯片。D2D就是die to die,意味著兩個die之間高速互聯。我們采用的die to die技術具有非常高的速率,還有帶寬的密度、pJ級功耗級別,以及納米級延時等等,包括傳輸、路由、統(tǒng)一內存等等。因為有了這些特性,所以我們才能夠負責任地說,我們可以支持當前的大模型,包括百億大模型乃至千億大模型參數大、計算量大、低延時的要求。通過以上的創(chuàng)新,云天勵飛打造了DeepEdge10這樣基于國產工藝的芯片平臺,我們形成了一個系列化的芯片。這樣的芯片平臺我們可以有效地支持當前在邊緣計算場景落地的,從迷你PCIe卡、AI盒子、加速卡,到邊緣服務器等各類硬件產品的需要,從而實現整個豐富邊緣計算場景的落地。我們通過架構的創(chuàng)新,可以說DeepEdge10實現了國產芯片在邊緣計算場景的突圍。云天勵飛致力于國產工藝以及國產大模型邊緣計算芯片的突圍,不論遭受怎樣的外部壓力,我們矢志不渝。謝謝大家!以上是李愛軍演講內容的完整整理。芯東西芯東西專注報道芯片、半導體產業(yè)創(chuàng)新,尤其是以芯片設計創(chuàng)新引領的計算新革命和國產替代浪潮;我們是一群追“芯”人,帶你一起遨游“芯”辰大海。
832篇原創(chuàng)內容
公眾號
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。