新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > Arm終端計(jì)算子系統(tǒng)為AI用戶(hù)體驗(yàn)提供計(jì)算平臺(tái)

Arm終端計(jì)算子系統(tǒng)為AI用戶(hù)體驗(yàn)提供計(jì)算平臺(tái)

作者:Arm 終端事業(yè)部產(chǎn)品管理高級(jí)總監(jiān)Kinjal Dave 時(shí)間:2024-06-13 來(lái)源:EEPW 收藏

人工智能 (AI)正在改變消費(fèi)電子設(shè)備,并且革新生產(chǎn)力、創(chuàng)造力和娛樂(lè)體驗(yàn),這將帶來(lái)更高程度的自動(dòng)化、沉浸感和個(gè)性化,為開(kāi)發(fā)者和最終用戶(hù)提供海量機(jī)會(huì)。隨著推動(dòng)移動(dòng)端系統(tǒng)級(jí)芯片 (SoC) 的設(shè)備端生成式 AI 的發(fā)展,AI 技術(shù)正持續(xù)演進(jìn)。

本文引用地址:http://2s4d.com/article/202406/459860.htm

依托于全面計(jì)算解決方案的成功,我們宣布推出面向消費(fèi)電子設(shè)備的全新計(jì)算子系統(tǒng),即 (CSS)。作為 AI 體驗(yàn)的計(jì)算基礎(chǔ),它能在最廣泛類(lèi)別的消費(fèi)電子設(shè)備中,實(shí)現(xiàn)性能、效率和可擴(kuò)展性的跨越式提升。

終端CSS囊括最新的Armv9.2 Cortex CPU集群和 Arm Immortalis 與 Arm Mali GPU、CoreLink 互連系統(tǒng) IP,以及知名代工廠(chǎng)采用三納米工藝生產(chǎn)就緒的 CPU 和 GPU 物理實(shí)現(xiàn)。該平臺(tái)為我們的合作伙伴提供了生產(chǎn)芯片的最快途徑。通過(guò)物理實(shí)現(xiàn),Arm 的合作伙伴能夠利用前沿三納米工藝的各種優(yōu)勢(shì),同時(shí)實(shí)現(xiàn)高度靈活、可定制的芯片設(shè)計(jì)。

深入了解Arm終端CSS

Arm 終端 CSS 采用最新 Armv9.2 CPU 集群,其中集成了 Arm 目前最高性能的 Arm Cortex-X925 CPU、最高效的 Cortex-A725 CPU 和更新后的 Cortex-A520 CPU。這為AI和其他實(shí)際用例計(jì)算工作負(fù)載提供出色的性能和效率。

1718271740278215.png

圖 Arm終端CSS涵蓋哪些要素?

最新的CoreLink互連實(shí)現(xiàn)了Arm終端CSS的系統(tǒng)集成和擴(kuò)展。集成的系統(tǒng)級(jí)緩存 (SLC) 通過(guò)減少 DRAM 帶寬和訪(fǎng)問(wèn)來(lái)實(shí)現(xiàn)更出色的系統(tǒng)能效。系統(tǒng)內(nèi)存管理單元(SMMU)通過(guò)第二階段轉(zhuǎn)換加強(qiáng)安全性,以便支持如安卓虛擬化框架 (AVF) 等虛擬化安全框架。

憑借基于第五代 GPU 架構(gòu)、面向旗艦智能手機(jī)所設(shè)計(jì)的 Arm Immortalis-G925,Arm 終端 CSS 實(shí)現(xiàn)了驚人的圖形和主機(jī)級(jí)別的游戲性能。通過(guò)增強(qiáng)的性能和能效,用戶(hù)可以在移動(dòng)設(shè)備上享受更長(zhǎng)時(shí)間、更沉浸式的游戲體驗(yàn)。

Arm 終端 CSS 將成為第一代采用三納米工藝節(jié)點(diǎn)的安卓 SoC 的一部分,從而在芯片中實(shí)現(xiàn)出色的功耗、性能和面積 (PPA)。作為終端 CSS 的一部分,Arm 的物理實(shí)現(xiàn)能夠全面釋放三納米工藝技術(shù)的潛力,為高端平臺(tái)充分發(fā)揮 PPA 優(yōu)勢(shì),并為我們的合作伙伴打造芯片創(chuàng)建最快途徑。

我們攜手領(lǐng)先的代工廠(chǎng)合作伙伴,協(xié)同設(shè)計(jì)并交付 CPU 和 GPU 物理實(shí)現(xiàn),其中包括流片就緒的 Cortex-X925 CPU 以及 Immortalis-G925 三納米工藝的物理實(shí)現(xiàn)。這將有助于我們的合作伙伴在三納米工藝上取得 PPA 優(yōu)勢(shì),同時(shí)通過(guò)生產(chǎn)就緒的芯片解決方案來(lái)縮短芯片的開(kāi)發(fā)與部署時(shí)間。此外,我們的合作伙伴能夠靈活地使用 Arm 終端 CSS 來(lái)構(gòu)建特定市場(chǎng)、具差異化特色的 CPU 集群和 GPU。

突破計(jì)算和AI性能的極限

終端 CSS 是 Arm 目前面向安卓系統(tǒng)速度最快的平臺(tái),與 2023 Arm 全面計(jì)算解決方案 (TCS23) 平臺(tái)相比,在關(guān)鍵基準(zhǔn)和一般計(jì)算用例方面取得了顯著改進(jìn)。其中包括:

●   通過(guò) Geekbench 6 單核分?jǐn)?shù)測(cè)量可知,得益于新的 Cortex-X925,峰值性能提高 36%;

●   在前十大應(yīng)用中,五款應(yīng)用的平均啟動(dòng)時(shí)間加快了 33%,不僅提高了生產(chǎn)力,也帶來(lái)了流暢的移動(dòng)體驗(yàn);

●   通過(guò)Speedometer 2.1瀏覽器基準(zhǔn)測(cè)量時(shí),網(wǎng)頁(yè)瀏覽速度加快了 60%;

●   在包括光線(xiàn)追蹤和可變速率著色 (VRS) 基準(zhǔn)等七項(xiàng)圖形基準(zhǔn)中,峰值圖形性能平均提高 30%。

1718271777440628.png

圖 Arm終端CSS的一些性能優(yōu)勢(shì)

Arm 終端 CSS 平臺(tái)提供由 AI 驅(qū)動(dòng)的消費(fèi)電子設(shè)備體驗(yàn)。今年早些時(shí)候,我們展示了大語(yǔ)言模型 (LLM) 如何在移動(dòng)設(shè)備上的 Arm CPU 進(jìn)行本地運(yùn)行。借助終端 CSS,LLM 將得以在 Arm CPU 上更好地運(yùn)行,帶來(lái)更快的響應(yīng)速度。當(dāng)運(yùn)行 Llama 3 LLM 和 Phi-3 LLM時(shí),該平臺(tái)可將詞元 (Token) 首次響應(yīng)時(shí)間分別縮短 42% 以及 46%。

1718271815347387.png

圖 通過(guò)Arm終端CSS在Arm CPU上運(yùn)行LLM

此外,得益于新Arm CPU和GPU所取得的技術(shù)進(jìn)展,在廣泛的通用 AI 網(wǎng)絡(luò)上,Arm 終端 CSS 的 AI 推理性能獲得了顯著的提升。例如,采用 Cortex-X925 時(shí),推理速度加快 59%;采用 Immortalis-G925 時(shí),AI 推理速度加快 36%。此外,通過(guò)在終端 CSS 的 CPU 集群配置中利用一顆額外的 Cortex-X925 CPU,我們觀察到在 17 個(gè)主流網(wǎng)絡(luò)中,針對(duì) int8 和 fp16 數(shù)據(jù)類(lèi)型的 AI 推理性能提高了驚人的 2.7 倍。這些在 AI 推理方面的改進(jìn)可在一系列 AI 用例中實(shí)現(xiàn)無(wú)縫順暢的用戶(hù)體驗(yàn)。

1718271857328817.png

圖 Arm終端CSS提升AI推理

Arm終端CSS在計(jì)算攝影和AI攝像頭等AI用例中的表現(xiàn)尤為優(yōu)異。要想拍攝出美輪美奐且具有逼真焦外成像效果(讓背景模糊并聚焦所選主體)的照片和視頻,這并非易事。AI 攝像頭的焦外成像管線(xiàn)由深度估計(jì)、分割、摳圖和混合等多個(gè)階段組成,可生成高質(zhì)量的影像結(jié)果。與 TCS23 相比,通過(guò) CPU 上針對(duì)焦外成像工作負(fù)載的 AI 處理,終端 CSS 的焦外成像性能提升了 24%。這意味著用戶(hù)可以在不影響電池續(xù)航時(shí)間的前提下,在照片和視頻上獲得更快、更順暢的焦外成像效果。

1718271999843234.png

圖 通過(guò)Arm終端CSS提升AI攝像頭性能

此外,通過(guò)軟件和工具的結(jié)合,Arm 終端 CSS 的性能與功耗得以獲得進(jìn)一步優(yōu)化。Arm 新推出的 Kleidi包含了經(jīng)高度優(yōu)化的機(jī)器學(xué)習(xí) (ML) 軟件內(nèi)核集合 KleidiAI,能讓開(kāi)發(fā)者在通過(guò)高度優(yōu)化的生成式 AI 框架運(yùn)行 AI 工作負(fù)載時(shí),全面釋放 Arm CPU 的潛力。這意味著開(kāi)發(fā)者能夠面向各類(lèi)設(shè)備,基于盡可能高的性能,快速構(gòu)建 AI 應(yīng)用。

為了獲得更具沉浸感和更長(zhǎng)時(shí)間的游戲體驗(yàn),Arm 終端 CSS 實(shí)現(xiàn)了兩位數(shù)的性能和能效提升,其中包括在一系列熱門(mén)的手游中,平均以每秒 120 幀的速度運(yùn)行時(shí),在相同功耗下可帶來(lái) 37% 的平均性能提升,同時(shí) GPU 功耗降低 30%。

可擴(kuò)展的性能覆蓋各類(lèi)消費(fèi)電子設(shè)備市場(chǎng)

Arm 致力于讓每個(gè)人都能享有 AI,并通過(guò)可應(yīng)用在各類(lèi)和各種不同外觀設(shè)計(jì)的消費(fèi)電子設(shè)備的終端 CSS,不斷提升性能和效率。

Arm 終端 CSS 可擴(kuò)展應(yīng)用至市面上最高性能的消費(fèi)電子設(shè)備,包括新一代 AI PC。其中的 Cortex-X925 與 Cortex-X4 CPU 相比,其TOPS 提高 50%。終端 CSS 為 PC 市場(chǎng)提供專(zhuān)用的可擴(kuò)展平臺(tái)。該平臺(tái)采用 Cortex-X925 以提供一流的單線(xiàn)程性能,并通過(guò)近期更新的 DSU-120(在單個(gè) CPU 集群內(nèi)提供多達(dá) 14 個(gè) CPU 核心)提供最佳的性能可擴(kuò)展性。除了 SVE2,更多的 Armv9 架構(gòu)的功能,包括已在移動(dòng)端生態(tài)系統(tǒng)驗(yàn)證的安全性技術(shù),如指針驗(yàn)證 (PAC)、分支目標(biāo)識(shí)別 (BTI) 和內(nèi)存標(biāo)記擴(kuò)展 (MTE) 等,也將引入 PC 市場(chǎng)。

通過(guò)終端 CSS,Arm 可為消費(fèi)電子設(shè)備市場(chǎng)的各類(lèi)性能和成本需求提供可獲取的 AI 技術(shù)。Cortex-A725 是實(shí)現(xiàn)高能效 AI 吞吐量的主要處理器,在對(duì)成本更敏感的大眾消費(fèi)電子技術(shù)市場(chǎng)領(lǐng)域,它是 AI 處理的主力和主要開(kāi)發(fā)者目標(biāo)。例如,我們?cè)谝粋€(gè)虛擬助手演示中,展示了在搭載三核 Cortex-A700 系列 CPU 核心的現(xiàn)有安卓智能手機(jī)上,運(yùn)行 Llama2-7B 和 Phi-3-mini (Phi-3 3.8B) LLM 的性能。與此同時(shí),面積經(jīng)優(yōu)化的 Cortex-A725 可在廣泛的消費(fèi)電子技術(shù)領(lǐng)域中,以高面積效率實(shí)現(xiàn)生成式 AI 工作負(fù)載的部署。

消費(fèi)電子技術(shù)的AI根基

Arm終端CSS是為各類(lèi)消費(fèi)電子設(shè)備打造新一代 AI 體驗(yàn)的專(zhuān)用平臺(tái)。終端 CSS 是 Arm 針對(duì)安卓系統(tǒng)速度最快的計(jì)算平臺(tái),這將使得用戶(hù)能夠在其移動(dòng)設(shè)備上獲得前所未有的安卓體驗(yàn)。該平臺(tái)的 PPA 優(yōu)勢(shì)通過(guò)物理實(shí)現(xiàn)得以達(dá)成,助力我們的芯片合作伙伴縮短產(chǎn)品上市時(shí)間并順暢部署。終端 CSS 的可擴(kuò)展性能有助于在各種類(lèi)型、不同外觀設(shè)計(jì)的設(shè)備的所有成本點(diǎn)上釋放 AI 性能,使得人人都能享有 AI。

1718272035715535.png

Arm 終端 CSS 使得我們的生態(tài)系統(tǒng)能夠?qū)崿F(xiàn)更多突破,無(wú)論是釋放更多性能、實(shí)現(xiàn)更多 AI 功能和應(yīng)用體驗(yàn),還是打造更先進(jìn)的芯片,Arm 平臺(tái)是這一切的基礎(chǔ)。憑借終端 CSS,Arm 為當(dāng)前和未來(lái)的 AI 體驗(yàn)構(gòu)建消費(fèi)電子計(jì)算的未來(lái)。



評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉