博客專欄

EEPW首頁(yè) > 博客 > ARM 2023全面運(yùn)算解決方案與新一代GPU架構(gòu) 推動(dòng)移動(dòng)運(yùn)算視覺(jué)體驗(yàn)升級(jí)

ARM 2023全面運(yùn)算解決方案與新一代GPU架構(gòu) 推動(dòng)移動(dòng)運(yùn)算視覺(jué)體驗(yàn)升級(jí)

發(fā)布人:12345zhi 時(shí)間:2023-06-25 來(lái)源:工程師 發(fā)布文章

由左到右分別為:ARM終端產(chǎn)品事業(yè)部產(chǎn)品管理總監(jiān)Andy Craigen、ARM資深副總裁暨終端產(chǎn)品事業(yè)部總經(jīng)理Chris Bergey、ARM CPU產(chǎn)品管理資深總監(jiān)Stefan Rosinger。ARM

由左到右分別為:ARM終端產(chǎn)品事業(yè)部產(chǎn)品管理總監(jiān)Andy Craigen、ARM資深副總裁暨終端產(chǎn)品事業(yè)部總經(jīng)理Chris Bergey、ARM CPU產(chǎn)品管理資深總監(jiān)Stefan Rosinger。ARM

隨著智能手機(jī)已成為串流媒體的主要裝置,加上包括AR、3D手游、以及愈來(lái)愈多生成式AI智能技術(shù)的興起,消費(fèi)者對(duì)沉浸式體驗(yàn)的追求為移動(dòng)運(yùn)算平臺(tái)催生了比以往更高、更復(fù)雜的運(yùn)算需求。為了滿足各式應(yīng)用需求,ARM日前推出2023全面運(yùn)算解決方案(TCS23),藉由效能與效率的進(jìn)一步提升,再度突破了ARM運(yùn)算平臺(tái)的能力極限。

全面運(yùn)算解決方案(Total  Compute  Solutions;TCS)是ARM專為適用于移動(dòng)設(shè)備的SoC設(shè)計(jì)打造的系統(tǒng)級(jí)解決方案,其中涵蓋了CPU、GPU硬件IP、互連與系統(tǒng)IP技術(shù),以及軟件和開(kāi)發(fā)工具等。在新發(fā)布的2023全面運(yùn)算解決方案(TCS23)  中,最主要的亮點(diǎn)包括:推出基于全新第五代GPU架構(gòu)的旗艦級(jí)Immortalis-G720 GPU、效能最強(qiáng)大的ARMv9  Cortex運(yùn)算叢集系統(tǒng),以及增強(qiáng)的系統(tǒng)最佳化技術(shù),將持續(xù)驅(qū)動(dòng)移動(dòng)設(shè)備的創(chuàng)新應(yīng)用。

TCS23是ARM專為適用于移動(dòng)設(shè)備SoC設(shè)計(jì)打造的系統(tǒng)級(jí)解決方案。ARM

TCS23是ARM專為適用于移動(dòng)設(shè)備SoC設(shè)計(jì)打造的系統(tǒng)級(jí)解決方案。ARM

Cortex-X4可提供比Coretex-X3更佳的效能與效率。。ARM

Cortex-X4可提供比Coretex-X3更佳的效能與效率。。ARM

DSU--120新增了不同的電源模式,可進(jìn)一步降低漏電流。。ARM

DSU--120新增了不同的電源模式,可進(jìn)一步降低漏電流。。ARM

推升數(shù)碼體驗(yàn) GPU扮演日益重要的角色

ARM專注于GPU開(kāi)發(fā)已有多年時(shí)間,從現(xiàn)今已被廣泛運(yùn)用的Mali GPU,到2022年首度推出支持硬件光線追蹤技術(shù)的Immortalis-G715旗艦級(jí)GPU,把移動(dòng)GPU的效能推升到新的層次。

ARM資深副總裁暨終端產(chǎn)品事業(yè)部總經(jīng)理Chris Bergey表示,對(duì)手機(jī)設(shè)計(jì)來(lái)說(shuō),GPU扮演著日益關(guān)鍵的角色,不管是提供出色的視覺(jué)體驗(yàn)與提升機(jī)器學(xué)習(xí)(ML) 運(yùn)算,都需要更兼具效能與效率的GPU。

ARM終端產(chǎn)品事業(yè)部產(chǎn)品管理總監(jiān)Andy   Craigen補(bǔ)充說(shuō),提升繪圖效能對(duì)手機(jī)設(shè)計(jì)非常重要,ARM已投入大量資源建構(gòu)繪圖平臺(tái)。大家都知道繪圖功能非常耗能,即使對(duì)桌上型電腦和游戲機(jī)來(lái)說(shuō)也是如此。所以,ARM的重要任務(wù)是要吸引開(kāi)發(fā)社群,讓他們相信在手機(jī)上也能實(shí)現(xiàn)近似在復(fù)雜的PC上的視覺(jué)體驗(yàn),進(jìn)而愿意將其游戲移植至Android移動(dòng)繪圖平臺(tái)。

把光線追蹤技術(shù)導(dǎo)入移動(dòng)設(shè)備

Chris Bergey指出,自2022年推出Immortalis-G715以來(lái),不管在效能、功耗、面積(PPA)各方面都獲得了業(yè)界的正面回響,開(kāi)發(fā)社群對(duì)于光線追蹤技術(shù)在手機(jī)上的應(yīng)用也展現(xiàn)出高度興趣。

要在手機(jī)上實(shí)現(xiàn)真實(shí)3D影像,如何兼顧效能與功耗需求是一大挑戰(zhàn)。Andy   Craigen表示,「由于把PC用的光線追蹤技術(shù)直接搬到移動(dòng)平臺(tái)上不可行,因此ARM花了很多時(shí)間分析光線追蹤技術(shù),了解那些功能可帶來(lái)最佳效果,并滿足手機(jī)的功耗與芯片面積要求。從2022年首度推出Immortalis-G715以來(lái),我們就展開(kāi)這個(gè)過(guò)程,也將會(huì)持續(xù)發(fā)展。」

在2023年初舉行的GDC大會(huì)上,ARM與聯(lián)發(fā)科技、騰訊游戲共同展示了應(yīng)用光線追蹤技術(shù)的解決方案。此外,ARM亦積極推動(dòng)生態(tài)系統(tǒng)對(duì)此技術(shù)的了解,協(xié)助他們利用各種資源來(lái)開(kāi)發(fā)游戲,包括Unity等游戲引擎的支持就緒,及其免費(fèi)提供的ARM  Mobile Studio開(kāi)發(fā)工具。

為了展示如何建構(gòu)光線追蹤技術(shù),ARM臺(tái)灣團(tuán)隊(duì)也嘗試自行開(kāi)發(fā)游戲?!肝覀兿M璐苏宫F(xiàn)出Immortalis平臺(tái)支持3D繪圖的可行性與出色的視覺(jué)效果,以及如何能在手機(jī)的功耗預(yù)算內(nèi)實(shí)現(xiàn)」,Chris Bergey說(shuō)。

推出全新第五代ARM GPU架構(gòu)

為了進(jìn)一步推升GPU效能,實(shí)現(xiàn)更加沉浸的視覺(jué)體驗(yàn),ARM日前宣布推出第五代GPU架構(gòu),以及基于此架構(gòu)的全新Immortalis-G720。這是  ARM 歷來(lái)效能與效率最高的GPU,與前一代產(chǎn)品相比,效能與效率提升了 15%,而面積僅增加2%,同時(shí)存儲(chǔ)器帶寬使用量更大幅降低了40%。

第五代GPU架構(gòu)的主要特點(diǎn)是導(dǎo)入了延遲頂點(diǎn)著色技術(shù) (Deferred Vertex Shading;DVS),透過(guò)重新定義GPU中的數(shù)據(jù)流,擴(kuò)展GPU核心數(shù)量,最高可達(dá)16顆核心,以實(shí)現(xiàn)更高效能。

Chris   Bergey解釋說(shuō),存儲(chǔ)器存取與數(shù)據(jù)移動(dòng)是影響GPU耗能的主要原因。移動(dòng)繪圖平臺(tái)與桌上型電腦的根本差異是在帶寬使用效率。因此,藉由導(dǎo)入DVS技術(shù),能顯著降低帶寬使用以及對(duì)外部DRAM的存取,提高每秒顯示畫面張數(shù)(幀率),使手機(jī)也能支持更復(fù)雜的繪圖工作負(fù)載。

「游戲只是第五代GPU架構(gòu)的其中一個(gè)應(yīng)用市場(chǎng),3D視覺(jué)還可為移動(dòng)設(shè)備帶來(lái)更多的應(yīng)用商機(jī),像是AR、電腦輔助繪圖(CAD)設(shè)計(jì)等。」

推動(dòng)AI與機(jī)器學(xué)習(xí)應(yīng)用于智能手機(jī)上

GPU效能的提升對(duì)于增強(qiáng)手機(jī)的AI處理能力也至關(guān)重要。Chris   Bergey表示,對(duì)移動(dòng)設(shè)備來(lái)說(shuō),ARM透過(guò)TCS23提供強(qiáng)大、必要的基本運(yùn)算架構(gòu),而客戶能自行在其SoC中針對(duì)NPU進(jìn)行差異化設(shè)計(jì)。而ARM也會(huì)透過(guò)與夥伴緊密的合作關(guān)系,持續(xù)提供相關(guān)的支持。

他強(qiáng)調(diào),AI需求透過(guò)異質(zhì)運(yùn)算來(lái)提高運(yùn)算效能,其中涉及了ML任務(wù)、推論任務(wù)、功耗敏感任務(wù)等不同的運(yùn)算需求。其設(shè)計(jì)挑戰(zhàn)在于,需協(xié)助開(kāi)發(fā)人員對(duì)AI進(jìn)行最佳的編程,利用最適切的處理器來(lái)執(zhí)行特定任務(wù)。對(duì)ARM來(lái)說(shuō),不只是硬件架構(gòu)的提升與就緒,也需要提供豐富的軟件、應(yīng)用程序支持,并協(xié)助客戶最具效率地把AI編程在通用ARM移動(dòng)運(yùn)算平臺(tái)上,才能真正解決問(wèn)題。

隨著近來(lái)生成式AI等全新的智能應(yīng)用快速興起,ARM亦積極推升手機(jī)的AI處理能力,每?jī)赡暝黾右槐?。此外,透過(guò)其開(kāi)源軟件程序庫(kù),不斷提升ARM  IP的機(jī)器學(xué)習(xí)能力,以便支持開(kāi)發(fā)人員充分運(yùn)用AI與ML工作負(fù)載的優(yōu)勢(shì)。Android平臺(tái)的Google應(yīng)用程序已在使用ARM NN與ARM  Compute Library,目前擁有超過(guò)一億的每日活躍用戶,讓開(kāi)發(fā)人員得以運(yùn)用ARMv9 Cortex-A CPU與ARM  GPU,將其在ML工作負(fù)載的執(zhí)行最佳化。

兼顧效能與效率的Cortex-X4核心

在CPU方面,ARM推出第四代Cortex-X   核心Cortex-X4,這是ARM歷來(lái)速度最快的CPU,與Cortex-X3相比,效能提高了15%,同時(shí),在相同的制程下,與Cortex-X3相比,全新的省電微架構(gòu)可降低功耗達(dá)40%,而面積僅增加10%,是Cortex-X系列中每毫米效能最高的。

ARM  CPU產(chǎn)品管理資深總監(jiān)Stefan  Rosinger表示,從圖中可以看出,Cortex-X4與Cortex-X3的功耗對(duì)應(yīng)效能曲線,明顯地向右移動(dòng)。這意味著,在相同的效能下,Cortex-X4可比Cortex-X3帶來(lái)顯著的功耗減省?;蚴菗Q句話說(shuō),在相同的功耗下,可提供更高的效能。

「Cortex-X系列核心雖然是基于『效能優(yōu)先   』(performance-first)』的理念來(lái)設(shè)計(jì)的,但對(duì)手機(jī)有限的功率預(yù)算來(lái)說(shuō),推升效能的同時(shí),仍須兼顧效率,才能為客戶帶來(lái)真正的價(jià)值。不只功耗,Cortex-X4也提升了面積效率,所以能以相同的面積,提供更高的效能,這是Cortex-X4核心設(shè)計(jì)上的重要考量?!?/p>

Chris   Bergey補(bǔ)充說(shuō),手機(jī)有一定的功率預(yù)算,因此必須在兼顧功耗的情況下,來(lái)推升效能。藉由高效率的Cortex-X4,客戶能夠把相同功耗下帶來(lái)的效能增益,運(yùn)用在AI等其他的更多運(yùn)算上。另外,此曲線是在iso-process同頻比較條件下的結(jié)果,若采用N4或N3制程,取得的效率將更顯著。

此外,Cortex-X4可支持2MB的L2快取,最多可擴(kuò)展至14個(gè)核心叢集,以及32MB的L3快取,可提供絕佳效能與多種彈性配置來(lái)滿足客戶不同應(yīng)用市場(chǎng)的需求。除了旗艦級(jí)智能手機(jī)之外,更高的效能與效率也將能幫助Windows-on-ARM筆記本電腦市場(chǎng)的進(jìn)一步擴(kuò)展。

系統(tǒng)最佳化技術(shù)實(shí)現(xiàn)強(qiáng)大的運(yùn)算叢集系統(tǒng)

除了推出新款CPU與GPU之外,TCS23的另一個(gè)重點(diǎn)是提供增強(qiáng)的系統(tǒng)最佳化技術(shù),以提升整體效能。

Chris   Bergey表示,開(kāi)發(fā)GPU時(shí),ARM也把CPU以及系統(tǒng)的運(yùn)作效能納入考慮。以新推出的Immortalis-G720為例,可與CPU共同使用最高達(dá)32MB的系統(tǒng)級(jí)快取,根據(jù)工作負(fù)載來(lái)進(jìn)行最佳配置。目的是使數(shù)據(jù)都在局部取得,僅量不使用外部DRAM,以降低GPU功耗。

在CPU叢集方面,ARM已將其 DSU(DynamIQ Shared Unit)升級(jí)至DSU-120。除了上面提到的14核心擴(kuò)展性與32MB系統(tǒng)快取之外,另一個(gè)重點(diǎn)是可提供更多不同的電源模式。

Stefan   Rosinger表示,在手機(jī)中,會(huì)有Cortex-X、Cortex-A不同的核心,因此可根據(jù)不同的工作負(fù)載,開(kāi)啟或關(guān)閉特定核心的電源。若以核心電源全開(kāi)啟為基準(zhǔn),可以看到不同使用情境下,電源節(jié)省的效益。DSU-120新增的電源模式,可以有效節(jié)省芯片的漏電流。

「由于SRAM的微縮腳步跟不上邏輯元件,盡管為了提升效能我們?cè)黾恿薒3快取的容量,但相對(duì)的,對(duì)功耗也帶來(lái)的新的要求。因此,漏電流的節(jié)省也成為不可忽視的議題?!?/p>

展望未來(lái) 邁向異質(zhì)整合時(shí)代

在未來(lái)幾年內(nèi),ARM將繼續(xù)開(kāi)發(fā)下一代包括Krake GPU和Blackhawk CPU等關(guān)鍵IP,以滿足合作夥伴對(duì)于運(yùn)算與繪圖效能不斷成長(zhǎng)的要求。

然而,隨著芯片即將面臨2納米制程的微縮極限,朝向3D堆疊與先進(jìn)封裝技術(shù)來(lái)延續(xù)半導(dǎo)體技術(shù)發(fā)展,已成必然趨勢(shì)。對(duì)于針對(duì)SoC設(shè)計(jì)者提供IP的ARM來(lái)說(shuō),會(huì)帶來(lái)那些影響與轉(zhuǎn)變呢?

Chris   Bergey表示,當(dāng)制程微縮趨近極限時(shí),必須對(duì)效能、功耗與面積的權(quán)衡有更仔細(xì)的考量,才能順應(yīng)制程推進(jìn),協(xié)助客戶取得最大效益。隨著半導(dǎo)體產(chǎn)業(yè)進(jìn)入3D堆疊與先進(jìn)封裝技術(shù)時(shí)代,就要以系統(tǒng)角度來(lái)思考并區(qū)隔設(shè)計(jì),為客戶提供最佳的解決方案,例如把SRAM停留在成熟制程,運(yùn)算核心采用先進(jìn)制程等。在這過(guò)程中,與臺(tái)積電的密切配合至關(guān)重要。藉由深入了解他們的制程技術(shù),才能就此開(kāi)發(fā)出更適切的解決方案。

他指出,采用異質(zhì)整合的先進(jìn)封裝元件未來(lái)也將進(jìn)入移動(dòng)市場(chǎng)。ARM將順應(yīng)此趨勢(shì),持續(xù)在「超越摩爾定律(More than Moore)」時(shí)代勝出。市場(chǎng)對(duì)于運(yùn)算的需求時(shí)無(wú)止境的,而以ARM為基礎(chǔ)的未來(lái)仍將充滿無(wú)限可能性!

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: ARM GPU

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉