AWS Graviton4 助力加速全 Arm 架構的基礎設施時代
作者: Arm 工程部設計服務總監(jiān) Tim Thornton
本文引用地址:http://2s4d.com/article/202409/462645.htm自 2019 年基于 Arm Neoverse N1 核心的 AWS Graviton2 推出以來,Arm 攜手合作伙伴持續(xù)提升基于 Arm 架構的設計性能。如今,AWS Graviton 處理器已發(fā)展到了第四代,在 AWS Graviton4 全面上市之際,我們也一起來回顧一下過去幾年所取得的進展。
在 Arm,芯片設計流程的一個關鍵階段是 RTL 仿真。在此過程中,驗證工程師采用以 Verilog 表達的設計,并使用如西門子的 Questa 高級仿真器或 Cadence 的 Xcelium 等 RTL 仿真器來展示設計的功能。通過定義特定輸入時的預期輸出,可以使用 RTL 仿真器來驗證設計是否達到預期性能。這對于確保高質量的產品至關重要,但這一過程對算力資源的消耗極高。自 Graviton2 問世以來的數年中,我們逐步將仿真任務遷移到基于 Arm 架構的計算平臺上,目前我們有超過半數的 RTL 仿真工作是在基于 AWS Graviton 的 Amazon EC2 實例上執(zhí)行的。
Graviton2 能夠提供優(yōu)于 x86 架構的性能。該平臺發(fā)布時,基于 Intel Xeon 的 M5 實例是當時 EC2 現有實例中最新式的類型。與 M5 相比,基于 Graviton2 的 M6g 實例性能提高了 20%,每個虛擬 CPU (vCPU) 的小時成本降低了 20%,相當于能以六成的成本達到相同的仿真結果。
在 Arm,我們的回歸仿真通常在夜間運行,并包含大量的獨立測試。對于這些測試來說,原始性能并非關鍵,它們更注重吞吐量,因此要啟用 SMT 運行。我們的工程師也會在白天進行一些仿真,在這種情況下,則需要更快的周轉時間。
接下來的 AWS Graviton3 采用了 Neoverse V1 核心,取決于具體的工作負載,其性能比 Graviton2 提高了 20% 至 30%。這使得 Graviton3 vCPU(一個 Neoverse V1 核心)的性能達到了與傳統(tǒng)基于 x86 架構核心相當的水平。因此,我們考慮將 Graviton 用于對性能敏感的仿真工作中,這些工作在過往是需要使用禁用 SMT 的非 Graviton 實例。
圖 1:使用西門子 Questa 高級仿真器時,
各代 AWS Graviton 所達到的 RTL 仿真性能
Graviton4 的推出使得一系列新的 EDA 應用能夠在 Arm 平臺上運行,不僅為這些應用提供了基礎支持,更成為各類 EDA 工作負載的理想平臺。
每一代 Graviton 相較于上一代產品,性能和性價比都有顯著提升。就每個 vCPU 而言,Graviton4 的速度幾乎是 Graviton2 的兩倍;與基于 Graviton 的前幾代實例相比,Graviton4 可支持擁有多達三倍 vCPU 的實例,從而大幅提高了每個實例的最大容量。盡管性能有了顯著提升,但與 Graviton3 相比,每小時費用僅增加了不到 10%。按吞吐量衡量,Graviton4 是極具性價比的 AWS 實例類型。
圖 2:使用西門子 Questa 高級仿真器時,
各代 AWS Graviton 的 RTL 仿真成本
AWS Graviton4 現已正式推出,驅動著 Amazon EC2 R8g 實例,并兼容前幾代基于 Graviton 的實例版本。Arm 也將持續(xù)擴展基于 Graviton 實例的應用范圍,以推動基于 Arm 架構的新一代處理器設計,并一如既往地實現出色的性能提升。
評論