AWS推出下一代自研芯片

發(fā)布人：旺材芯片時間：2023-11-30 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

一年多來，我們一直期待Amazon Web Services在今年的re:Invent大會上為其本土服務器推出 Graviton4 處理器。正如預期，AWS首席執(zhí)行官Adam Selipsky推出了第四代 Graviton CPU系列，包括去年針對HPC工作負載的超頻Graviton3E處理器。

Selipsky在主題演講期間沒有強制舉起Graviton4 芯片，這很奇怪。但新聞稿中確實包含了一張芯片照片，如上面的特征圖片所示。

Graviton4 提高了各種工作負載的性價比和能效標準

正如我們所預料的那樣，Graviton4 也基于 Arm Ltd 的“Demeter”Neoverse V2 內核，該內核與 Nvidia 的“Grace”CG100 CPU 一樣基于 Armv9 架構。（Nvidia 官方并沒有給 Grace 一個與其 GPU 命名方案一致的產品名稱，所以我們就暫且這樣命名。C代表CPU，G代表Grace。）我們在2017年對Demeter V2核心進行了深入研究。9月份，Arm發(fā)布了“Genesis”計算子系統(tǒng)，與之前由AWS部署在Graviton3和Graviton3E處理器中使用的“Zeus”V1 內核相比，V2 內核的每時鐘指令數(shù)提高了13%。

顯然，這在 IPC中并不是一個大的跳躍，因為核心數(shù)量也在跳躍，這就是為什么我們還假設 AWS已經放棄了代工合作伙伴臺積電用于蝕刻 Graviton3 和 Graviton3E 芯片的5納米工藝，而是更密集且有些成熟的4納米工藝。同樣的4N工藝還用于制造 Nvidia 的 Grace CPU 及其“Hopper”GH100 GPU——這兩款產品都席卷了生成式 AI 世界。

Graviton4 封裝上有 96 個 V2 核心，比 Graviton3 和 Graviton3E 提升了 50%，而且與 8 個 DDR5 內存控制器相比，Graviton4 上有 12 個 DDR5 控制器，并且Graviton4使用的 DDR5內存速度頻率提升了16.7%，達到5.6 GHz。通過數(shù)學計算，Graviton4 每個插槽的內存帶寬為536.7 GB/秒，比之前的Graviton3和Graviton3E處理器提供的307.2 GB/秒高出 75%。

在 Selipsky 的演示以及 AWS 發(fā)布的有關 Graviton4 的有限規(guī)格中，該公司表示通用 Web 應用程序在 Graviton4 上的運行速度比在 Graviton3 上快 30%（不是 Graviton3E，它超頻且很熱），但數(shù)據(jù)庫的運行速度將提高 40%，大型 Java 應用程序的運行速度將提高 45%。現(xiàn)在，這可能意味著AWS已經在V2核心中實現(xiàn)了同步多線程 (SMT)，為每個核心提供兩個線程，就像英特爾和 AMD 的 X86 處理器以及一些 Arm 芯片過去所做的那樣。

我們不這么認為，下面的比較顯著特征表顯示每個套接字有 96 個線程，而不是 192 個線程。我們認為每個套接字有 96 個線程，并且每個核心的二級緩存加倍至2MB對Java和數(shù)據(jù)庫應用程序的性能產生了巨大的影響。您可以通過添加雙向SMT獲得3倍的vCPU，但這不會為您提供3倍的內存。與 Graviton3 芯片相比，它的內存仍然只有 1.5 倍。

AWS 在其博客中提到的有關使用 Graviton4 芯片的新 R8g 實例的其他內容也讓我們猶豫不決：“R8g 實例提供了更大的實例大小，比當前一代 R7g 實例多出 3 倍的 vCPU 和 3 倍的內存。”

R8g 擁有 96 個核心和十幾個內存控制器（均比 Graviton3 提升了 1.5 倍），您只會期望 R8g 的 vCPU 數(shù)量是使用 Graviton3 芯片的 R7g 實例的 1.5 倍，而內存容量僅是使用 Graviton3 芯片的 R7g 實例的 1.5 倍。因此，我們認為這是 Graviton 系列的第一個雙插槽實現(xiàn)。這也是我們認為 Graviton4 芯片擁有大約 9500 萬到 1 億個晶體管的原因之一，而不是您預期的 8250 萬個晶體管（如果 AWS 只是在 Graviton3 設計中添加 50% 的核心并保持不變）。我們認為，L2 緩存加倍、增加四個 DDR5 內存控制器以及一對現(xiàn)在也進行線速加密的 I/O 控制器也增加了晶體管預算。

Graviton4在另一個方面也值得注意。過去，Neoverse模塊以32核或64核模塊完成，Arm建議使用具有UCI-Express或CCIX互連的小芯片來構建更大的處理器復合體。制作自己的 Arm CPU設計的公司總是可以實現(xiàn)單片芯片，出于延遲和功耗的原因，您會這樣做。這些互連不是免費的，尤其是具有 96 個內核的芯片，其產量會比 32 個內核或 64 核心低得多。這也是有代價的。

因此，從上面的芯片照片來看，我們認為 Graviton4 是一個雙小芯片封裝，其中一個小芯片與另一個小芯片旋轉了 180 度。這可能就是為什么封裝上中央核心復合體左側和右側的存儲控制器小芯片彼此偏移的原因。

我們認為 Graviton4 與前幾代芯片的比較如下：

誠然猜測，我們認為 Graviton4 的性能比 Graviton3E 稍差，但達到該目標所需的功耗卻低了近一半，并且內存容量高出 50%，帶寬高出 75%，功耗大約為 130 瓦。功率包絡具有更低且更理想的 2.7 GHz 時鐘速度。

根據(jù)我們估計的這些數(shù)字（粗體紅色斜體顯示），Graviton4 芯片的每瓦性能（按 ECU 性能單位測量）與 Graviton3 大致相同，這幾乎是您在工藝適度縮減的情況下所希望的一切。

隨著更多細節(jié)的出現(xiàn)，我們將更新這個故事。

還有一件事：AWS 在其公告中表示（但 Selipsky 并沒有在他的主題演講中吹噓），迄今為止，它已在其機群中部署了超過 200 萬個 Graviton 處理器，并擁有超過 50,000 個客戶使用過它們。

這是一個非?？捎^的 CPU 數(shù)量，如果 AWS 沒有開始內部生產 Graviton，這些芯片將全部來自 Intel、AMD，甚至可能來自 Ampere Computing。但他們沒有。這就是為什么將您的業(yè)務計劃固定給超大規(guī)模提供商和云構建商是一個冒險的提議。

Trainum2旨在云中提供最高性能、最節(jié)能的AI模型訓練基礎設施

此外，AWS還在大會上推出了由 AWS 設計的AWS Trainium2 芯片系列。

Graviton4 和 Trainium2 標志著 AWS 芯片設計的最新創(chuàng)新。隨著每一代芯片的推出，AWS 都提供了更好的性價比和能效，除了采用 AMD、Intel 和 NVIDIA 等第三方最新芯片的芯片/實例組合之外，還為客戶提供了更多選擇，以運行幾乎任何應用程序或Amazon Elastic Compute Cloud (Amazon EC2) 上的工作負載。

據(jù)了解，Trainium2 的設計速度比第一代 Trainium 芯片快 4 倍，并且能夠部署在多達 100,000 個芯片的 EC2 UltraCluster 中，從而可以在一個簡單的環(huán)境中訓練基礎模型 (FM) 和大型語言模型 (LLM)。時間的一小部分，同時將能源效率提高了 2 倍。

AWS 計算和網(wǎng)絡副總裁 David Brown 表示：“硅支撐著每個客戶工作負載，使其成為 AWS 創(chuàng)新的關鍵領域。” “通過將我們的芯片設計重點放在對客戶重要的實際工作負載上，我們能夠為他們提供最先進的云基礎設施。Graviton4 標志著我們在短短五年內推出的第四代芯片，是我們?yōu)楦鞣N工作負載打造的最強大、最節(jié)能的芯片。隨著人們對生成式 AI 興趣的高漲，Tranium2 將幫助客戶以更低的成本和更高的能源效率更快地訓練他們的 ML 模型?！?/p>

當今新興的生成式人工智能應用背后的 FM 和 LLM 接受過海量數(shù)據(jù)集的培訓。這些模型使客戶能夠通過創(chuàng)建各種新內容（包括文本、音頻、圖像、視頻甚至軟件代碼）來完全重新想象用戶體驗。當今最先進的 FM 和 LLM 的參數(shù)范圍從數(shù)千億到數(shù)萬億不等，需要可靠的高性能計算能力，能夠擴展到數(shù)萬個機器學習芯片。AWS 已經提供了最廣泛、最深入的采用 ML 芯片的 Amazon EC2 實例選擇，包括最新的 NVIDIA GPU、Trainium 和 Inferentia2。如今，包括 Databricks、Helixon、Money Forward 和 Amazon Search 團隊在內的客戶使用 Trainium 來訓練大規(guī)模深度學習模型，充分利用 Trainium 的高性能、規(guī)模、可靠性和低成本。但即使擁有當今最快的加速實例，客戶也希望獲得更高的性能和規(guī)模，以便以更低的成本更快地訓練這些日益復雜的模型，同時減少他們使用的能源量。

Trainium2 芯片專為 FM 和 LLM 的高性能訓練而設計，參數(shù)高達數(shù)萬億個。與第一代 Trainium 芯片相比，Trainium2 的訓練性能提高了 4 倍，內存容量提高了 3 倍，同時能效（性能/瓦特）提高了 2 倍。Trainium2 將在 Amazon EC2 Trn2 實例中提供，單個實例中包含 16 個 Trainium 芯片。Trn2 實例旨在使客戶能夠在下一代 EC2 UltraCluster 中擴展多達 100,000 個 Trainium2 芯片，與 AWS Elastic Fabric Adapter (EFA) 拍級網(wǎng)絡互連，提供高達 65 exaflops 的計算能力，并為客戶提供對超級計算機的按需訪問一流的性能。憑借這種規(guī)模，客戶可以在數(shù)周而不是數(shù)月內培訓 3000 億個參數(shù)的 LLM。通過以顯著降低的成本提供最高的橫向擴展 ML 訓練性能，Trn2 實例可以幫助客戶解鎖并加速生成 AI 的下一波進步。

一家人工智能安全和研究公司Anthropic表示，“我們正在與 AWS 密切合作，使用 Trainium 芯片開發(fā)未來的基礎模型。Trainium2 將幫助我們大規(guī)模構建和訓練模型，對于我們的一些關鍵工作負載，我們預計它的速度至少比第一代 Trainium 芯片快 4 倍。我們與 AWS 的合作將幫助各種規(guī)模的組織釋放新的可能性，因為他們將 Anthropic 最先進的人工智能系統(tǒng)與 AWS 安全、可靠的云技術結合使用。”

來源：EETOP

--End--

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

AWS推出下一代自研芯片

相關推薦

技術專區(qū)