博客專欄

EEPW首頁 > 博客 > Tenstorrent推出基于RISC-V架構的高性能AI芯片

Tenstorrent推出基于RISC-V架構的高性能AI芯片

發(fā)布人:芯智訊 時間:2024-08-26 來源:工程師 發(fā)布文章

7月20日消息,由傳奇芯片架構師Jim Keller領導的AI芯片新創(chuàng)公司Tenstorrent近日通過官網(wǎng)宣布,推出新一代基于RISC-V架構的高性能AI芯片Wormhole n150,以及基于該芯片的PCIe卡Wormhole n300和面向軟件開發(fā)人員的 TT-LoudBox 和 TT-QuietBox 工作站。

Tenstorrent 首席執(zhí)行官 Jim Keller 表示:“將更多產品交到開發(fā)人員手中總是有益的。使用我們的 Wormhole 卡發(fā)布開發(fā)系統(tǒng)有助于開發(fā)人員擴大規(guī)模并開發(fā)多芯片 AI 軟件。除了這次發(fā)布之外,我們很高興我們的第二代 Blackhole 的流片和通電進展非常順利?!?/p>

據(jù)介紹,Wormhole n150采用 Tenstorrent 自研的靈活、可擴展的Wormhole Tensix 人工智能計算內核,擁有72核心和 108 MB SRAM,主頻為1GHz,運行功率高達 160W,可以提供262 TeraFLOPs (FP8)的算力。單****配備了 12 GB GDDR6 內存,帶寬為 288 GB/s。

image.png

需要指出的是,Tenstorrent 的每一個Tensix 人工智能計算內核內部都集成了 5 個支持各種數(shù)據(jù)格式的基于 RISC-V 架構的微處理器。

image.png

Tenstorrent稱,與傳統(tǒng) GPU 相比,Wormhole n150提供卓越的性價比和廣泛的數(shù)據(jù)精度格式支持。同時,還可以聯(lián)網(wǎng)成工作站和服務器的多芯片網(wǎng)格,并由兩個開源SDK支持,用于高級(TT-Buda)或低級(TT-Metalium)開發(fā),還包括主動冷卻套件。

image.png

Wormhole n300 就是由兩顆Wormhole n150芯片組成的PCIe加速卡,擁有128 個Wormhole Tensix 核心,主頻1GHz,192 MB SRAM,以及板載24 GB GDDR6,頻率為 576 GB/s,可以在300W 下提供高達 466 FP8 TFLOPS的算力。軟件配套方面與Wormhole n150s一致。

Tenstorrent 還推出了新的工作站,包括 TT-QuietBox和TT-LoudBox。

TT-QuietBox 是一款液冷桌面工作站,是面向運行或測試 AI 模型的開發(fā)人員的絕佳解決方案,或者是為 HPC 移植和開發(fā)庫的絕佳解決方案。TT-QuietBox 配備了AMD 的 EPYC 處理器和四張Wormhole n300加速卡,總共有 8 個 Wormhole Tensix 處理器。這些處理器通過靈活的、基于以太網(wǎng)的網(wǎng)狀拓撲連接,該拓撲可以擴展以實現(xiàn) 96GB 內存池。這使得TT-QuietBox能夠運行多達約800億個參數(shù)的單用戶/單模型和多達約200億個參數(shù)的單用戶/多用戶、多個模型。TT-QuietBox 也由兩個開源 SDK 支持,用于高級 (TT-Buda) 或低級 (TT-Metalium) 開發(fā)。

image.png

TT-LoudBox 主要為希望運行、測試和開發(fā) AI 模型或移植和開發(fā) HPC 庫的開發(fā)人員提供卓越的性價比的解決方案。其配備了英特爾的Xeon處理器,和備四張Wormhole n300加速卡,總共有 8 個 Wormhole Tensix 處理器,這種基于以太網(wǎng)的靈活網(wǎng)狀拓撲結構可以擴展以實現(xiàn) 96GB 內存池。這使得TT-LoudBox能夠運行多達約800億個參數(shù)的單用戶/單模型和多達約200億個參數(shù)的單用戶/多用戶、多個模型。TT-LoudBox 也由兩個開源 SDK 支持,用于高級 (TT-Buda) 或低級 (TT-Metalium) 開發(fā)。

image.png

定價方面,Tenstorrent 的 Wormhole n150 零售價為 999 美元,Wormhole n150零售價為1,399 美元,這個價格要比市場競爭對手的產品的便宜得多。TT-LoudBox 工作站零售價為 6,000 美元,而 TT-QuietBox 工作站的零售價為 15,000 美元。

小結:

從上面的介紹當中,我們可以看到,雖然Tenstorrent的Wormhole n150芯片的算力并不高,與英偉達、AMD、英特爾的AI芯片仍有一定差距。作為對比,英偉達的H100在300W功率時其FP8的性能高達 1,670 TFLOPS(稀疏時為 3,341 TFLOPS),遠高于160W功率下的Wormhole n150(262 TeraFLOPs ),也高于300W 功率下的Wormhole n300加速卡的算力(466 FP8 TFLOPS)。

雖然從紙面上看,Wormhole 系列AI芯片及加速卡性能不高,但 Tenstorrent 計劃通過提供巨大的可擴展性來使其 AI 產品具有競爭力。這意味著當需要統(tǒng)一電源時,多個Wormhole 處理器可以作為一個單元運行,或者它們也可以單獨使用,這一切都是因為使用了以太網(wǎng)互連,這是也是Jim Keller高度贊賞的。也就是說,要達到類似英偉達H100的算力,可能需要4張Wormhole n300加速卡互聯(lián)就可以辦到。

并且,在價格方面,一張英偉達H100 加速卡的零售價高達 30,000 美元,而Wormhole n150的零售價僅為 999 美元,4張Wormhole n300加速卡的零售價也只有不到4000美元,僅為H100的約1/8。

Jim Keller此前也曾批評英偉達等公司的人工智能芯片昂貴,顯然Tenstorrent正是希望提供更具性價比的解決方案。

而Wormhole AI芯片之所以能夠做到具備更高的性價比,一個關鍵原因是因為其并未像英偉達、AMD、英特爾的AI芯片那樣配備的大容量的HBM(高帶寬內存),這是這些AI芯片關鍵組件,但是其成本高昂,并且功耗較高。而Wormhole AI芯片則是與Groq的LPU芯片一樣,選擇采用了高帶寬的片上SRAM,雖然其容量與常見的AI芯片中動輒幾十GB、甚至上百GB容量的HBM差距巨大,但由于其直接是在集成在片內的,無需將數(shù)據(jù)從GPU到HBM來回搬運,數(shù)據(jù)處理速度更快、更高效、功耗也較低,綜合成本也更低。

Jim Keller認為,全新方式可讓Tenstorrent芯片在部分AI應用領域取代GPU及HBM。此外,Tenstorrent也會盡量提升產品成本效益。不過,Jim Keller也坦言想要動搖目前規(guī)模日益龐大的HBM產業(yè),恐怕需要花上數(shù)年時間。他預測,未來將有更多新興AI芯片公司進入英偉達目前還無法服務到的AI市場,但不是出現(xiàn)單獨一家完全取代英偉達的企業(yè)。

編輯:芯智訊-浪客劍


*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 芯片

相關推薦

技術專區(qū)

關閉