NVIDIA GeForce RTX5090與RTX4090 — 新halo GPU對(duì)比
Blackwell RTX 50 系列 GPU 標(biāo)志著自 2022 年底推出 RTX 40 系列 Ada Lovelace GPU 以來(lái)長(zhǎng)達(dá)兩年多的等待結(jié)束。NVIDIA在 CES主題演講期間宣布了即將推出的 GeForce RTX 2025 系列顯卡,提供了規(guī)格、定價(jià),甚至性能預(yù)覽。作為新的 halo 部件,RTX 5090 取代了 RTX 4090,擁有更多的內(nèi)存、更多的計(jì)算、更多的功能和更多的功能。它尚未上市,但在卡片開(kāi)始銷售之前,有很多事情值得剖析。
本文引用地址:http://2s4d.com/article/202501/466160.htmRTX 5090 到貨時(shí)會(huì)成為最好的顯卡之一嗎?如果 “最好 ”是指 “最快 ”,那么是的,毫無(wú)疑問(wèn)它將超越它的前身。它會(huì)快兩倍嗎?也許取決于你想要如何測(cè)量性能,但這會(huì)讓人們非常信任與傳統(tǒng)渲染不同的 AI 技術(shù)。讓我們深入研究我們所知道的規(guī)格和功能,以討論 GPU 世界的新舊之王如何評(píng)估。
讓我們先談?wù)勗家?guī)格。RTX 5090 有 170 個(gè) Blackwell 流多處理器 (SM),而 4090 有 128 個(gè) SM。這意味著 GPU 核心增加了 33%,而 CUDA 核心、張量核心、RT 核心、紋理單元等的數(shù)量與 SM 數(shù)量直接相關(guān),因此總體上基本上增加了 33%。
然而,時(shí)鐘速度也起著一定的作用,4090 的升壓時(shí)鐘為 2520 MHz,而(根據(jù)計(jì)算和 NVIDIA的官方規(guī)格)升壓時(shí)鐘為 2407 MHz。這意味著對(duì)于原始計(jì)算,5090 “僅”比 4090 提高了 27%。但是,這是假設(shè)不存在其他體系結(jié)構(gòu)差異,這幾乎可以肯定不是一個(gè)好的假設(shè)。
RTX 5090 的內(nèi)存容量、速度和帶寬都更高,這要?dú)w功于 GDDR7 以及更大、更堅(jiān)固的芯片。RTX 5090 的 VRAM 比 4090 多 33%,頻率高出 33%,原始帶寬凈提升 78%。我們不知道 L2 緩存大小,也不知道是否有任何其他可能影響帶寬的變化,這兩者都是重要的考慮因素。盡管如此,這還是原始內(nèi)存帶寬的大幅增加。
NVIDIA在 RTX 50 系列的 AI 上押注很大,這就是我們看到的一些最大變化的地方。RTX 4090 具有 661 TFLOPS 的 FP16 張量計(jì)算(具有稀疏性)和 1321 TOPS(萬(wàn)億次)的 INT8 張量計(jì)算(同樣具有稀疏性)。這遠(yuǎn)遠(yuǎn)超過(guò)了 AMD 的 RX 7900 XTX,后者僅提供 FP16 / INT8 計(jì)算的 123 TFLOPS / TOPS(無(wú)稀疏性)。但與 RTX 5090 相比,它仍然相形見(jiàn)絀。
我們不確定 FP16 的數(shù)字,但假設(shè) NVIDIA遵循與上一代相同的比率,RTX 5090 將提供高達(dá) 1676 TFLOPS 的張量 FP16 計(jì)算,是 3352 TOPS 張量 INT8 計(jì)算的兩倍(兩者都具有稀疏性)。新一代的 AI 計(jì)算性能提高了 154%(2.54 倍)。NVIDIA打算充分利用 AI 的潛力。
顯卡 | RTX 5090 | RTX 4090 |
架構(gòu) | GB202 | AD102 |
進(jìn)程節(jié)點(diǎn) | 臺(tái)積電 4NP | 臺(tái)積電 4N |
晶體管 (十億) | 92 | 76.3 |
芯片尺寸 (mm^2) | 744 | 608.4 |
短信 | 170 | 128 |
GPU 著色器 | 21760 | 16384 |
Tensor 核心 | 680 | 512 |
RT 核心 | 170 | 128 |
升壓時(shí)鐘 (MHz) | 2407 | 2520 |
VRAM 速度 (Gbps) | 28 | 21 |
顯存 (GB) | 32 | 24 |
VRAM 總線寬度 | 512 | 384 |
L2 緩存 | 128? | 72 |
渲染輸出單位 | 240? | 176 |
紋理映射單位 | 680 | 512 |
TFLOPS FP32 (升壓) | 104.8 | 82.6 |
TFLOPS FP16 (INT8 TOPS) | 1676?(3352) | 661 (1321) |
帶寬 (GB/s) | 1792 | 1008 |
TBP(瓦特) | 575 | 450 |
發(fā)布日期 | 2025 年 1 月 | 2022 年 10 月 |
發(fā)布價(jià)格 | 1,999 美元 | 1,599 美元 |
(圖片來(lái)源:Nvidia)
正如我們?cè)谄渌胤接懻摰哪菢?,NVIDIA DLSS 4 將利用 Blackwell 中的新功能來(lái)支持其 AI 算法。多幀生成將“預(yù)測(cè)未來(lái)”,并從一個(gè)渲染(可能放大)的幀生成最多三個(gè)額外的幀。因?yàn)樗褂玫氖菐队岸皇遣逯?,所以延遲損失應(yīng)該與我們已經(jīng)看到的 DLSS 3 幀生成沒(méi)有太大區(qū)別,但額外的幀將使一切看起來(lái)更流暢。
那實(shí)際感覺(jué)如何?我們自己還沒(méi)有機(jī)會(huì)測(cè)試它,所以我們保留任何最終判斷,但我們對(duì)此持懷疑態(tài)度。它可能會(huì)正常工作,但一個(gè)基于用戶輸入的渲染幀后跟三個(gè) AI 生成的沒(méi)有新用戶輸入的幀,與每一幀都接受任何新用戶輸入并完全渲染的游戲感覺(jué)不同。
然而,還有其他變化即將到來(lái),其中一些是 Blackwell RTX 5090 獨(dú)有的,而另一些將與舊的 RTX 卡一起使用。RTX Neural Materials 似乎使用 AI 壓縮和學(xué)習(xí)將游戲中使用的紋理和材質(zhì)描述的內(nèi)存需求降低了約三分之一。但是,硬件管道需要能夠?qū)?AI 與著色器一起使用才能完成這項(xiàng)工作,因此這將是另一個(gè) 50 系列獨(dú)有的。
另一方面,DLSS Transformer 升級(jí)使用基于 AI Transformer 構(gòu)建的新訓(xùn)練網(wǎng)絡(luò),而不是早期 DLSS 升級(jí)算法中使用的卷積神經(jīng)網(wǎng)絡(luò) (CNN)。Transformer 一直是 AI 革命的核心,為 ChatGPT、DALL-E 和其他 AI 內(nèi)容生成器等產(chǎn)品提供支持。NVIDIA展示的新舊 DLSS 升級(jí)示例視頻看起來(lái)非常令人印象深刻,我們渴望親自嘗試。更重要的是,新的 DLSS Transformer 算法顯然比舊的 CNN 版本運(yùn)行得更快,并且適用于所有 RTX GPU。
NVIDIA自己的性能預(yù)覽表明 RTX 5090 的速度可以提高到 RTX 4090 的兩倍,還展示了一些游戲在一個(gè)實(shí)例中沒(méi)有 DLSS 4 甚至 DLSS 3 來(lái)攪渾水。從《孤島驚魂 6》的結(jié)果來(lái)看,在新的 AI 功能不屬于等式的游戲中,5090 的性能似乎將比 4090 高出約 27%。在《瘟疫傳說(shuō):安魂曲》中,差距增加到大約 43%(是的,我正在數(shù)像素!而在使用 DLSS 4 MFG(與 DLSS 3 FG 相比)的游戲中,NVIDIA的改進(jìn)為 2.3 倍到 2.45 倍。
這是否意味著 RTX 5090 值得或不值得更高的價(jià)格?我們認(rèn)為這在很大程度上取決于您在做什么。幾乎可以肯定,會(huì)有很多對(duì) AI 感興趣的人和公司會(huì)抓住機(jī)會(huì)花 1,999 美元購(gòu)買 RTX 5090。在過(guò)去的幾年里,這些群體一直在購(gòu)買 RTX 4090 卡。在生成式 AI 測(cè)試中,使用 Flux.dev 時(shí),5090 的性能也出現(xiàn)了 2 倍的巨大躍升。
但是,如果您主要玩游戲,并且不喜歡幀生成?坐下來(lái)等待一段時(shí)間,看看事情如何發(fā)展可能不是一個(gè)壞主意。也許 DLSS 4 在實(shí)際使用中看起來(lái)和感覺(jué)都很棒?;蛘?,也許通過(guò)新的 575 針連接器拉動(dòng)高達(dá) 16W 的功率將導(dǎo)致 Meltgate 第 2 部分。但無(wú)論你怎么切分,花在游戲 GPU 上都是很多錢——你肯定會(huì)希望你的 PC 的其余部分能夠完成這項(xiàng)任務(wù),因?yàn)闉?RTX 5090 提供動(dòng)力并提供穩(wěn)定的游戲更新流需要一臺(tái)非常強(qiáng)大的 PC。
評(píng)論