芯片大神Jim Keller痛斥NVIDIA CUDA:不是護(hù)城河 是沼澤!
對(duì)于 x86、Arm、MISC 和 RISC-V 等處理器架構(gòu)都有深入研究的傳奇處理器架構(gòu)師Jim Keller批評(píng)了被外界認(rèn)為是英偉達(dá)(NVIDIA)“護(hù)城河”的 CUDA架構(gòu)和軟件堆棧,并將其比作x86,稱之為“沼澤”。
本文引用地址:http://2s4d.com/article/202402/455561.htm他指出,就連英偉達(dá)本身也有多個(gè)專用軟件包,出于性能原因,這些軟件包依賴于開源框架。
“CUDA 是沼澤,而不是護(hù)城河,”凱勒在 X 帖子中寫道?!皒86 也是一片沼澤。[…] CUDA 并不漂亮。它是通過(guò)一次堆積一件東西來(lái)構(gòu)建的?!?nbsp;
確實(shí),就像x86一樣,CUDA在保持軟件和硬件向后兼容性的同時(shí)逐漸增加了功能。
這使得英偉達(dá)的平臺(tái)完整且向后兼容,但它影響了性能并使程序開發(fā)變得更加困難。
同時(shí),很多開源軟件開發(fā)框架可以比CUDA更高效地使用。
“基本上沒(méi)有人編寫 CUDA,”Jim Keller在后續(xù)帖子中寫道?!叭绻愦_實(shí)編寫 CUDA,它可能不會(huì)很快。[...] Triton、Tensor RT、Neon 和 Mojo 的存在是有充分理由的?!?nbsp;
甚至NVIDIA本身也有不完全依賴 CUDA 的工具。
例如,Triton Inference Server 是 NVIDIA 的一款開源工具,可簡(jiǎn)化 AI 模型的大規(guī)模部署,支持 TensorFlow、PyTorch 和 ONNX 等框架。
Triton 還提供模型版本控制、多模型服務(wù)和并發(fā)模型執(zhí)行等功能,以優(yōu)化 GPU 和 CPU 資源的利用率。
NVIDIA的TensorRT是一種高性能深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí)庫(kù),可加速NVIDIA GPU上的深度學(xué)習(xí)推理。
TensorRT 從各種框架(例如 TensorFlow 和 PyTorch)中獲取經(jīng)過(guò)訓(xùn)練的模型,并對(duì)其進(jìn)行優(yōu)化以進(jìn)行部署,從而減少延遲并提高圖像分類、對(duì)象檢測(cè)和自然語(yǔ)言處理等實(shí)時(shí)應(yīng)用程序的吞吐量。
但是,盡管像Arm、CUDA 和x86這樣的架構(gòu)可能會(huì)被認(rèn)為是“沼澤”,因?yàn)樗鼈兊难葸M(jìn)速度相對(duì)較慢、必須向后兼容并且體積龐大,但這些平臺(tái)也不像GPGPU這樣分散,這可能根本不是一件壞事。
目前尚不清楚 Jim Keller 對(duì) AMD 的ROCm和英特爾的OneAPI有何看法,但很明顯,盡管他花了很多年時(shí)間設(shè)計(jì) x86 架構(gòu),但他并不迷戀其未來(lái)前景。
他的言論還暗示,盡管他曾在世界上一些最大的芯片制造商工作過(guò)一段時(shí)間,包括蘋果、英特爾、AMD、博通(現(xiàn)在是Tenstorrent)等公司,但我們可能不會(huì)在NVIDIA的名單上看到他的名字。
評(píng)論