英偉達和OpenAI推出開源推理模型
OpenAI 和 Nvidia 開發(fā)的兩種新的開放權(quán)重 AI 推理模型——gpt-oss-120b 和 gpt-oss-20b——可供用戶使用。
任何人都可以使用這些模型來開發(fā)生成、推理和物理人工智能、醫(yī)療保健和制造領(lǐng)域的應(yīng)用程序。
OpenAI 的開放權(quán)重文本推理大型語言模型 (LLM) 是在 Nvidia H100 GPU 上訓練的,在運行 Nvidia CUDA 平臺的數(shù)億個 GPU 上運行推理效果最好。
這些模型現(xiàn)在可作為 Nvidia NIM 微服務(wù)提供,可在任何 GPU 加速基礎(chǔ)設(shè)施上部署,具有靈活性、數(shù)據(jù)隱私和企業(yè)級安全性。
通過對 Nvidia Blackwell 平臺的軟件優(yōu)化,這些模型在 Nvidia GB200 NVL72 系統(tǒng)上提供最佳推理,實現(xiàn)每秒 150 萬個令牌。
Nvidia Blackwell包括 NVFP4 4 位精度等創(chuàng)新,可實現(xiàn)高精度推理,同時降低功耗和內(nèi)存需求。這使得實時部署萬億參數(shù)的 LLM 成為可能。
Nvidia CUDA 允許用戶在任何地方部署和運行 AI 模型,從 Nvidia DGX 云平臺到 Nvidia GeForce RTX 和 Nvidia RTX PRO 驅(qū)動的 PC 和工作站。
迄今為止,Nvidia CUDA 的下載量已超過 4.5 億次,從今天開始,龐大的 CUDA 開發(fā)人員社區(qū)可以訪問這些最新模型,這些模型經(jīng)過優(yōu)化,可以在他們已經(jīng)使用的 Nvidia 技術(shù)堆棧上運行。
OpenAI 和 Nvidia 與頂級開放框架提供商合作,除了 Nvidia Tensor-RT LLM 和其他庫外,還為 FlashInfer、Hugging Face、llama.cpp、Ollama 和 vLLM 提供模型優(yōu)化,因此開發(fā)人員可以使用他們選擇的框架進行構(gòu)建,以展示他們對開源軟件的承諾。
評論