老黃又來(lái)“搶錢(qián)”：英偉達(dá)再推超強(qiáng)芯片平臺(tái)，守住萬(wàn)億芯片老大擂臺(tái)

發(fā)布人：硅星人時(shí)間：2023-08-09 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

從算力到服務(wù)，英偉達(dá)在AI賽道上毫不松懈。

文| Juny 編輯| VickyXiao

在最近風(fēng)起云涌的AI圈里，每一片英偉達(dá)H100 GPU的走向都被大家緊盯著。原因無(wú)它，就因?yàn)镠100是當(dāng)前進(jìn)行人工智能訓(xùn)練的最強(qiáng)引擎。如今，全球約90%以上的大模型都在使用英偉達(dá)的GPU芯片，作為生成式AI時(shí)代下最為關(guān)鍵的基礎(chǔ)硬件，幾乎所有人工智能企業(yè)都在四處搜尋H100的蹤影。一定程度上來(lái)說(shuō)，誰(shuí)擁有了更多的H100，誰(shuí)就在當(dāng)前AI競(jìng)賽中占據(jù)著上風(fēng)。而今天，在洛杉磯的SIGGRAPH大會(huì)上，英偉達(dá)宣布了新一代GH200 Grace Hopper超級(jí)芯片平臺(tái)的到來(lái)。GH200專(zhuān)門(mén)為加速計(jì)算和生成人工智能時(shí)代而打造，旨在處理世界上最復(fù)雜的生成式人工智能工作負(fù)載，涵蓋大型語(yǔ)言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫(kù)，并將提供多種配置。不僅僅只是超級(jí)芯片，圍繞著生成式AI的方方面面，英偉達(dá)今天還發(fā)布了一系列更新，包括全新AI服務(wù)平臺(tái)、推出了4款新顯卡、服務(wù)器等等，試圖全方位加速和簡(jiǎn)化生成式AI項(xiàng)目的開(kāi)發(fā)、訓(xùn)練、部署和應(yīng)用。｜為生成式AI時(shí)代打造最強(qiáng)超級(jí)芯片平臺(tái)此次，全新的Grace Hopper 超級(jí)芯片該平臺(tái)配備了全球首款 HBM3e 處理器，通過(guò)大幅增加帶寬和內(nèi)存，將為更大的 AI 模型提供訓(xùn)練和計(jì)算能力。該配置經(jīng)過(guò)優(yōu)化，GH200還可以執(zhí)行 AI 推理功能，從而有效地為 ChatGPT 等生成式 AI 應(yīng)用程序提供支持。英偉達(dá)之所以稱(chēng)GH200為“超級(jí)芯片”，因?yàn)樗鼘⒒?Arm 的 Nvidia Grace CPU 與 Hopper GPU 架構(gòu)結(jié)合在了一起。GH200 與目前最高端的 AI 芯片 H100 具有相同的 GPU，H100 擁有 80GB 內(nèi)存，而新款 GH200 的內(nèi)存高達(dá)141GB同時(shí)與 72 核 ARM 中央處理器進(jìn)行了配對(duì)。新版本的GH200采用了全球最快的內(nèi)存技術(shù)HBM3e。英偉達(dá)表示，HBM3e內(nèi)存技術(shù)帶來(lái)了50%的速度提升，總共提供了10TB/秒的組合帶寬。因此，新平臺(tái)能夠運(yùn)行比先前版本大3.5倍的模型，并以3倍的內(nèi)存帶寬提高性能。擁有更大的內(nèi)存也意味著未來(lái)可以讓模型駐留在單個(gè) GPU 上，而不必需要多個(gè)系統(tǒng)或多個(gè) GPU 才能運(yùn)行。不僅能力得到了大幅提升，英偉達(dá)還Nvidia 還發(fā)布了NVIDIA NVLink?服務(wù)器設(shè)計(jì)對(duì)GH200進(jìn)行了擴(kuò)展。NVIDIA NVLink?將允許Grace Hopper超級(jí)芯片可以與其他超級(jí)芯片連接組合，這一技術(shù)方案為GPU提供了完全訪問(wèn)CPU內(nèi)存的途徑。英偉達(dá)表示，目前正在開(kāi)發(fā)一款新的雙GH200基礎(chǔ)NVIDIA MGX服務(wù)器系統(tǒng)，將集成兩個(gè)下一代Grace Hopper超級(jí)芯片。在新的雙GH200服務(wù)器中，系統(tǒng)內(nèi)的CPU和GPU將通過(guò)完全一致的內(nèi)存互連進(jìn)行連接，這個(gè)超級(jí)GPU可以作為一個(gè)整體運(yùn)行，提供144個(gè)Grace CPU核心、8千萬(wàn)億次的計(jì)算性能以及282GB的HBM3e內(nèi)存，從而能夠適用于生成式AI的巨型模型。GH200還能夠兼容今年早些時(shí)候在COMPUTEX上公布的NVIDIA MGX?服務(wù)器規(guī)格。有了MGX，制造商可以迅速且經(jīng)濟(jì)高效地將Grace Hopper技術(shù)整合到100多種服務(wù)器變體中。NVIDIA首席執(zhí)行官黃仁勛強(qiáng)調(diào)，數(shù)據(jù)中心需要應(yīng)對(duì)生成型AI的激增需求，因此也需要有更具針對(duì)性的加速計(jì)算平臺(tái)，GH200平臺(tái)正是為滿(mǎn)足這一需求而生。“你幾乎可以將任何你想要的大型語(yǔ)言模型放入其中，它會(huì)瘋狂地進(jìn)行推理。大型語(yǔ)言模型的推理成本將大幅下降，同時(shí)將大幅提高數(shù)據(jù)中心的運(yùn)作效率和性能。”目前，英偉達(dá)計(jì)劃銷(xiāo)售GH200的兩種版本：一種是包含兩個(gè)可供客戶(hù)集成到系統(tǒng)中的芯片，另一種則是結(jié)合了兩種 Grace Hopper 設(shè)計(jì)的完整服務(wù)器系統(tǒng)。英偉達(dá)表示，全新的GH200將大大降低訓(xùn)練成本和提升訓(xùn)練速度，預(yù)計(jì)將于明年第二季度上市。｜推出AI Workbench服務(wù)，企業(yè)級(jí)AI項(xiàng)目本地也能開(kāi)發(fā)部署除了全新的超級(jí)芯片平臺(tái)，英偉達(dá)今天還宣布了推出了一個(gè)新的AI服務(wù)——AI Workbench，這是一個(gè)易于使用的統(tǒng)一工具包，讓開(kāi)發(fā)人員能夠在 PC 或工作站上快速創(chuàng)建、測(cè)試和自定義預(yù)訓(xùn)練的生成式 AI 模型，然后將其擴(kuò)展到幾乎任何數(shù)據(jù)中心、公共云或NVIDIA DGX? 云。英偉達(dá)認(rèn)為，當(dāng)前企業(yè)級(jí)AI的開(kāi)發(fā)過(guò)程太過(guò)繁瑣和復(fù)雜，不僅需要在多個(gè)庫(kù)中尋找合適的框架和工具，當(dāng)項(xiàng)目需要從一個(gè)基礎(chǔ)設(shè)施遷移到另一個(gè)基礎(chǔ)設(shè)施時(shí)，過(guò)程可能會(huì)變得更加具有挑戰(zhàn)性。研究機(jī)構(gòu)KDnuggets曾進(jìn)行過(guò)一個(gè)調(diào)查，80%或更多的項(xiàng)目在部署機(jī)器學(xué)習(xí)模型之前停滯不前。Gartner的另一項(xiàng)研究也顯示，由于基礎(chǔ)設(shè)施的障礙，有接近85%的大數(shù)據(jù)項(xiàng)目失敗。總體來(lái)看，企業(yè)模型投入生產(chǎn)的成功率總體較低，世界各地的企業(yè)都在尋找合適的基礎(chǔ)設(shè)施來(lái)構(gòu)建生成AI模型和應(yīng)用。而此次，AI Workbench則為這個(gè)過(guò)程提供了簡(jiǎn)化的路徑。黃仁勛在會(huì)議上表示，為了推動(dòng)AI技術(shù)普惠，必須讓其有可能在幾乎任何地方運(yùn)行。因此，AI Workbench將支持在本地機(jī)器上進(jìn)行模型的開(kāi)發(fā)和部署，而不是云服務(wù)上。AI Workbench提供了一個(gè)簡(jiǎn)單的用戶(hù)界面，開(kāi)發(fā)人員能夠?qū)⒛Ｐ?、框架、SDK 和庫(kù)從開(kāi)源資源整合到統(tǒng)一的工作區(qū)中，可以在本地計(jì)算機(jī)上運(yùn)行并連接到 HuggingFace、Github以及其他流行的開(kāi)源或商用 AI 代碼存儲(chǔ)庫(kù)。也就是說(shuō)，開(kāi)發(fā)人員可以在一個(gè)界面上輕松訪問(wèn)大部分AI開(kāi)發(fā)所需資源，不用打開(kāi)不同的瀏覽器窗口。英偉達(dá)表示，使用 AI Workbench 的一些主要優(yōu)勢(shì)包括：易于使用的開(kāi)發(fā)平臺(tái)。 AI Workbench 通過(guò)提供單一平臺(tái)來(lái)管理數(shù)據(jù)、模型和計(jì)算資源，支持跨機(jī)器和環(huán)境的協(xié)作，從而簡(jiǎn)化了開(kāi)發(fā)流程。與 AI 開(kāi)發(fā)工具和存儲(chǔ)庫(kù)集成。 AI Workbench 與 GitHub、NVIDIA NGC 和 Hugging Face 等服務(wù)和 Git 服務(wù)器集成，用戶(hù)可以使用 JupyterLab 和 VS Code 等工具跨平臺(tái)和基礎(chǔ)設(shè)施進(jìn)行開(kāi)發(fā)，具有高度的可重復(fù)性和透明度。增強(qiáng)協(xié)作。該項(xiàng)目結(jié)構(gòu)有助于自動(dòng)化圍繞版本控制、容器管理和處理機(jī)密信息的復(fù)雜任務(wù)，同時(shí)還支持跨團(tuán)隊(duì)協(xié)作。訪問(wèn)加速計(jì)算資源：AI Workbench 部署是客戶(hù)端-服務(wù)器模型，用戶(hù)能夠開(kāi)始在其工作站中的本地計(jì)算資源上進(jìn)行開(kāi)發(fā)，并隨著訓(xùn)練作業(yè)的規(guī)模擴(kuò)大而轉(zhuǎn)向數(shù)據(jù)中心或云資源。英偉達(dá)表示，目前戴爾、惠普、Lambda、聯(lián)想等人工智能基礎(chǔ)設(shè)施提供商已經(jīng)采用了 AI Workbench服務(wù)，并看到了其提升最新一代多 GPU 能力的潛力。在實(shí)際用例中，Workbench 可以幫助用戶(hù)從單臺(tái) PC 上的開(kāi)發(fā)轉(zhuǎn)向更大規(guī)模的環(huán)境，在所有軟件都保持不變的情況下幫助項(xiàng)目投入生產(chǎn)。｜萬(wàn)億芯片老大，要用AI守擂此次，圍繞著生成式 AI 和數(shù)字化時(shí)代的開(kāi)發(fā)和內(nèi)容創(chuàng)作，英偉達(dá)還一口氣推出了多項(xiàng)的新產(chǎn)品和服務(wù)，可以說(shuō)是涵蓋了生成式AI開(kāi)發(fā)的方方面面。在桌面AI工作站方面，推出了RTX 6000、RTX 5000、RTX 4500和RTX 4000四款新顯卡，旨在為全球?qū)I(yè)人士提供最新的 AI圖形和實(shí)時(shí)渲染技術(shù)。并基于新GPU推出了一套一站式解決方案 RTX Workstation。針對(duì) AI 訓(xùn)練和推理、3D 設(shè)計(jì)和可視化、視頻處理和工業(yè)數(shù)字化等計(jì)算密集型應(yīng)用的需求，推出了配備 Nvidia L40S GPU 的 Nvidia OVX 服務(wù)器，旨在加速多個(gè)行業(yè)的工作流程和服務(wù)。Nvidia 推出了新的 RTX 工作站 GPU發(fā)布最新版本的企業(yè)軟件平臺(tái) Nvidia AI Enterprise 4.0，同時(shí)引入用于構(gòu)建和定制生成式 AI 基礎(chǔ)模型的端到端框架 Nvidia NeMo，旨在為企業(yè)提供在其運(yùn)營(yíng)中集成和部署生成式 AI 模型的工具，但以安全的方式和穩(wěn)定的 API 連接。推出了GPU 加速的軟件開(kāi)發(fā)套件和云原生微服務(wù) Maxine，讓專(zhuān)業(yè)人士、團(tuán)隊(duì)和創(chuàng)作者能夠利用人工智能的力量并創(chuàng)造高質(zhì)量的音頻和視頻效果，從而改進(jìn)實(shí)時(shí)通信服務(wù)。此外Nvidia Research 還宣布推出人工智能驅(qū)動(dòng)的 3D 視頻技術(shù)，在沉浸式通信領(lǐng)域取得進(jìn)展。隨著英偉達(dá)一個(gè)接一個(gè)新產(chǎn)品和新服務(wù)的揭曉，我們似乎也看到生成式AI的生產(chǎn)力爆炸時(shí)代正在加速到來(lái)。在人工智能的驅(qū)動(dòng)下，英偉達(dá)今年的來(lái)收益和股價(jià)節(jié)節(jié)攀升，公司市值一度突破萬(wàn)億美元。但越是風(fēng)光，競(jìng)爭(zhēng)對(duì)手就越是虎視眈眈。隨著人工智能芯片荒的加劇，巨頭們都開(kāi)始加大投資、奮起直追。比如，就在今天的大會(huì)不久前，AMD剛剛發(fā)布了自己“大模型專(zhuān)用”的AI芯片MI300X，直接對(duì)標(biāo)H100。此外，谷歌、亞馬遜、特斯拉等也都在設(shè)計(jì)自己的定制人工智能推理芯片。但目前來(lái)看，在越來(lái)越激烈的賽道上，跑在最前邊的英偉達(dá)絲毫沒(méi)有松懈。靠AI“翻身”的英偉達(dá)，顯然還想要乘著AI的風(fēng)跑得更快、更遠(yuǎn)。