Nvidia 征服了最新的 AI 測(cè)試
多年來(lái),英偉達(dá)在許多機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中占據(jù)主導(dǎo)地位,現(xiàn)在它又多了兩個(gè)檔次。
MLPerf,有時(shí)被稱為“機(jī)器學(xué)習(xí)的奧林匹克”的人工智能基準(zhǔn)測(cè)試套件,已經(jīng)發(fā)布了一套新的訓(xùn)練測(cè)試,以幫助在競(jìng)爭(zhēng)計(jì)算機(jī)系統(tǒng)之間進(jìn)行更多更好的同類(lèi)比較。MLPerf 的一項(xiàng)新測(cè)試涉及對(duì)大型語(yǔ)言模型的微調(diào),該過(guò)程采用現(xiàn)有的訓(xùn)練模型,并用專(zhuān)業(yè)知識(shí)對(duì)其進(jìn)行更多訓(xùn)練,使其適合特定目的。另一個(gè)是圖神經(jīng)網(wǎng)絡(luò),一種機(jī)器學(xué)習(xí),一些文獻(xiàn)數(shù)據(jù)庫(kù)背后的一種機(jī)器學(xué)習(xí),金融系統(tǒng)中的欺詐檢測(cè),以及社交網(wǎng)絡(luò)。
即使使用谷歌和英特爾的人工智能加速器的計(jì)算機(jī)增加和參與,由英偉達(dá)的Hopper架構(gòu)驅(qū)動(dòng)的系統(tǒng)再次主導(dǎo)了結(jié)果。一個(gè)包含 11,616 個(gè) Nvidia H100 GPU 的系統(tǒng)(迄今為止最大的集合)在九個(gè)基準(zhǔn)測(cè)試中名列前茅,其中五個(gè)(包括兩個(gè)新基準(zhǔn)測(cè)試)創(chuàng)下了記錄。
“如果你只是把硬件扔到這個(gè)問(wèn)題上,你就不能肯定地要改進(jìn)。—DAVE SALVATOR,英偉達(dá)
11,616-H100系統(tǒng)是“我們做過(guò)的最大系統(tǒng)”,英偉達(dá)加速計(jì)算產(chǎn)品總監(jiān)Dave Salvator說(shuō)。它在不到 3.5 分鐘的時(shí)間內(nèi)就完成了 GPT-3 訓(xùn)練試驗(yàn)。相比之下,512 GPU 系統(tǒng)大約需要 51 分鐘。(請(qǐng)注意,GPT-3 任務(wù)不是完整的訓(xùn)練,可能需要數(shù)周時(shí)間并花費(fèi)數(shù)百萬(wàn)美元。取而代之的是,計(jì)算機(jī)在完成之前在商定的點(diǎn)上對(duì)數(shù)據(jù)的代表性部分進(jìn)行訓(xùn)練。
與英偉達(dá)去年在 GPT-3 上最大的參賽者——一臺(tái) 3,584 臺(tái) H100 計(jì)算機(jī)相比,3.5 分鐘的結(jié)果代表了 3.2 倍的改進(jìn)。你可能會(huì)從這些系統(tǒng)大小的差異中預(yù)料到這一點(diǎn),但在人工智能計(jì)算中,情況并非總是如此,Salvator解釋說(shuō)。“如果你只是把硬件扔到這個(gè)問(wèn)題上,你就不能肯定地要改進(jìn),”他說(shuō)。
“我們基本上是線性擴(kuò)展的,”Salvator 說(shuō)。他的意思是,兩倍的 GPU 會(huì)導(dǎo)致訓(xùn)練時(shí)間減半?!癧這]代表了我們工程團(tuán)隊(duì)的一項(xiàng)偉大成就,”他補(bǔ)充道。
競(jìng)爭(zhēng)對(duì)手也越來(lái)越接近線性縮放。這一輪英特爾部署了一個(gè)使用 1,024 個(gè) GPU 的系統(tǒng),該系統(tǒng)在 67 分鐘內(nèi)執(zhí)行了 GPT-3 任務(wù),而計(jì)算機(jī)的大小僅為六個(gè)月前 224 分鐘的四分之一。谷歌最大的 GPT-3 條目使用了 12 倍的 TPU v5p 加速器作為其最小條目,執(zhí)行任務(wù)的速度是其 9 倍。
Salvator 說(shuō),線性擴(kuò)展對(duì)于即將擁有 100,000 個(gè)或更多 GPU 的“AI 工廠”尤為重要。他表示,預(yù)計(jì)今年將有一個(gè)這樣的數(shù)據(jù)中心上線,另一個(gè)使用英偉達(dá)的下一個(gè)架構(gòu)Blackwell的數(shù)據(jù)中心將在2025年啟動(dòng)。
英偉達(dá)的連勝勢(shì)頭仍在繼續(xù)
盡管使用與去年訓(xùn)練結(jié)果相同的架構(gòu) Hopper,Nvidia 仍繼續(xù)延長(zhǎng)訓(xùn)練時(shí)間。這一切都?xì)w功于軟件的改進(jìn),Salvator 說(shuō)?!巴ǔ?,在新架構(gòu)發(fā)布后,我們會(huì)從軟件中獲得 2-2.5 倍的 [提升],”他說(shuō)。
對(duì)于 GPT-3 訓(xùn)練,Nvidia 比 2023 年 6 月的 MLPerf 基準(zhǔn)測(cè)試提高了 27%。Salvator說(shuō),在提升的背后有幾個(gè)軟件變化。例如,Nvidia 工程師通過(guò)修剪 8 位和 16 位數(shù)字之間不必要的轉(zhuǎn)換,并更好地確定神經(jīng)網(wǎng)絡(luò)的哪些層可以使用較低精度的數(shù)字格式,調(diào)整了 Hopper 對(duì)不太準(zhǔn)確的 8 位浮點(diǎn)運(yùn)算的使用。他們還找到了一種更智能的方法來(lái)調(diào)整每個(gè)芯片計(jì)算引擎的功率預(yù)算,并加快了GPU之間的通信速度,Salvator將其比作“在烤面包機(jī)中涂黃油”。
此外,該公司還實(shí)施了一項(xiàng)稱為“閃光關(guān)注”的計(jì)劃。閃速注意力是由Samba Nova創(chuàng)始人Chris Re在斯坦福大學(xué)實(shí)驗(yàn)室發(fā)明的,是一種通過(guò)最大限度地減少對(duì)內(nèi)存的寫(xiě)入來(lái)加速Transformer網(wǎng)絡(luò)的算法。當(dāng)它首次出現(xiàn)在 MLPerf 基準(zhǔn)測(cè)試中時(shí),閃光注意力比訓(xùn)練時(shí)間縮短了 10%。(英特爾也使用了 flash attention 的一個(gè)版本,但不是 GPT-3。相反,它將該算法用于其中一個(gè)新基準(zhǔn)測(cè)試,即微調(diào)。
與 2023 年 11 月提交的相比,使用其他軟件和網(wǎng)絡(luò)技巧,Nvidia 在文本到圖像測(cè)試 Stable Diffusion 中實(shí)現(xiàn)了 80% 的加速。
新基準(zhǔn)
MLPerf 添加了新的基準(zhǔn)并升級(jí)了舊的基準(zhǔn),以保持與 AI 行業(yè)正在發(fā)生的事情相關(guān)。今年增加了微調(diào)和圖神經(jīng)網(wǎng)絡(luò)。
微調(diào)需要已經(jīng)訓(xùn)練過(guò)的 LLM,并將其專(zhuān)門(mén)用于特定領(lǐng)域。例如,英偉達(dá)(Nvidia)采用了一個(gè)經(jīng)過(guò)訓(xùn)練的430億參數(shù)模型,并在GPU制造商的設(shè)計(jì)文件和文檔上對(duì)其進(jìn)行了訓(xùn)練,以創(chuàng)建ChipNeMo,這是一種旨在提高其芯片設(shè)計(jì)人員生產(chǎn)力的AI。當(dāng)時(shí),該公司的首席技術(shù)官比爾·達(dá)利(Bill Dally)表示,培訓(xùn)法學(xué)碩士就像給它提供文科教育,而微調(diào)就像把它送到研究生院。
MLPerf 基準(zhǔn)測(cè)試采用預(yù)訓(xùn)練的 Llama-2-70B 模型,并要求系統(tǒng)使用政府文檔數(shù)據(jù)集對(duì)其進(jìn)行微調(diào),以生成更準(zhǔn)確的文檔摘要。
有幾種方法可以進(jìn)行微調(diào)。MLPerf 選擇了一種稱為低秩適應(yīng) (LoRA) 的方法。據(jù)該組織稱,該方法最終只訓(xùn)練了 LLM 參數(shù)的一小部分,與其他方法相比,硬件負(fù)擔(dān)降低了 3 倍,內(nèi)存和存儲(chǔ)的使用量減少了 3 倍。
另一個(gè)新的基準(zhǔn)測(cè)試涉及圖神經(jīng)網(wǎng)絡(luò)(GNN)。這些是針對(duì)可以由一組非常大的互連節(jié)點(diǎn)表示的問(wèn)題,例如社交網(wǎng)絡(luò)或推薦系統(tǒng)。與其他 AI 任務(wù)相比,GNN 需要計(jì)算機(jī)中節(jié)點(diǎn)之間的大量通信。
該基準(zhǔn)測(cè)試在一個(gè)數(shù)據(jù)庫(kù)上訓(xùn)練了 GNN,該數(shù)據(jù)庫(kù)顯示了學(xué)術(shù)作者、論文和機(jī)構(gòu)之間的關(guān)系——一個(gè)具有 5.47 億個(gè)節(jié)點(diǎn)和 58 億條邊的圖形。然后對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以預(yù)測(cè)圖中每個(gè)節(jié)點(diǎn)的正確標(biāo)簽。
未來(lái)的戰(zhàn)斗
2025 年的訓(xùn)練輪可能會(huì)看到比較 AMD、英特爾和 Nvidia 的新加速器的正面交鋒。AMD 的 MI300 系列大約在六個(gè)月前推出,計(jì)劃于 2024 年底對(duì) MI325x 進(jìn)行內(nèi)存增強(qiáng)升級(jí),下一代 MI350 計(jì)劃于 2025 年推出。英特爾表示,今年晚些時(shí)候向計(jì)算機(jī)制造商推出的Gaudi 3將出現(xiàn)在MLPerf即將推出的推理基準(zhǔn)測(cè)試中。英特爾高管表示,新芯片有能力在訓(xùn)練LLM時(shí)擊敗H100。但勝利可能是短暫的,因?yàn)橛ミ_(dá)已經(jīng)推出了一種新的架構(gòu)Blackwell,該架構(gòu)計(jì)劃于今年晚些時(shí)候推出。
評(píng)論