全新MLCommons結(jié)果公布,英特爾在AI領(lǐng)域的優(yōu)勢(shì)盡顯

—— Habana Gaudi2和第四代英特爾至強(qiáng)可擴(kuò)展處理器為AI訓(xùn)練提供領(lǐng)先的性能并大幅節(jié)約成本

作者：時(shí)間：2023-06-28 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

今日，MLCommons公布其行業(yè)AI性能基準(zhǔn)測(cè)試MLPerf訓(xùn)練3.0的結(jié)果，其中，Habana^? Gaudi^? 2深度學(xué)習(xí)加速器與第四代英特爾^?至強(qiáng)^?可擴(kuò)展處理器展現(xiàn)出令人印象深刻的訓(xùn)練結(jié)果。

本文引用地址：http://2s4d.com/article/202306/448055.htm

英特爾執(zhí)行副總裁兼數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra Rivera表示：“最新由MLCommons發(fā)布的MLPerf結(jié)果驗(yàn)證了使用英特爾至強(qiáng)可擴(kuò)展處理器和英特爾Gaudi深度學(xué)習(xí)加速器，可以在AI領(lǐng)域?yàn)榭蛻魩砀叩男詢r(jià)比（TCO）。其中，至強(qiáng)的內(nèi)置加速器使其成為在通用處理器上運(yùn)行大量AI工作負(fù)載的理想解決方案，而Gaudi則為大語(yǔ)言模型和生成式AI提供了極具競(jìng)爭(zhēng)力的優(yōu)異性能。此外，英特爾的可擴(kuò)展系統(tǒng)配備了經(jīng)過優(yōu)化的、易于編程的開放軟件，可降低客戶和生態(tài)伙伴在數(shù)據(jù)中心部署從云到智能邊緣各種基于AI的解決方案的門檻。”

目前，業(yè)內(nèi)普遍認(rèn)為生成式AI和大語(yǔ)言模型（LLMs）僅適宜在GPU上運(yùn)行。然而，最新的數(shù)據(jù)顯示，基于英特爾產(chǎn)品組合的AI解決方案，能夠?yàn)樵诜忾]生態(tài)系統(tǒng)中尋求擺脫當(dāng)前效率與規(guī)模限制的客戶提供極具競(jìng)爭(zhēng)力的選擇。

最新的MLPerf訓(xùn)練3.0結(jié)果展現(xiàn)了英特爾產(chǎn)品在一系列深度學(xué)習(xí)模型上的優(yōu)異性能。在大語(yǔ)言模型GPT-3上，基于Gaudi2的軟件與系統(tǒng)在AI訓(xùn)練成熟度上得到了大規(guī)模驗(yàn)證。值得一提的是，Gaudi2是僅有的兩個(gè)向GPT-3大模型訓(xùn)練基準(zhǔn)提交性能結(jié)果的解決方案之一。

與此同時(shí)，Gaudi2還為客戶提供了極具競(jìng)爭(zhēng)力的成本優(yōu)勢(shì)，包括服務(wù)器和系統(tǒng)成本。其在GPT-3、計(jì)算機(jī)視覺和自然語(yǔ)言模型上經(jīng)由MLPerf驗(yàn)證的杰出性能，以及即將推出的軟件，使Gaudi2成為業(yè)界一個(gè)極具吸引力與性價(jià)比解決方案。

在CPU方面，第四代至強(qiáng)可擴(kuò)展處理器采用英特爾AI引擎，其深度學(xué)習(xí)訓(xùn)練性能的結(jié)果表明，客戶可以使用基于至強(qiáng)的服務(wù)器，構(gòu)建一個(gè)通用AI系統(tǒng)以用于數(shù)據(jù)預(yù)處理、模型訓(xùn)練和部署，從而獲得兼具AI性能、效率、準(zhǔn)確性和可擴(kuò)展性的最優(yōu)組合。

關(guān)于Habana Gaudi2的測(cè)試結(jié)果：訓(xùn)練生成式AI和大語(yǔ)言模型需要服務(wù)器集群來滿足大規(guī)模的計(jì)算要求。最新MLPerf結(jié)果切實(shí)驗(yàn)證了Habana Gaudi2在要求極為苛刻的模型——1750億參數(shù)的GPT-3上的出色性能以及高效的可擴(kuò)展性。

測(cè)試亮點(diǎn)：

● Gaudi2在GPT-3*上實(shí)現(xiàn)了令人印象深刻的訓(xùn)練時(shí)間：在384個(gè)加速器上的訓(xùn)練時(shí)間為311分鐘。

● 在GPT-3模型上，從256個(gè)加速器到384個(gè)加速器實(shí)現(xiàn)近線性95%的擴(kuò)展效果。

● 在計(jì)算機(jī)視覺模型ResNet-50（8個(gè)加速器）和Unet3D（8個(gè)加速器）以及自然語(yǔ)言處理模型BERT（8個(gè)和64個(gè)加速器）上取得了優(yōu)異的訓(xùn)練結(jié)果。

● 與去年11月提交的數(shù)據(jù)相比，BERT和ResNet模型的性能分別提高了10%和4%，證明Gaudi2軟件成熟度的提升。

● Gaudi2支持“開箱即用”功能，客戶在本地或在云端使用Gaudi2時(shí)，可以獲得與本次測(cè)試相當(dāng)?shù)男阅芙Y(jié)果。

Habana^? Gaudi^?2夾層卡

關(guān)于Gaudi2的軟件成熟度：Gaudi的軟件支持在持續(xù)發(fā)展和成熟，并能與日益增長(zhǎng)的生成式AI及大語(yǔ)言模型的需求保持同步。

● 本次提交的GPT-3模型基于PyTorch，并采用了當(dāng)前流行的、隸屬微軟大規(guī)模AI的DeepSpeed優(yōu)化庫(kù)，而非定制軟件。DeepSpeed能夠同時(shí)支持Data、Tensor和Pipeline的三維并行，進(jìn)一步優(yōu)化了大語(yǔ)言模型的擴(kuò)展性能效率。

● 本次MLPerf 3.0的Gaudi2結(jié)果以BF16數(shù)據(jù)類型已提交。預(yù)計(jì)在2023年第三季度發(fā)布對(duì)FP8的軟件支持與新功能時(shí)，Gaudi2的性能將有明顯飛躍。

關(guān)于第四代至強(qiáng)可擴(kuò)展處理器的測(cè)試結(jié)果：作為眾多解決方案中唯一提交的基于CPU的解決方案，MLPerf結(jié)果表明，英特爾至強(qiáng)可擴(kuò)展處理器為企業(yè)提供了“開箱即用”的功能，可以在通用系統(tǒng)上部署AI，避免了引入專用AI系統(tǒng)的高昂成本和復(fù)雜性。

對(duì)于少數(shù)從頭開始間歇性訓(xùn)練大模型的用戶，他們可以使用通用CPU，并且通常是在已經(jīng)完成部署的、基于英特爾的服務(wù)器上運(yùn)行其業(yè)務(wù)。此外，大多數(shù)人將采用預(yù)先訓(xùn)練好的模型，并用小型數(shù)據(jù)集對(duì)其進(jìn)行微調(diào)。英特爾發(fā)布的結(jié)果表明，通過使用英特爾AI軟件以及標(biāo)準(zhǔn)的行業(yè)開源軟件，這種微調(diào)可以在短短幾分鐘內(nèi)完成。

MLPerf測(cè)試亮點(diǎn)：

● 在封閉區(qū)，第四代至強(qiáng)可以分別在50分鐘以內(nèi)（47.93分鐘）和90分鐘以內(nèi)（88.17分鐘）的時(shí)間里訓(xùn)練BERT和ResNet-50模型。

● 對(duì)于BERT模型的開放區(qū)，結(jié)果顯示，當(dāng)擴(kuò)展至16個(gè)節(jié)點(diǎn)時(shí)，第四代至強(qiáng)能夠在大約30分鐘左右（31.06分鐘）完成模型訓(xùn)練。

● 對(duì)于較大的RetinaNet模型，第四代至強(qiáng)能夠在16個(gè)節(jié)點(diǎn)上實(shí)現(xiàn)232分鐘的訓(xùn)練時(shí)間，使客戶能夠靈活地使用非高峰期的至強(qiáng)周期來訓(xùn)練其模型，即可以在早晨、午餐或者夜間進(jìn)行模型訓(xùn)練。

● 具備英特爾^?高級(jí)矩陣擴(kuò)展（Intel^? AMX）的第四代英特爾至強(qiáng)可擴(kuò)展處理器提供了顯著的“開箱即用”性能提升，其范圍覆蓋了多個(gè)框架、端到端數(shù)據(jù)科學(xué)工具，以及廣泛的智能解決方案生態(tài)系統(tǒng)。

第四代英特爾^?至強(qiáng)^?可擴(kuò)展處理器

MLPerf被普遍認(rèn)為是最具信服力的AI性能測(cè)試基準(zhǔn)，能夠在各種解決方案之間進(jìn)行公平、可重復(fù)的性能比較。目前，英特爾已擁有超100次性能結(jié)果，且是唯一一個(gè)使用行業(yè)標(biāo)準(zhǔn)的深度學(xué)習(xí)生態(tài)系統(tǒng)軟件，并公開提交CPU結(jié)果的廠商。

該結(jié)果亦展示了使用極具性價(jià)比，且隨時(shí)可用的英特爾以太網(wǎng)800系列網(wǎng)絡(luò)適配器，可以實(shí)現(xiàn)出色的擴(kuò)展效率，此類適配器采用基于英特爾oneAPI的開源英特爾^?以太網(wǎng)軟件包。

說明：

* MLPerf 測(cè)試語(yǔ)料庫(kù)由1%的GPT-3 模型代表組成。

聲明：

產(chǎn)品性能或因使用方式、配置和其他因素而異。

性能結(jié)果基于截至配置中所示日期的測(cè)試，可能不反映所有公開可用的更新。沒有任何產(chǎn)品或組件是絕對(duì)安全的。

您的成本和性能結(jié)果可能會(huì)有所不同。

英特爾技術(shù)可能需要通過啟用硬件、軟件或服務(wù)激活。