打破16項(xiàng)AI性能記錄！英偉達(dá)A100 GPU要無(wú)人能敵？

作者：時(shí)間：2020-07-30 來(lái)源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

2020年7月30日，MLPerf組織發(fā)布第三個(gè)版本MLPerf Training v0.7基準(zhǔn)測(cè)試（Benchmark）結(jié)果。結(jié)果顯示，英偉達(dá)基于今年5月最新發(fā)布的Ampere架構(gòu)GPU A100，和HDR InfiniBand實(shí)現(xiàn)多個(gè)DGX A100 系統(tǒng)互聯(lián)的龐大集群——DGX SuperPOD系統(tǒng)在性能上分別開創(chuàng)了八個(gè)全新里程碑，共打破16項(xiàng)紀(jì)錄。

本文引用地址：http://2s4d.com/article/202007/416421.htm 打破16項(xiàng)AI性能記錄！英偉達(dá)A100 GPU要無(wú)人能敵？

打破MLPerf Training最新基準(zhǔn)測(cè)試16項(xiàng)記錄

MLPerf是2018年5月成立的行業(yè)基準(zhǔn)測(cè)試組織，在AI備受關(guān)注的當(dāng)下，獲得了芯片巨頭和AI芯片公司以及AI業(yè)界的廣泛關(guān)注。為了能夠讓機(jī)器學(xué)習(xí)處理器的基準(zhǔn)測(cè)試也像CPU那樣，MLPerf組織囊括了該行業(yè)中的所有知名企業(yè)和機(jī)構(gòu)，比如英特爾、英偉達(dá)、Google、亞馬遜、阿里巴巴和百度、微軟、斯坦福大學(xué)等。

巨頭公司們樂于通過(guò)MLPerf的成績(jī)證明其AI實(shí)力，平頭哥在去年11月MLPerf首個(gè)版本基準(zhǔn)測(cè)試成績(jī)公布之后就強(qiáng)調(diào)其自主研發(fā)的AI芯片含光800在Resnet50基準(zhǔn)測(cè)試中獲得單芯片性能第一。

作為AI的領(lǐng)軍者，英偉達(dá)自然也不會(huì)錯(cuò)過(guò)MLPerf的基準(zhǔn)測(cè)試。2018年12月，英偉達(dá)首次在MLPerf訓(xùn)練基準(zhǔn)測(cè)試中創(chuàng)下了六項(xiàng)紀(jì)錄，次年7月英偉達(dá)再次創(chuàng)下八項(xiàng)紀(jì)錄。在最新MLPerf Training v0.7基準(zhǔn)測(cè)試中，有兩項(xiàng)新的測(cè)試和一項(xiàng)經(jīng)大幅修訂的測(cè)試。

其中一項(xiàng)基準(zhǔn)測(cè)試對(duì)推薦系統(tǒng)的性能進(jìn)行了排名，推薦系統(tǒng)是日益普及的一項(xiàng)AI任務(wù)。另一項(xiàng)基準(zhǔn)測(cè)試對(duì)使用BERT的對(duì)話式AI進(jìn)行了測(cè)試，BERT是現(xiàn)有最復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型之一。還有，強(qiáng)化學(xué)習(xí)測(cè)試中使用了Mini-go和全尺寸19x19 圍棋棋盤，該測(cè)試是本輪最復(fù)雜的測(cè)試，內(nèi)容涵蓋從游戲到訓(xùn)練的多項(xiàng)操作。

特別值得一提的是，英偉達(dá)是唯一一家在MLPerf Training v0.7測(cè)試中均采用市售商用產(chǎn)品的公司。其他大多數(shù)提交使用的要么是預(yù)覽類別（preview category），其所用的產(chǎn)品預(yù)計(jì)需要幾個(gè)月后才會(huì)面市，使用研究類別的產(chǎn)品，更是較長(zhǎng)一段時(shí)間內(nèi)都不會(huì)面市。

另外，在此次提交結(jié)果的九家公司中，除英偉達(dá)外，還有六家公司多家生態(tài)系統(tǒng)合作伙伴也提交了基于英偉達(dá)GPU的MLPerf測(cè)試結(jié)果。包括三家云服務(wù)提供商（阿里云、谷歌云和騰訊云）和三家服務(wù)器制造商（戴爾、富士通和浪潮）。

18個(gè)月內(nèi)實(shí)現(xiàn)AI性能4倍提升

創(chuàng)造紀(jì)錄的英偉達(dá)DGX SuperPOD系統(tǒng)是基于Ampere架構(gòu)以及Volta架構(gòu)。雷鋒網(wǎng)此前報(bào)道，5月份發(fā)布的最近Ampere架構(gòu)GPU A100基于臺(tái)積電7nm工藝，面積高達(dá)826平方毫米，集成了540億個(gè)晶體管。相比Volta架構(gòu)實(shí)現(xiàn)了高達(dá)20倍的性能提升，并且可以同時(shí)滿足AI訓(xùn)練和推理的需求。

A100對(duì)比V100

由8個(gè)安培A100 GPU打造的NVIDIA DGX A100 AI系統(tǒng)單節(jié)點(diǎn)性能達(dá)到了創(chuàng)紀(jì)錄的5 petaflops。

此次，英偉達(dá)在Selene上運(yùn)行了系統(tǒng)的MLPerf測(cè)試，Selene是基于DGX SuperPOD的內(nèi)部集群。DGX SuperPOD是針對(duì)大規(guī)模GPU集群的公共參考架構(gòu)，可在數(shù)周內(nèi)完成部署。

根據(jù)測(cè)試結(jié)果，相較于首輪MLPerf訓(xùn)練測(cè)試中使用的基于V100 GPU的系統(tǒng)，如今的DGX A100系統(tǒng)能夠以相同的吞吐率，在18個(gè)月內(nèi)實(shí)現(xiàn)了4倍的性能提升。

能夠取得里程碑的成就除了強(qiáng)大的硬件，還有兩大關(guān)鍵——軟件和網(wǎng)絡(luò)連接。

A100 GPU搭配CUDA-X庫(kù)的軟件更新，為通過(guò)Mellanox HDR 200Gb/s InfiniBand網(wǎng)絡(luò)構(gòu)建的擴(kuò)展集群提供支持。HDR InfiniBand可實(shí)現(xiàn)極低的延遲和高數(shù)據(jù)吞吐量，同時(shí)通過(guò)可擴(kuò)展分層聚合和縮減協(xié)議（SHARP）技術(shù)，提供智能深度學(xué)習(xí)計(jì)算加速引擎。

英偉達(dá)A100能否無(wú)人能敵？

英偉達(dá)A100發(fā)布之后，就有業(yè)內(nèi)人士表示GPU的性能又上了一個(gè)臺(tái)階，AI芯片初創(chuàng)公司想要超越英偉達(dá)的難度有增加了。

但相比硬件的超越，雷鋒網(wǎng)認(rèn)為軟硬件生態(tài)才是巨頭公司更大的優(yōu)勢(shì)所在。據(jù)悉，通過(guò)最新的軟件優(yōu)化，基于NVIDIA V100的DGX-1 系統(tǒng)也可實(shí)現(xiàn)2倍的性能提升。

就此次最新基準(zhǔn)測(cè)試而言，提交了基于英偉達(dá)GPU的MLPerf測(cè)試結(jié)果的公司大多采用了英偉達(dá)的軟件中心NGC容易，以及用于參賽的公開框架。另外，包括這些MLPerf合作伙伴在內(nèi)的近二十家云服務(wù)提供商和OEM組成的生態(tài)系統(tǒng)，已采用或計(jì)劃采用A100 GPU來(lái)打造在線實(shí)例、服務(wù)器和PCIe卡。

英偉達(dá)表示，A100進(jìn)入市場(chǎng)的速度也比以往英偉達(dá)的GPU更快，發(fā)布之初用于英偉達(dá)的第三代DGX系統(tǒng)，正式發(fā)布僅六周后，A100就正式登陸了Google Cloud 。

當(dāng)然，英偉達(dá)也在通過(guò)更多行業(yè)軟件吸引用戶。比如今年5月，英偉達(dá)發(fā)布了兩個(gè)應(yīng)用框架——用于對(duì)話式AI的Jarvis和用于推薦系統(tǒng)的Merlin。還有面向汽車行業(yè)市場(chǎng)的NVIDIA DRIVE，面向醫(yī)療健康市場(chǎng)的Clara，面向機(jī)器人技術(shù)市場(chǎng)的Isaac，以及面向零售/智能城市市場(chǎng)的Metropolis。

性能和生態(tài)都足夠好的A100，能讓英偉達(dá)在AI市場(chǎng)無(wú)人能敵嗎？?jī)r(jià)格會(huì)是阻礙嗎？