深度對話:英偉達憑什么制勝數據中心時代?作者 | 心緣
編輯 | 漠影
英偉達的激蕩30年,有四大高光時刻。第一次高光,是1999年世界上第一顆圖形處理器(GPU)GeForce 256誕生,為終結顯卡混戰(zhàn)、奠定英偉達GPU霸主地位埋下伏筆。第二次高光,是2006年革命性的統(tǒng)一編程軟件CUDA發(fā)布,為多年后英偉達成為“AI計算之王”鋪設了堅實的生態(tài)根基。第三次高光,是2012年英偉達GPU助攻深度學習算法奪魁國際計算機視覺頂級賽事ImageNet競賽,正式掀起人工智能(AI)第三次浪潮。第四次高光,是2017年英偉達專為數據中心和高性能計算打造的Tesla V100 GPU,憑借兇殘性能一統(tǒng)云端,從此笑傲數據中心計算江湖。接連踩準游戲圖顯和人工智能兩大風口,英偉達的營收和市值開始狂飆突進,其股價6年暴漲70倍,成為科技圈象征財富自由的“股市神話”。2020年夏天,英偉達迎來歷史時刻——數據中心業(yè)務季度營收首次超過游戲業(yè)務,成為英偉達第一大收入來源。2021年10月,英偉達市值超過臺積電,首度登頂全球市值最高芯片公司,峰值一度超過8000億美元量級。不過,英偉達的爆發(fā)式成長,在今年短暫地按下暫停鍵。隨著疫情紅利退潮,全球半導體產業(yè)開始面臨需求衰減、庫存待消的周期性困境,這在近期的財報季得到明顯體現(xiàn),多家芯片巨頭發(fā)出預警。英偉達也不例外。受宏觀經濟環(huán)境不景氣、消費電子市場需求滑坡等因素的影響,英偉達近期預告的Q2財報業(yè)績中,游戲業(yè)務同比、環(huán)比均驟降33%,致使其整體營收遜于預期。但這份看似滯緩的財報預告,恰恰證明了英偉達創(chuàng)始人兼CEO黃仁勛的先見之明。
相比于陷入疲態(tài)的游戲業(yè)務,英偉達數據中心業(yè)務正發(fā)展迅猛,其最新季度營收已經接近游戲業(yè)務的兩倍,同比增幅高達61%。
▲英偉達游戲及數據中心業(yè)務營收變化(芯東西制表)這意味著,數據中心業(yè)務已取代游戲業(yè)務,成為撐起英偉達未來的一大主心骨。財報波動只能反映短期的市場風向。無論是警告芯片行業(yè)將進入下行周期的分析師,還是剛披露最新季度財報的各路半導體巨頭,無不認同數據中心、智能駕駛等新興市場將長遠地催生旺盛的芯片需求。
在這些新興市場,英偉達擁有相當高的話語權,再加上借勢元宇宙熱潮,其產品在數據中心領域大受追捧。從人工智能、數據分析到數據科學,英偉達正通過持之以恒的技術創(chuàng)新,展示出顛覆數字世界的力量。
而這一切,都源自黃仁勛極具遠見的前瞻性決策。對此,英偉達中國區(qū)工程和解決方案高級總監(jiān)賴俊杰博士深有感觸。
近日,在做客芯東西高端訪談欄目《芯焦點》對話中,賴俊杰與芯東西總編輯張國仁深入對話,深入闡釋了英偉達如何在不同的時點,用技術塑造自身產業(yè)地位的背后邏輯,尤其在數據中心市場,讓“加速計算專家”的形象越來越深入人心,并在營收上超過to C業(yè)務背后,是如何步步為營構筑全棧技術和生態(tài)優(yōu)勢的。▲點擊視頻,觀看賴俊杰做客本期《芯焦點》精彩訪談
01.縱向加速:全棧布局,英偉達的殺手锏
數據中心芯片戰(zhàn)場硝煙彌漫,但英偉達始終屹立不倒。在今年3月舉行的英偉達GTC大會上,黃仁勛在演講中談到英偉達構建了四層技術棧:硬件、系統(tǒng)軟件、軟件平臺、應用框架。
其中每一層,都緊密圍繞著數據中心的剛需。芯片是算力基礎,但要充分發(fā)揮其性能,必須構建完備的系統(tǒng)軟件底層庫。上層的三類平臺及各種應用,更是為不同行業(yè)客戶的訴求量身定制。客戶需要更高的AI算力需求,于是英偉達打造了更強的芯片、服務器和AI超級計算機;客戶需要更好用的軟件系統(tǒng),來快速實現(xiàn)AI模型的訓練和部署,于是英偉達構建了從底層系統(tǒng)軟件、驅動軟件、平臺到上層的應用框架;客戶需要在構建模擬真實場景的數字虛擬世界,于是英偉達打造了將計算機圖形學與AI結合的NVIDIA Omniverse實時設計協(xié)作和模擬平臺。更有甚者,英偉達把主流AI算法模型做了個遍,并幾乎通通開源。企業(yè)假如對某個AI算法缺乏積累,可以直接免費下載英偉達現(xiàn)成的先進模型,稍做調整就能落地應用。英偉達的NVIDIA AI Enterprise軟件,足足將AI模型開發(fā)時間從80周縮至8周。這樣的全棧布局,已經成為英偉達在數據中心企業(yè)級市場的殺手锏。你很難想出還有哪家企業(yè),擁有如此完備成熟的硬件產品矩陣、如此廣泛的AI計算開發(fā)者生態(tài),又在軟件模型研發(fā)方面積累雄厚。追溯其根由,黃仁勛的棋局布得著實步步高明,令人拍手稱妙。當數據中心浪潮還未鋪天蓋地、人工智能訓練還是小眾領域,黃仁勛已經投入重金,研發(fā)通用計算GPU和統(tǒng)一編程軟件CUDA,為英偉達謀一個遠超游戲業(yè)務的更大生意——計算平臺。在那時,讓GPU可編程,是個聽起來不知道有什么用,又會讓產品成本幾乎翻倍的技術改變。沒有客戶愿意為此買單,但預判到單一功能圖形處理器不是長遠之計的黃仁勛,還是毅然決定,在英偉達所有產品線上都應用CUDA。“Jensen(黃仁勛)作為創(chuàng)始人,在我們公司有非常權威的影響力,特別是人工智能這樣一些事情上?!辟嚳〗芑仡櫿f,為了這一愿景,早期黃仁勛快速調動了英偉達上上下下非常多的資源。
▲芯東西總編輯張國仁(左)與英偉達中國區(qū)工程和解決方案高級總監(jiān)賴俊杰博士(右)對話
那絕對是難熬的五年,恰逢金融危機爆發(fā)、游戲業(yè)務增長停滯,英偉達的利潤被近乎摧毀,股價也大幅下跌。但最終結果,是黃仁勛****贏了,正是他超前的決策、打造計算平臺的愿景,讓英偉達贏在了人工智能落地熱潮的起點——2012年,深度學習算法的強悍計算表現(xiàn)轟動學術圈,作為高算力且易用的生產力工具,GPU+CUDA迅速風靡計算機科學界,成為人工智能開發(fā)的“標配”。大量的芯片從業(yè)者這才恍然驚覺,急忙追隨這位芯圈“預言家”的腳步,給自家芯片構建可編程計算的能力和軟件棧。16年前CUDA的問世,讓從游戲開發(fā)者到超級計算開發(fā)者都可以編程使用英偉達的GPU產品;現(xiàn)在,英偉達繼續(xù)沿著降低開發(fā)門檻的思路,通過持續(xù)迭代AI模型、軟件及平臺,讓更多非專業(yè)AI開發(fā)者也能輕易投身于智能化升級的大潮中。如今“全?!币咽撬忻闇试贫藬祿行氖袌龅男酒镜墓沧R,即只有深入到應用中、理解應用的計算模式,才能給最終用戶提供足夠的價值。不同的是,他們還在探索的路上,而更早起步的英偉達已經坐擁先發(fā)優(yōu)勢,其產品經過大量的資源投入和市場歷練,不斷積累各種不同的行業(yè)應用認知和迭代優(yōu)化,并對英偉達的營收形成了正向的反饋。過去五年,英偉達數據中心營收復合年均增長率為53%。截至今年5月,英偉達2023財年Q1財報顯示,其數據中心業(yè)務銷售收入達到創(chuàng)紀錄的37.5億美元,同比增長83%,已成英偉達收入占比最大、成長性最高的第一大業(yè)務。當然,全棧的基礎,是基于出色架構設計而打造的高性能芯片,如果拋開芯片本身,只強調全?;蛘咴谲浖矫娴耐度耄鞘强罩袠情w。
02.橫向擴展:算網通吃,三芯合體
彪悍的芯片性能,無需做過多解釋。兩年前,NVIDIA A100 Tensor Core GPU作為英偉達面向AI加速和高性能計算打造的“算力猛獸”橫空出世,成為橫掃云端數據中心基礎設施的“頂流”硬件。光是不斷出現(xiàn)在各路AI計算論文及PPT展示的實測性能對比圖,足見A100一直被業(yè)界奉為AI訓練加速硬件的標桿。但正如前文所述,英偉達想做的,顯然不止是一顆芯片那么簡單。在今年國際權威AI基準測試平臺MLPerf公布的最新結果中,A100繼續(xù)保持了高光戰(zhàn)績,是唯一參與全部8項基準測試的AI加速器,并在其中6項測試中計算速度第一。
實現(xiàn)這一成績,靠得不僅僅是芯片理論峰值,而是系統(tǒng)級的比拼,即計算能力、內存帶寬、互連結構、軟件優(yōu)化等綜合作用的結果。在硬件層面,A100本身提供的高浮點計算能力、高內存帶寬等性能,能讓AI計算更快,但要想讓整個系統(tǒng)都快,關鍵在于突破網絡通信瓶頸。對此,英偉達的布局也非常完整,既有GPU之間、GPU與CPU之間的NVLink互連技術,也有Infiniband、高速以太網等,能支持大規(guī)模集群中跨節(jié)點的高速數據傳輸。在軟件層面,英偉達在cuDNN等算子加速庫、nccl等集體通信庫方面做了很多工作,不給高性能的A100 GPU拖后腿。“就像咱們經常在很多地方會舉的木桶理論。”賴俊杰打了個比方,由多塊木板構成的木桶,決定其盛水量的關鍵因素,不是最長的木板,而是最短的木板。類似的,數據中心要實現(xiàn)更好的整體實力,每個軟硬件基礎設施都不能有短板。因此,數據中心設計者必須更宏觀地考慮整個系統(tǒng)中的軟硬件搭配,來更好地支持AI應用落地。英偉達同樣在補齊硬件短板。2019年前,GPU還是英偉達芯片版圖中的唯一主角。三年間,英偉達接連發(fā)布自研DPU和CPU,將GPU從“唯一”變成了“三分之一”。
今年英偉達還亮出了一個將自研CPU和GPU拼裝到一起的互連“大招”NVLink-C2C,把數據傳輸速度相較連接傳統(tǒng)CPU提升15倍??紤]到現(xiàn)在GPU顯存大小受到工藝和成本的約束,這種將CPU和GPU粘在一起的做法,相當于間接擴展了GPU能訪問到的高速存儲,對于一些高性能計算或對GPU顯存容量要求高的應用場景尤其適用。
至此,坐擁三大算力支柱的英偉達,已經成為數據中心企業(yè)級市場中的一位“全能型戰(zhàn)士”。英偉達也試圖將GPU+CUDA的成功經驗復制到DPU等更多硬件上,即通過編程語言定義硬件,包括推廣針對DPU的DOCA、針對量子計算QPU的QODA軟件開發(fā)架構等。
03.成為數據中心的加速計算專家
對于數據中心客戶來說,英偉達的軟硬件技術組合就像“堆積木”,可以按需選購,難點在于怎么選,才能匹配綜合效用最大化的算力,以及實現(xiàn)更高的性價比。賴俊杰說,在數據中心企業(yè)級市場,英偉達扮演的核心角色可以用一個詞概之——加速計算專家。“我們比較擅長去做性能的分析、優(yōu)化?!彼窒淼?,為扮演好這個的角色,英偉達除了提供豐富的產品矩陣,還在幫助數據中心企業(yè)級客戶挖掘需求和提供技術搭配的建議。
在英偉達,賴俊杰主要負責帶領團隊對接中國區(qū)的核心大客戶技術需求。他告訴芯東西,提供多層面的服務支持,是他們日常工作非常重要的一部分。團隊中,不同角色的同事分工合作,來跟客戶坐在一起,幫客戶梳理分析最重要的工作負載特征,尋找計算的熱點,完成移植到GPU上的工作,并幫客戶調整優(yōu)化整個應用的鏈路性能。當發(fā)現(xiàn)客戶的一些典型應用、最關注的產品需求,他們會將這些需求反饋給產品團隊,最終變成英偉達的新產品或新功能。對于企業(yè)普遍關心的成本問題,黃仁勛的經典名言給出了答案:“買得越多,省得越多?!?/span>乍一聽可能會感覺矛盾,畢竟在芯片圈,GPU以高功耗而聞名。賴博士解釋說,這同樣是從系統(tǒng)的角度來算賬,通過軟硬件協(xié)同,最終整體能以更低的硬件成本,支撐起更多的業(yè)務應用。當然,更直觀的選購指南,是提供參考模板。在數據中心,英偉達團隊會配合OEM廠商,收集用戶的普遍需求,比如一個服務器里需要放幾塊卡等問題,根據這些需求將產品定型為幾個主要的類別,不同的類別會針對不同的應用場景。近年來,英偉達在訓練先進AI算法模型等方面開展了大量工作,并在此過程中積累了許多對于系統(tǒng)、硬件的需求?;谶@些需求及客戶反饋,他們將經驗匯總,提出了從服務器級別到整個數據中心級別的一些參考架構實現(xiàn)。對于少數在系統(tǒng)硬件設計層面擁有豐富經驗的大客戶,英偉達團隊也會配合它們,針對特定的重要場景展開合作,探討最合適的系統(tǒng)架構。根據市場情報公司Liftr Insights調查,2021年Q1英偉達在云端數據中心AI加速芯片市場的市占率高達78%,近年來基本穩(wěn)定在80%附近;另據全球超算評估組織Top500.Org數據,2021年下半年,英偉達在全球超算中心的市場占率超過90%。英偉達原本就在GPU性能和高度粘性的CUDA開發(fā)者生態(tài)上占據優(yōu)勢,又在客戶服務方面思慮周全,也就不難理解云端訓練端為何至今未出現(xiàn)一個能與其正面爭鋒的存在了。
04.落子未來:從AI大模型、工業(yè)元宇宙,到再造一個地球
作為國家新型基礎設施建設的重要組成部分,大數據中心、人工智能的戰(zhàn)略地位舉足輕重,國內智算中心建設大潮的大幕已然拉開。現(xiàn)在智能語音、圖像識別等技術愈發(fā)成熟,逐漸轉化出語音客服、推薦系統(tǒng)、醫(yī)療機器人等越來越多的行業(yè)應用價值。大模型、數字孿生、自主機器、虛擬化身等需求亦在工業(yè)界蓬勃而生。“作為數據中心設計者,必然要思考一個問題,如何能夠更好地支撐起這樣的應用?”賴俊杰說。一方面,大模型正發(fā)展成AI基礎研究和產業(yè)化落地的一大趨勢,其龐大的算力需求、分布式計算問題,以及如何用相對更低的整體成本去完成大模型的推理部署,都帶給數據中心新的挑戰(zhàn)。另一方面,工業(yè)數字孿生等應用場景開始將3D渲染能力跟AI結合,推進數實融合、構建工業(yè)元宇宙和推動數字化轉型的過程,必然會產生大量數據,如何高效利用這些數據,成為越來越多數據中心企業(yè)級應用所關注的話題。與以往一樣,英偉達早早地預見了這些趨勢,并針對數據中心客戶可能的需求,對其軟硬件產品進行相應的優(yōu)化。比如A100 GPU的繼任者——即將在今年下半年上市的H100 GPU,被英偉達稱作“實現(xiàn)了有史以來最快的代際飛躍”,其中尤其值得一提的新特性,便是引入Transformer Engine,用以加速基于Transformer的大模型訓練。
▲Hopper架構H100 GPU的主要升級
Transformer是當前自然語言處理領域最重要的模型結構之一,是一眾大模型的基礎,在數據中心工作負載中的地位日臻重要。賴俊杰說,H100 GPU一宣布,其數據中心客戶就表現(xiàn)出濃厚興趣。基于4608塊H100 GPU,英偉達還打造了Eos超級計算機,預計將提供18.4Exaflops的AI算力,為英偉達內部在氣候科學、數字生物學和AI方面的研究工作展開支持。據稱它在面向AI特定用途時,最大處理速度比當前的超算第一名還要快。這是英偉達「未來十年實現(xiàn)Million-X百萬倍性能飛躍」愿景的一部分,即通過加速計算、大規(guī)模擴展和AI的結合,實現(xiàn)百萬倍計算加速,推動科學和工業(yè)計算的發(fā)展,尤其是助力解決****物研發(fā)、宇宙模擬、數字孿生等重大挑戰(zhàn)。
其中特別有意思的一個項目是創(chuàng)建數字孿生地球,NVIDIA計劃建立AI超級計算及Earth-2,來應對氣候變化危機。做整個地球的數字孿生,是個極富挑戰(zhàn)的問題,其目的是構建一個氣候模型,來推演全球不同區(qū)域幾十年的氣候變化,從而提前制定好應對極端天氣變化的最佳策略。今天,我們做氣候模擬的分辨率大約為10~100公里。而要模擬全球從海洋、海冰、地表、地下水到大氣和云層的整個水循環(huán)過程,需要幾米的分辨率,以及比目前可用算力高出數百萬到數十億倍的算力。為此,英偉達計劃全力投入大量資源,將它所積累的各種先進技術,包括GPU加速計算、深度學習、內嵌物理信息的神經網絡突破以及AI超級計算機等全部投入其中,為實現(xiàn)超分辨率氣候建模所需的10億倍量級提供支撐。“Jensen(黃仁勛)作為英偉達的創(chuàng)始人,他在帶領整個公司往前走的時候,還是有一些情懷。”賴俊杰說,“無論是做Earth-2數字地球孿生,還是在醫(yī)療行業(yè)的大舉投入,這項動作的初衷,都是希望利用英偉達的能力和資源,做一些對整個人類群體有益的事情?!?/span>
05.結語:風物長宜放眼量
總體來看,英偉達在數據中心的制勝之道,可以歸于天時、地利、人和。天時,既有英偉達主導而成先發(fā)優(yōu)勢,也有深度學習浪潮爆發(fā)的偶然時代機遇。從21世紀初,英偉達就開始將GPU從單一圖形處理功能向通用計算方向改造,不斷迭代軟硬件和推進社區(qū)建設。如今其生態(tài)壁壘之深厚,已經不是其他芯片公司喊喊口號就能輕易追趕的。當然,如果不是2012年,深度學習之父Geoffrey Hinton團隊通過ImageNet挑戰(zhàn)賽展示出人工智能的驚人計算能力,那么英偉達在數據中心企業(yè)級市場的崛起,也許會再晚數年。地利,是隨著云計算、移動互聯(lián)網、智能駕駛、元宇宙等產業(yè)加速發(fā)展,企業(yè)對計算能力的旺盛需求,正推動全球范圍內數據中心建設如火如荼的開展,準備就緒的英偉達得以充分施展抱負,在數據中心企業(yè)級市場中大展宏圖。人和,是這一切布局的源頭,是英偉達核心人物黃仁勛看世界的遠見。無論是轉向通用計算平臺還是到提前全面布局人工智能,如果不是黃仁勛在早期快速調動公司上上下下的資源來做大規(guī)模投入,今天的人工智能和數據中心可能會是另一番景象。一路走來,英偉達沒有故步自封,而是持續(xù)擁抱新事物、新技術。無論是重新定義GPU,還是學習競爭對手的思路,抑或是不斷嘗試理解重要的領域應用對于計算系統(tǒng)的需求,其富有遠見的判斷力和持續(xù)自我重塑的執(zhí)行力,都在不斷延長英偉達的生命周期。結果正如我們所看到的,英偉達已經構建起堅固的護城河——全棧計算能力。盡管前方充滿了未知與風險,但這家芯片巨頭顯然早已下定決心,瞄準數據中心這條道路,并堅定地走下去。最后,回到數據中心架構層面,很多計算問題遠遠不止一顆芯片這么簡單,有時需要很多不同類型的芯片、不同的網絡結構高效協(xié)同,并配合大量的軟件工程師工作,才能最終將整體應用性能做到足夠顯著的提升。在先進技術探索之路上,每邁出的新一步,都值得我們保持敬畏。春江水暖鴨先知,已然身處數據中心加速計算中心的英偉達,在黃仁勛敏銳的戰(zhàn)略洞察指導下,仍在全力以赴投入研發(fā)創(chuàng)新,去支撐學術界和工業(yè)界解決那些最難的問題,創(chuàng)造更深遠的價值。
GTIC 2022演講預告
8月26日-27日,「GTIC 2022全球AI芯片峰會」將在深圳開啟。大會以“不負芯光 智算未來”為主題,將于深圳灣萬麗酒店大宴會廳舉行。
在大會首日上午舉行的AI芯片高峰論壇上,NVIDIA中國區(qū)工程及解決方案高級總監(jiān)賴俊杰將發(fā)表主題為《NVIDIA Hopper GPU 架構解析》的演講,賴俊杰博士將圍繞最新的NVIDIA Hopper架構,分享一些Hopper架構細節(jié)和底層技術。同時將介紹在圖神經網絡訓練任務上GPU的應用,和團隊的最新工作。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
霍爾傳感器相關文章:霍爾傳感器工作原理
霍爾傳感器相關文章:霍爾傳感器原理