從軟硬件到生態(tài)加速AI PC革命，英偉達憑實力證明RTX就是AI

發(fā)布人：芯東西時間：2023-12-17 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

一個插件讓顯卡速度翻3倍？解密英偉達AIGC時代的最新王牌。作者 | 云鵬
編輯 | 漠影
最近的AIGC圈著實迎來了一波新品發(fā)布小高潮！先是谷歌Gemini突然深夜炸場，硬剛OpenAI的GPT-4，然后是斯坦?？茖W(xué)家李飛飛團隊亮出AI視頻生成模型W.A.L.T，拳打Pika腳踢Gen-2，最近微軟又發(fā)布了手機端側(cè)都能跑的小語言模型Phi-2，平均性能甚至超過Llama 2。

▲W.A.L.T文生視頻案例片段

AI大模型火爆之下，各路科技巨頭幾乎都在“All in AI”，而AI軍備競賽已經(jīng)很快從云端卷到了端側(cè)，從智能手機到PC，我們身邊各類熟悉的智能硬件都已被卷入這場大模型浪潮。各類智能助手、各類AIGC相關(guān)應(yīng)用如雨后春筍般涌現(xiàn)，各類“GPTs”已經(jīng)逐漸進入大眾視野。熱況之下，AI大模型在端側(cè)的落地離不開底層硬件的支持，英偉達、英特爾、AMD等大廠也不斷亮出各種應(yīng)對AI新時代的軟硬件新品，加速著AI PC時代的到來。PC作為算力最強的消費級產(chǎn)品，成為AI大模型在端側(cè)應(yīng)用的最理想平臺之一。毫無疑問，AI將成為PC產(chǎn)業(yè)發(fā)展的一個關(guān)鍵拐點，AI也會徹底改變玩家、創(chuàng)作者、上班族、學(xué)生乃至每一個普通PC用戶的體驗。

▲圖片由Bing創(chuàng)作，來源：PCWorld

目前全球搭載英偉達RTX GPU的Windows PC和工作站已經(jīng)超過了1億臺，英偉達作為AI大模型時代最核心的全棧玩家，正通過全棧生態(tài)的賦能讓這些“RTX PC”的AI性能有翻倍式暴漲。在我們熟悉的文生圖應(yīng)用Stable Diffusion中，基于英偉達的RTX專用加速插件，一張RTX 4090僅用49秒就可以生成100張高質(zhì)量圖像，速度翻了3倍，而這樣的升級甚至不需要改變其他硬件配置。英偉達RTX相關(guān)技術(shù)在AI領(lǐng)域的應(yīng)用，讓全球無數(shù)開發(fā)者可以更輕松、高效地創(chuàng)建AI應(yīng)用，人們使用PC的方式，也在潛移默化中改變著。英偉達如何為AI PC時代的底層筑基？英偉達在AIGC時代藏得最深的王牌又是什么？今天，從硬件、軟件到生態(tài)，英偉達似乎已經(jīng)和AI畫上了等號。
01.從通用計算到加速計算，從數(shù)據(jù)中心到PC，英偉達CUDA生態(tài)占C位

今天的計算產(chǎn)業(yè)究竟醞釀著哪些關(guān)鍵變量，英偉達又在其中扮演著怎樣的角色？正如英偉達CEO黃仁勛在財報電話會中提到的，放眼如今的全球計算產(chǎn)業(yè)，有兩個重要的轉(zhuǎn)變值得注意：第一，用一種通用處理器處理一切工作的傳統(tǒng)通用計算已經(jīng)不再具有成本和效率的優(yōu)勢，與之相對的“加速計算”將成為主流。顧名思義，數(shù)據(jù)中心需要盡可能地去“加速”所有工作負載，這樣才能有更高的性能、能源效率和成本效益。第二，在加速計算的大趨勢下，新的軟件開發(fā)方式成為了可能，這也推動了軟件平臺的轉(zhuǎn)變，讓以前無法實現(xiàn)的應(yīng)用程序成為可能。或許正如黃仁勛所說，AI并不是一種奢侈品，AI是必需品，AI的投資是一種戰(zhàn)略性的迫切需求，可以幫企業(yè)提高未來的競爭力。在這場“不能輸”的AI之戰(zhàn)中，英偉達的GPU儼然已經(jīng)走到了舞臺中央，已經(jīng)走到了全球“AI新工業(yè)”的中央。在黃仁勛看來，如今的數(shù)據(jù)中心就像一座“AI工廠”，數(shù)據(jù)是原材料，被生產(chǎn)、開發(fā)、精煉，轉(zhuǎn)化為世界上最有價值的東西——智能。顯然，這對于所有科技巨頭來說，都是一場技術(shù)乃至商業(yè)范式的革新。

在這樣的大背景下，各行各業(yè)都在經(jīng)歷從通用計算到加速計算和生成式AI的平臺化轉(zhuǎn)型，而英偉達最新一季財報中數(shù)據(jù)中心業(yè)務(wù)接近280%的強勁同比增長也恰恰證明了這一點。AI大模型的初創(chuàng)公司、消費互聯(lián)網(wǎng)公司和全球云巨頭們都在積極“備戰(zhàn)”，各大云服務(wù)商不斷加大對AI云的投入，企業(yè)級軟件公司也陸續(xù)為自己的平臺增加AI相關(guān)應(yīng)用和功能，不少廠商都推出了定制化AI產(chǎn)品，推動著各大行業(yè)的智能化、自動化發(fā)展。熱潮之下，英偉達的GPU、CPU、網(wǎng)絡(luò)、AI foundry、AI企業(yè)軟件解決方案等產(chǎn)品和服務(wù)都成為加速這一轉(zhuǎn)型的核心“引擎”。

上述各行各業(yè)的智能化、自動化與計算產(chǎn)業(yè)密不可分，在計算產(chǎn)業(yè)中，除了數(shù)據(jù)中心在經(jīng)歷“加速計算”的轉(zhuǎn)型，PC產(chǎn)業(yè)作為計算的關(guān)鍵一環(huán)，也同樣經(jīng)歷著類似的轉(zhuǎn)變。當(dāng)下，各類生成式AI產(chǎn)品正迅速成為高性能PC的支柱型應(yīng)用，在各行各業(yè)從業(yè)者的日常工作中發(fā)揮著重要作用。而英偉達的RTX GPU，無疑已成為AI PC時代最核心的底層技術(shù)支撐。為什么英偉達的GPU能夠在AI時代走到如此關(guān)鍵的位置，并且?guī)缀跏恰安豢商娲钡模?/span>實際上，提到英偉達的GPU，就不得不提到CUDA。在黃仁勛看來，英偉達是通過發(fā)明CUDA這種新編程工具，以及GPU這種處理器來推動加速計算的。CPU無法高效執(zhí)行的工作，GPU可以進行有效的加速，并且在性能、能源成本上有著顯著優(yōu)勢?；贑UDA的GPU經(jīng)歷近25年的發(fā)展，如今已經(jīng)與開發(fā)者、系統(tǒng)制造商、云服務(wù)提供商、技術(shù)制造商和用戶深度綁定，CUDA生態(tài)系統(tǒng)已經(jīng)為各行各業(yè)所信任，這也是英偉達有著不可替代性的根本性因素之一。

在深度學(xué)習(xí)、AI大模型的發(fā)展中，英偉達所提出的加速計算發(fā)揮著關(guān)鍵作用，生成式AI的崛起與其密不可分，這也被很多人稱之為“第四次工業(yè)革命”。在黃仁勛看來，智能是最有價值的，倘若智能可以批量化、自動化的生產(chǎn)，其帶來的價值是不可估量的。如今英偉達所做的，正是推動這一未來走入現(xiàn)實。
02.兼容性架構(gòu)鋪路，TensorRT-LLM讓推理性能翻倍，AI繪圖進入“秒速時代”

正如前文所說，英偉達在技術(shù)生態(tài)方面的布局，尤其是25年來在CUDA領(lǐng)域的深耕，是其能夠在AI時代占據(jù)C位的關(guān)鍵。而這樣的生態(tài)布局如今在PC產(chǎn)業(yè)中釋放的能量開始愈發(fā)凸顯。今年四季度，英偉達發(fā)布了一個名為TensorRT-LLM的引擎優(yōu)化編譯器，其目的就是進一步提升大語言模型的AI推理性能。

AI大模型在云端的訓(xùn)練需要消耗大量算力，而AI大模型真正走入每個人的生活，更需要解決推理這“最后一公里”的難題，因為實際場景中的推理任務(wù)往往是極為復(fù)雜的。根據(jù)官方數(shù)據(jù)，在TensorRT-LLM的加持下，對于Lambda2這樣的大語言模型，H200的推理能力可以提高到H100的2倍，成本也有著稱成倍降低，與H100相比，H200在GPT-3模型上的推理性能有著18倍的提升，得益于此，英偉達的客戶可以使用更大的模型，但延遲卻不會增加。

▲TensorRT-LLM v0.6.0可以帶來最高5倍推理性能提升

實際上，TensorRT-LLM有著這樣的表現(xiàn)，與CUDA的特性是密不可分的。英偉達CFO在財報電話會中特別提到，他們之所以能夠創(chuàng)建TensorRT-LLM，正是因為CUDA是可編程的，如果CUDA和其對應(yīng)的GPU不是可編程的，以如今這樣快的速度迭代改進軟件棧是很難實現(xiàn)的。經(jīng)過20多年的深耕，每一個英偉達GPU的背后，都是不斷迭代更新的軟件棧在做堅實支撐，而CUDA的靈活性和兼容性無一不是這一生態(tài)的突出優(yōu)勢。英偉達有著規(guī)模龐大的生態(tài)系統(tǒng)軟件開發(fā)人員、系統(tǒng)制造商生態(tài)系統(tǒng)和分銷合作網(wǎng)絡(luò)，而將這些真正連結(jié)在一起形成一個高效生態(tài)系統(tǒng)的，正是英偉達CUDA軟件生態(tài)和架構(gòu)層面的兼容性。

英偉達CFO稱，一切基于兼容性構(gòu)筑是他們幾十年前就做出的一個偉大決定，保證架構(gòu)的兼容性也一直是他們的首要任務(wù)。每當(dāng)英偉達引入一個新的特性、新功能、新技術(shù)時，生態(tài)中的開發(fā)者們會立即從各個方面獲益，享受到這些紅利。目前英偉達在全球有28000名員工，他們服務(wù)于全球各地、各個行業(yè)、不同的市場和公司，但依然可以保持高效協(xié)作，這與良好的兼容性密不可分。而這樣的兼容性進一步帶來的就是英偉達平臺的穩(wěn)定性，這也是全球各類新應(yīng)用幾乎都選擇率先在英偉達平臺上進行開發(fā)并進行優(yōu)化的關(guān)鍵原因之一。云計算領(lǐng)域的數(shù)據(jù)中心中有著數(shù)百萬英偉達GPU，而全球PC和工作站用戶手中又有著1億多塊英偉達GPU，他們在架構(gòu)上都是兼容的，因此所有基于英偉達平臺實現(xiàn)的技術(shù)創(chuàng)新，都可以快速應(yīng)用到這些數(shù)以百萬計、數(shù)以億計的產(chǎn)品中。這也可以說是英偉達人無我有的核心優(yōu)勢之一。最后，在加速計算方面，英偉達GPU可以為Spark、Python甚至是目前最成功的數(shù)據(jù)科學(xué)框架Pandas進行加速，據(jù)了解，Pandas現(xiàn)在由英偉達的CUDA加速，并且無需代碼行就能用起來。在企業(yè)和專業(yè)領(lǐng)域之外，對于普通用戶來說，英偉達GPU帶來的加速能力也是感知極強的。就在今年四季度，英偉達在發(fā)布TensorRT-LLM的同時也帶來了TensorRT-LLM for Windows，與此同時，微軟也在Ignite大會上發(fā)布了OpenAI Chat API的 TensorRT-LLM封裝接口、RTX驅(qū)動的性能改進DirectML for Llama 2等新工具和資源。

可以說，Windows PC的終端用戶們也可以享受到TensorRT-LLM帶來的加速紅利了。根據(jù)官方數(shù)據(jù)，TensorRT-LLM?for Windows可以將終端設(shè)備上的大語言模型推理性能最高提升4倍左右，而目前英偉達RTX GPU的裝機量已經(jīng)超過了1億臺，這一新特性也已經(jīng)快速全面普及開來，這對于應(yīng)用程序開發(fā)者們來說無疑是一大喜訊。TensorRT-LLM for Windows的推出無疑意味著AI大模型可以更好的應(yīng)用于端側(cè)RTX PC中，滿足用戶各類AIGC需求，提升用戶的AI PC體驗。數(shù)以百計的AI相關(guān)開發(fā)者項目和應(yīng)用都可以直接在搭載RTX GPU的PC上本地運行，同時，用戶的私人和專有數(shù)據(jù)也可以在PC本地進行保存。值得一提的時，TensorRT-LLM也在持續(xù)更新，支持更多新的熱門大模型，比如Mistral 7B 和 Nemotron-3 8B，這些版本的TensorRT-LLM可以直接運行在8GB 及以上顯存的GeForce RTX 30系列和40系列GPU上。

▲TensorRT擴展的配置需求，由Bilibili UP主Nenly同學(xué)制作

根據(jù)Bilibili平臺上一位專業(yè)設(shè)計師UP主Nenly同學(xué)的測試，在Tensor RT的加持下，Stable Diffusion這一熱門文生圖應(yīng)用基于RTX GPU生成的模型推理速度直接提升了2倍甚至3倍以上，AI繪畫進入了“秒速時代”。

▲標(biāo)準(zhǔn)StableDiffusion與TensorRT引擎優(yōu)化后相比，每分鐘繪制圖片數(shù)的差異，由Bilibili UP主Nenly同學(xué)制作

根據(jù)Nenly同學(xué)發(fā)布視頻，在GeForce RTX 4090上，Stable Diffusion的運行速度是使用蘋果M2 Ultra的Mac頂配版的7倍。甚至4060Ti在TensorRT擴展的支持下，生成圖片的速度已經(jīng)超過了加速前的4090。對于一些需要大量出具草圖的創(chuàng)意工作者們來說，這樣的加速能力所帶來的收益是極為明顯的。面對數(shù)千張圖片吞吐量的工作，節(jié)省下來的時間可能是以天計算的。比如被譽為“插畫領(lǐng)域的劉慈欣”、“國內(nèi)科幻繪畫第一人”，也是首位獲得全球雨果獎的華人藝術(shù)家趙恩哲，在工作中就使用了全流程經(jīng)GeForce RTX GPU加速的Stable Diffusion進行創(chuàng)作，AI輔助創(chuàng)作工具可以省掉細化時間，同時給他很多意向不到的創(chuàng)作設(shè)計可能。

▲《虛空之舟》——使用SD創(chuàng)作，全流程經(jīng)GeForce RTX GPU加速

趙恩哲特別說道，其實每位創(chuàng)作者都渴望將腦海中的世界完美呈現(xiàn)，但由于技術(shù)門檻和工業(yè)化流程等方面的限制，他們過去只能在概念設(shè)計與最終呈現(xiàn)之間做出妥協(xié)。但如今，借助英偉達GeForce RTX顯卡的強大算力以及SD、RUNWAY等AI創(chuàng)意工具，概念設(shè)計師可以突破限制，在短短幾秒內(nèi)嘗試所有想法，相信今后有了更強大的算力加持，每位藝術(shù)家都可以實現(xiàn)無限創(chuàng)造！

▲趙恩哲

當(dāng)然，基于RTX GPU這些能力，相關(guān)公司也可以基于自己的模型構(gòu)建具有最有效果的加速引擎，讓算力的效益最大化，從而實現(xiàn)顯著的降本增效。可以說，從企業(yè)到個人，從數(shù)據(jù)中心到PC，基于數(shù)十年建立的堅實生態(tài)，英偉達正通過技術(shù)創(chuàng)新拉近每一個人與AI大模型的距離。
03.DLSS用AI改寫游戲產(chǎn)業(yè)，英偉達為開發(fā)者武裝到牙齒，RTX就是AI

今天，我們看到了Tensor RT對于PC端側(cè)運行AI大模型能力帶來的顛覆式升級，而在此之外，英偉達RTX GPU已經(jīng)深耕AI領(lǐng)域多年，如今提到AI，幾乎就等于提到英偉達。用英偉達CFO的話來說，“RTX就是AI”。在游戲領(lǐng)域，這一特點體現(xiàn)的尤為明顯。這其中最具代表性的就是DLSS技術(shù)，這也是英偉達最早推出的AI模型之一，從五年前的首次亮相至今，DLSS技術(shù)經(jīng)歷了多個大版本迭代，AI技術(shù)的融入也愈發(fā)深入，目前已經(jīng)包含超分辨率、幀生成和光線重建三個不同的模型。據(jù)了解，從發(fā)布之初，DLSS技術(shù)就一直離不開背后AI模型的持續(xù)學(xué)習(xí)，AI模型學(xué)習(xí)的結(jié)果不斷反饋迭代，推動DLSS技術(shù)完善，進而提高DLSS技術(shù)在游戲中帶來的性能和畫質(zhì)提升。今年英偉達推出了DLSS 3.5，其對于游戲圖形渲染技術(shù)發(fā)展的推動是極為明顯的，基于新的AI模型光線重建，DLSS 3.5可以創(chuàng)建出更高質(zhì)量的光線追蹤畫面，同時還能進一步提升游戲的幀率表現(xiàn)，可以說是一舉兩得。

這一技術(shù)也在游戲玩家中收到了廣泛好評。根據(jù)官方數(shù)據(jù)，目前支持RTX特性的游戲和應(yīng)用已經(jīng)超過了500個，這一生態(tài)系統(tǒng)的發(fā)展壯大，可以說為玩家們帶來了真正體驗上的直觀提升。

除了游戲，在生產(chǎn)力創(chuàng)作領(lǐng)域，根據(jù)官方數(shù)據(jù)，目前英偉達的RTX GPU加速了110多個創(chuàng)作類應(yīng)用，尤其在生成式AI相關(guān)應(yīng)用領(lǐng)域，RTX GPU的應(yīng)用更為廣泛。如今，AI PC時代的大門已經(jīng)被推開了，各路廠商都在積極找準(zhǔn)自己的定位，進行產(chǎn)品和技術(shù)的布局，而在這場時代大潮中，開發(fā)者們的作用至關(guān)重要，在RTX加持下，開發(fā)者現(xiàn)在可以直接利用前沿AI大模型，通過跨供應(yīng)商API來部署自己的應(yīng)用。英偉達一直在做的，其實就是增強開發(fā)者的能力，在AI新時代為開發(fā)者們武裝到牙齒。英偉達提供的新優(yōu)化、新模型和資源無疑會加速AI功能和應(yīng)用在全球 1億多臺RTX PC上的開發(fā)和部署，AI與PC的融合，會變得越來越簡單。
04.結(jié)語：AIGC時代要想玩轉(zhuǎn)AI，英偉達是徹底繞不開了

在AIGC風(fēng)起云涌的當(dāng)下，無數(shù)創(chuàng)企涌入賽道，消費者們也爭相接觸新的技術(shù)、感受生成式AI帶來的體驗革新，而英偉達無疑成為了風(fēng)口浪尖上的一顆明星企業(yè)，從硬件、軟件到生態(tài)，英偉達的王牌一張接著一張。AI技術(shù)的發(fā)展，引起了整個計算產(chǎn)業(yè)范式的革新，加速計算概念的落地普及，牽動著全球各行各業(yè)的企業(yè)。從數(shù)據(jù)中心到我們每個人家中的PC，英偉達的技術(shù)正深入每一處，在AI技術(shù)落地的過程中，發(fā)揮著關(guān)鍵作用。如今回顧科技產(chǎn)業(yè)發(fā)展的歷史，我們能清楚地看到，那些最成功的公司，無一不是憑借生態(tài)取勝，從自身的產(chǎn)品技術(shù)生態(tài)到與產(chǎn)業(yè)鏈各領(lǐng)域玩家聯(lián)合形成的牢固生態(tài)，生態(tài)必然會成為當(dāng)今科技巨頭們比拼的核心焦點。不論如何，在當(dāng)下的AIGC時代，想要乘風(fēng)而行，走在浪尖，英偉達這艘大船，是必須要上了。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

從軟硬件到生態(tài)加速AI PC革命，英偉達憑實力證明RTX就是AI

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

從軟硬件到生態(tài)加速AI PC革命，英偉達憑實力證明RTX就是AI

相關(guān)推薦

技術(shù)專區(qū)

從軟硬件到生態(tài)加速AI PC革命，英偉達憑實力證明RTX就是AI