從軟硬件到生態(tài)加速AI PC革命,英偉達憑實力證明RTX就是AI
一個插件讓顯卡速度翻3倍?解密英偉達AIGC時代的最新王牌。作者 | 云鵬
編輯 | 漠影
最近的AIGC圈著實迎來了一波新品發(fā)布小高潮!先是谷歌Gemini突然深夜炸場,硬剛OpenAI的GPT-4,然后是斯坦??茖W家李飛飛團隊亮出AI視頻生成模型W.A.L.T,拳打Pika腳踢Gen-2,最近微軟又發(fā)布了手機端側(cè)都能跑的小語言模型Phi-2,平均性能甚至超過Llama 2。
01.從通用計算到加速計算,從數(shù)據(jù)中心到PC,英偉達CUDA生態(tài)占C位
02.兼容性架構(gòu)鋪路,TensorRT-LLM讓推理性能翻倍,AI繪圖進入“秒速時代”
03.DLSS用AI改寫游戲產(chǎn)業(yè),英偉達為開發(fā)者武裝到牙齒,RTX就是AI
04.結(jié)語:AIGC時代要想玩轉(zhuǎn)AI,英偉達是徹底繞不開了
編輯 | 漠影
最近的AIGC圈著實迎來了一波新品發(fā)布小高潮!先是谷歌Gemini突然深夜炸場,硬剛OpenAI的GPT-4,然后是斯坦??茖W家李飛飛團隊亮出AI視頻生成模型W.A.L.T,拳打Pika腳踢Gen-2,最近微軟又發(fā)布了手機端側(cè)都能跑的小語言模型Phi-2,平均性能甚至超過Llama 2。
▲W.A.L.T文生視頻案例片段
AI大模型火爆之下,各路科技巨頭幾乎都在“All in AI”,而AI軍備競賽已經(jīng)很快從云端卷到了端側(cè),從智能手機到PC,我們身邊各類熟悉的智能硬件都已被卷入這場大模型浪潮。各類智能助手、各類AIGC相關(guān)應(yīng)用如雨后春筍般涌現(xiàn),各類“GPTs”已經(jīng)逐漸進入大眾視野。熱況之下,AI大模型在端側(cè)的落地離不開底層硬件的支持,英偉達、英特爾、AMD等大廠也不斷亮出各種應(yīng)對AI新時代的軟硬件新品,加速著AI PC時代的到來。PC作為算力最強的消費級產(chǎn)品,成為AI大模型在端側(cè)應(yīng)用的最理想平臺之一。毫無疑問,AI將成為PC產(chǎn)業(yè)發(fā)展的一個關(guān)鍵拐點,AI也會徹底改變玩家、創(chuàng)作者、上班族、學生乃至每一個普通PC用戶的體驗。▲圖片由Bing創(chuàng)作,來源:PCWorld
目前全球搭載英偉達RTX GPU的Windows PC和工作站已經(jīng)超過了1億臺,英偉達作為AI大模型時代最核心的全棧玩家,正通過全棧生態(tài)的賦能讓這些“RTX PC”的AI性能有翻倍式暴漲。在我們熟悉的文生圖應(yīng)用Stable Diffusion中,基于英偉達的RTX專用加速插件,一張RTX 4090僅用49秒就可以生成100張高質(zhì)量圖像,速度翻了3倍,而這樣的升級甚至不需要改變其他硬件配置。英偉達RTX相關(guān)技術(shù)在AI領(lǐng)域的應(yīng)用,讓全球無數(shù)開發(fā)者可以更輕松、高效地創(chuàng)建AI應(yīng)用,人們使用PC的方式,也在潛移默化中改變著。英偉達如何為AI PC時代的底層筑基?英偉達在AIGC時代藏得最深的王牌又是什么?今天,從硬件、軟件到生態(tài),英偉達似乎已經(jīng)和AI畫上了等號。01.從通用計算到加速計算,從數(shù)據(jù)中心到PC,英偉達CUDA生態(tài)占C位
02.兼容性架構(gòu)鋪路,TensorRT-LLM讓推理性能翻倍,AI繪圖進入“秒速時代”
▲TensorRT-LLM v0.6.0可以帶來最高5倍推理性能提升
實際上,TensorRT-LLM有著這樣的表現(xiàn),與CUDA的特性是密不可分的。英偉達CFO在財報電話會中特別提到,他們之所以能夠創(chuàng)建TensorRT-LLM,正是因為CUDA是可編程的,如果CUDA和其對應(yīng)的GPU不是可編程的,以如今這樣快的速度迭代改進軟件棧是很難實現(xiàn)的。經(jīng)過20多年的深耕,每一個英偉達GPU的背后,都是不斷迭代更新的軟件棧在做堅實支撐,而CUDA的靈活性和兼容性無一不是這一生態(tài)的突出優(yōu)勢。英偉達有著規(guī)模龐大的生態(tài)系統(tǒng)軟件開發(fā)人員、系統(tǒng)制造商生態(tài)系統(tǒng)和分銷合作網(wǎng)絡(luò),而將這些真正連結(jié)在一起形成一個高效生態(tài)系統(tǒng)的,正是英偉達CUDA軟件生態(tài)和架構(gòu)層面的兼容性。英偉達CFO稱,一切基于兼容性構(gòu)筑是他們幾十年前就做出的一個偉大決定,保證架構(gòu)的兼容性也一直是他們的首要任務(wù)。每當英偉達引入一個新的特性、新功能、新技術(shù)時,生態(tài)中的開發(fā)者們會立即從各個方面獲益,享受到這些紅利。目前英偉達在全球有28000名員工,他們服務(wù)于全球各地、各個行業(yè)、不同的市場和公司,但依然可以保持高效協(xié)作,這與良好的兼容性密不可分。而這樣的兼容性進一步帶來的就是英偉達平臺的穩(wěn)定性,這也是全球各類新應(yīng)用幾乎都選擇率先在英偉達平臺上進行開發(fā)并進行優(yōu)化的關(guān)鍵原因之一。云計算領(lǐng)域的數(shù)據(jù)中心中有著數(shù)百萬英偉達GPU,而全球PC和工作站用戶手中又有著1億多塊英偉達GPU,他們在架構(gòu)上都是兼容的,因此所有基于英偉達平臺實現(xiàn)的技術(shù)創(chuàng)新,都可以快速應(yīng)用到這些數(shù)以百萬計、數(shù)以億計的產(chǎn)品中。這也可以說是英偉達人無我有的核心優(yōu)勢之一。最后,在加速計算方面,英偉達GPU可以為Spark、Python甚至是目前最成功的數(shù)據(jù)科學框架Pandas進行加速,據(jù)了解,Pandas現(xiàn)在由英偉達的CUDA加速,并且無需代碼行就能用起來。在企業(yè)和專業(yè)領(lǐng)域之外,對于普通用戶來說,英偉達GPU帶來的加速能力也是感知極強的。就在今年四季度,英偉達在發(fā)布TensorRT-LLM的同時也帶來了TensorRT-LLM for Windows,與此同時,微軟也在Ignite大會上發(fā)布了OpenAI Chat API的 TensorRT-LLM封裝接口、RTX驅(qū)動的性能改進DirectML for Llama 2等新工具和資源。可以說,Windows PC的終端用戶們也可以享受到TensorRT-LLM帶來的加速紅利了。根據(jù)官方數(shù)據(jù),TensorRT-LLM?for Windows可以將終端設(shè)備上的大語言模型推理性能最高提升4倍左右,而目前英偉達RTX GPU的裝機量已經(jīng)超過了1億臺,這一新特性也已經(jīng)快速全面普及開來,這對于應(yīng)用程序開發(fā)者們來說無疑是一大喜訊。TensorRT-LLM for Windows的推出無疑意味著AI大模型可以更好的應(yīng)用于端側(cè)RTX PC中,滿足用戶各類AIGC需求,提升用戶的AI PC體驗。數(shù)以百計的AI相關(guān)開發(fā)者項目和應(yīng)用都可以直接在搭載RTX GPU的PC上本地運行,同時,用戶的私人和專有數(shù)據(jù)也可以在PC本地進行保存。值得一提的時,TensorRT-LLM也在持續(xù)更新,支持更多新的熱門大模型,比如Mistral 7B 和 Nemotron-3 8B,這些版本的TensorRT-LLM可以直接運行在8GB 及以上顯存的GeForce RTX 30系列和40系列GPU上。▲TensorRT擴展的配置需求,由Bilibili UP主Nenly同學制作
根據(jù)Bilibili平臺上一位專業(yè)設(shè)計師UP主Nenly同學的測試,在Tensor RT的加持下,Stable Diffusion這一熱門文生圖應(yīng)用基于RTX GPU生成的模型推理速度直接提升了2倍甚至3倍以上,AI繪畫進入了“秒速時代”。▲標準StableDiffusion與TensorRT引擎優(yōu)化后相比,每分鐘繪制圖片數(shù)的差異,由Bilibili UP主Nenly同學制作
根據(jù)Nenly同學發(fā)布視頻,在GeForce RTX 4090上,Stable Diffusion的運行速度是使用蘋果M2 Ultra的Mac頂配版的7倍。甚至4060Ti在TensorRT擴展的支持下,生成圖片的速度已經(jīng)超過了加速前的4090。對于一些需要大量出具草圖的創(chuàng)意工作者們來說,這樣的加速能力所帶來的收益是極為明顯的。面對數(shù)千張圖片吞吐量的工作,節(jié)省下來的時間可能是以天計算的。比如被譽為“插畫領(lǐng)域的劉慈欣”、“國內(nèi)科幻繪畫第一人”,也是首位獲得全球雨果獎的華人藝術(shù)家趙恩哲,在工作中就使用了全流程經(jīng)GeForce RTX GPU加速的Stable Diffusion進行創(chuàng)作,AI輔助創(chuàng)作工具可以省掉細化時間,同時給他很多意向不到的創(chuàng)作設(shè)計可能。▲《虛空之舟》——使用SD創(chuàng)作,全流程經(jīng)GeForce RTX GPU加速
趙恩哲特別說道,其實每位創(chuàng)作者都渴望將腦海中的世界完美呈現(xiàn),但由于技術(shù)門檻和工業(yè)化流程等方面的限制,他們過去只能在概念設(shè)計與最終呈現(xiàn)之間做出妥協(xié)。但如今,借助英偉達GeForce RTX顯卡的強大算力以及SD、RUNWAY等AI創(chuàng)意工具,概念設(shè)計師可以突破限制,在短短幾秒內(nèi)嘗試所有想法,相信今后有了更強大的算力加持,每位藝術(shù)家都可以實現(xiàn)無限創(chuàng)造!▲趙恩哲
當然,基于RTX GPU這些能力,相關(guān)公司也可以基于自己的模型構(gòu)建具有最有效果的加速引擎,讓算力的效益最大化,從而實現(xiàn)顯著的降本增效。可以說,從企業(yè)到個人,從數(shù)據(jù)中心到PC,基于數(shù)十年建立的堅實生態(tài),英偉達正通過技術(shù)創(chuàng)新拉近每一個人與AI大模型的距離。03.DLSS用AI改寫游戲產(chǎn)業(yè),英偉達為開發(fā)者武裝到牙齒,RTX就是AI
04.結(jié)語:AIGC時代要想玩轉(zhuǎn)AI,英偉達是徹底繞不開了
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。