干貨分享|NVIDIA GPU應(yīng)用解決方案加速AI應(yīng)用落地
前言:現(xiàn)今已是2023年了,科技在快速發(fā)展,特別是數(shù)字智能時(shí)代的到來(lái),AI作為核心驅(qū)動(dòng)力量為醫(yī)療行業(yè)、汽車行業(yè)以及AI等行業(yè)帶來(lái)了巨大轉(zhuǎn)變。
本文引用地址:http://2s4d.com/article/202302/442943.htm如在醫(yī)療行業(yè),應(yīng)用認(rèn)知計(jì)算技術(shù)AI能為人們的健康保駕護(hù)航,將人工智能應(yīng)用到醫(yī)院平臺(tái),能從各種渠道分析訪問(wèn)者的健康狀況并提供保健相關(guān)的洞察力,并與訪問(wèn)者進(jìn)行雙向互動(dòng)。對(duì)于患者而言,AI可以幫助自己預(yù)知發(fā)病時(shí)間,并及時(shí)尋求有效的解決方案;
如在汽車行業(yè),可以利用AI技術(shù)進(jìn)行自動(dòng)駕駛,改變我們的出行方式,創(chuàng)造更安全、更高效的出行方式;
如在AI行業(yè),人工智能可以自主學(xué)習(xí)大量而深厚的專業(yè)知識(shí),開(kāi)發(fā)者能通過(guò)人工智能對(duì)這些大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行訓(xùn)練、推理和學(xué)習(xí)。
……
我們都知道支撐AI應(yīng)用需要完善的基礎(chǔ)架構(gòu),但是在AI解決方案部署過(guò)程中,從底層算力平臺(tái)到上層資源管理軟件,整個(gè)基礎(chǔ)架構(gòu)需要集成CPU、GPU、存儲(chǔ)、網(wǎng)絡(luò)等多種硬件基礎(chǔ)設(shè)施,其中GPU是部署過(guò)程中的關(guān)鍵,因?yàn)?a class="contentlabel" href="http://2s4d.com/news/listbylabel/label/GPU">GPU加速計(jì)算是近年來(lái)集群建設(shè)的主流方案,可以提供卓越的應(yīng)用程序性能,將應(yīng)用程序計(jì)算密集部分的工作負(fù)載轉(zhuǎn)移到GPU,同時(shí)仍由CPU運(yùn)行其余程序代碼,可顯著提高應(yīng)用程序的運(yùn)行速度,建設(shè)一個(gè)GPU高性能計(jì)算集群可以提供一個(gè)GPU加速的人工智能實(shí)驗(yàn)平臺(tái),促進(jìn)企業(yè)人工智能、大數(shù)據(jù)、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等算法方面的研究和應(yīng)用。
此外,還需要pytorch、Tensorflow等AI框架,AI框架是為了更輕松、高效地研究和應(yīng)用深度學(xué)習(xí),目前主流的深度學(xué)習(xí)框架都很好的支持GPU加速,框架可專門(mén)為深度神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練所需的計(jì)算提供支持高度優(yōu)化GPU的代碼NVIDIA的框架經(jīng)過(guò)調(diào)優(yōu)和測(cè)試,可提供非常出色的GPU性能,借助這些框架,用戶可以通過(guò)簡(jiǎn)單的命令行或Python等腳本語(yǔ)言接口訪問(wèn)代碼。許多功能強(qiáng)大的DNN都可通過(guò)這些框架來(lái)訓(xùn)練和部署,而無(wú)需編寫(xiě)任何GPU或復(fù)雜的編譯代碼。再通過(guò)docker容器技術(shù),調(diào)度器等軟件進(jìn)行統(tǒng)一的計(jì)算資源與數(shù)據(jù)庫(kù)管理和調(diào)度,可從GPU加速帶來(lái)的訓(xùn)練速度提高中受益。
如果將能成功跑起來(lái)的AI應(yīng)用比做一輛車,那么算法就是發(fā)動(dòng)機(jī),大數(shù)據(jù)是油,提供動(dòng)力,而GPU計(jì)算力就是車輪,只有三者相匹配、融為一體,才能跑得快、跑得遠(yuǎn)。
工欲善其事必先利其器, 機(jī)房建設(shè)是部署AI應(yīng)用的基礎(chǔ),也是整個(gè)基礎(chǔ)架構(gòu)中最底層的部分,合理的機(jī)房建設(shè)可以滿足未來(lái)計(jì)算資源的擴(kuò)容,可以提高計(jì)算資源的利用率,節(jié)省空間與能耗,機(jī)房基礎(chǔ)設(shè)施涉及服務(wù)器機(jī)柜、KVM切換器、UPS不間斷電源、精密空調(diào)、防靜電地板,新風(fēng)系統(tǒng)、隔音的處理等等,機(jī)房基礎(chǔ)建設(shè)要考慮未來(lái)算力資源的擴(kuò)充,提前根據(jù)算力平臺(tái)的功耗考慮供電系統(tǒng),根據(jù)設(shè)備的數(shù)量考慮機(jī)房空間。
另外機(jī)房基礎(chǔ)建設(shè)分為傳統(tǒng)機(jī)房和模塊化機(jī)房,傳統(tǒng)機(jī)房一般采用工業(yè)空調(diào)對(duì)機(jī)房整體空間制冷的方式,或者是采用精密空調(diào)架空地板下送風(fēng)方式制冷方式,模塊化機(jī)房與傳統(tǒng)機(jī)房最大的區(qū)別在于能夠最大限度的利用制冷功率為設(shè)備散熱。因?yàn)槠洳捎梅忾]冷通道方式,冷氣與熱氣隔離,整體提高制冷效率;空調(diào)與IT機(jī)柜并排間隔擺放,采用空調(diào)水平送風(fēng)直接對(duì)機(jī)柜吹冷風(fēng),滿足其散熱需求,為客戶節(jié)約大量運(yùn)營(yíng)成本。其次,模塊化機(jī)房能夠快速部署。因其出廠前完成機(jī)柜的預(yù)安裝,現(xiàn)場(chǎng)只需接通外部電源,固定機(jī)柜等簡(jiǎn)單操作即可使用,思騰合力包頭云計(jì)算中心即采用模塊化機(jī)房,位于包頭市稀土高新區(qū),總面積2400平米,地板承重800KG/㎡,抗震烈度等級(jí)8級(jí),電力方面稀土變+沼潭變,雙市電保障,發(fā)電機(jī)冗余,滿負(fù)荷下可運(yùn)行12小時(shí),并與加油站簽署供油合同,UPS采用采用2N冗余UPS供電,滿載后備120分鐘,空調(diào)方面采用N+1列間精密空調(diào),運(yùn)營(yíng)安全方面采用雙冗余華為6680防火墻,開(kāi)啟IPS/IDS/防病毒功能,采用7x24小時(shí)不間斷全方位機(jī)房監(jiān)控,采用大數(shù)據(jù)動(dòng)態(tài)感知系統(tǒng),實(shí)時(shí)分析預(yù)警。
在解決機(jī)房建設(shè)這個(gè)基礎(chǔ)問(wèn)題后,硬件問(wèn)題亦是重點(diǎn)。
要知道硬件資源層構(gòu)成復(fù)雜,部署AI應(yīng)用需要涉及算力、網(wǎng)絡(luò)、存儲(chǔ)等方面,標(biāo)準(zhǔn)的集群構(gòu)建需要管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)和網(wǎng)絡(luò)節(jié)點(diǎn)、我們一般管理節(jié)點(diǎn)采用普通2U機(jī)架式服務(wù)器,顧名思義,它是承擔(dān)集群中管理的角色,計(jì)算節(jié)點(diǎn)即我們提供核心算力的部分,通常采用GPU服務(wù)器,為首的有NVIDIA A40 Tensor Core GPU。
NVIDIA A40是NVIDIA Ampere 架構(gòu)GPU,速度提升一倍的單精度浮點(diǎn) (FP32) 運(yùn)算處理和改善的能效可顯著提高圖形和模擬工作流程的性能,A40采用第二代 RT Core 的吞吐量是上一代的 2 倍,并能同時(shí)運(yùn)行光線追蹤和著色或降噪功能,從而大幅加快工作負(fù)載的運(yùn)行速度,A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的訓(xùn)練吞吐量達(dá)到上一代的 5 倍,而且無(wú)需更改代碼即可加速 AI 和數(shù)據(jù)科學(xué)模型的訓(xùn)練。從硬件上支持結(jié)構(gòu)稀疏度使推理吞吐量提升一倍;另外,A40具有超高速 GDDR6 顯存,單卡48GB,還可通過(guò) NVLink 擴(kuò)展到高達(dá) 96 GB,為數(shù)據(jù)科學(xué)家、工程師和創(chuàng)意專業(yè)人士提供所需的大容量顯存,讓他們能夠處理大型數(shù)據(jù)集以及數(shù)據(jù)科學(xué)和模擬等工作負(fù)載,PCI Express 第 4 代將 PCIe 第 3 代的帶寬增加了一倍,因而提升了從 CPU 內(nèi)存?zhèn)鬏敂?shù)據(jù)的速度,能更好地支持 AI、數(shù)據(jù)科學(xué)和 3D 設(shè)計(jì)等數(shù)據(jù)密集型任務(wù),更快的 PCIe 性能還能加速 GPU 直接顯存訪問(wèn) (DMA) 傳輸,A40 向后兼容 PCI Express 第 3 代,這也提供了部署靈活性。
(圖 NVIDIA A40)
*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有
思騰合力GPU服務(wù)器從2U2卡,2U4卡到4U4卡,4U8卡,4U10卡均有覆蓋,像IW4222-8GR這塊8卡GPU服務(wù)器,就是我們構(gòu)建集群經(jīng)常用到的一款服務(wù)器,它支持2顆第三代Intel? Xeon? Icelake系列可擴(kuò)展處理器,TDP 270W,提供強(qiáng)大的X86處理平臺(tái)針對(duì)推理及訓(xùn)練應(yīng)用,帶寬翻倍的PCIe Gen4平臺(tái)上可支持8塊雙寬GPU卡,專為高密度GPU計(jì)算提供多方位的性能支持,支持高速網(wǎng)絡(luò),存儲(chǔ)和其他IO擴(kuò)展,8個(gè)U.2硬盤(pán)。為高端計(jì)算平臺(tái)提供高速傳輸和數(shù)據(jù)存儲(chǔ)能力。同時(shí)進(jìn)一步優(yōu)化運(yùn)維效率,擁有專業(yè)管理平臺(tái)能夠?qū)崿F(xiàn)對(duì)市面主流的各類GPU實(shí)現(xiàn)識(shí)別,監(jiān)控,風(fēng)扇調(diào)速支持,故障報(bào)警等功能;存儲(chǔ)節(jié)點(diǎn)即AI應(yīng)用中存放數(shù)據(jù)的地方,AI應(yīng)用對(duì)于數(shù)據(jù)量的需求非常龐大,而且對(duì)于讀寫(xiě)性能、帶寬都要求很高,所以對(duì)存儲(chǔ)的容量、性能及安全性都有要求,存儲(chǔ)可以采用分布式存儲(chǔ)系統(tǒng),即數(shù)據(jù)分布到各個(gè)存儲(chǔ)節(jié)點(diǎn)上,并行讀寫(xiě),提供存儲(chǔ)性能,同時(shí)可以采用不同的冗余方式,比如雙副本、多副本、糾刪碼冗余技術(shù)等等,保證數(shù)據(jù)安全性,這塊我司具備4U24盤(pán)位、4U36盤(pán)位存儲(chǔ)服務(wù)器,也有自己的分布式存儲(chǔ)管理軟件,可提供集性能、容量、安全性與一體的分布式存儲(chǔ)系統(tǒng);網(wǎng)絡(luò)節(jié)點(diǎn)有3套:管理網(wǎng)絡(luò)、計(jì)算網(wǎng)絡(luò)和IPMI網(wǎng)絡(luò),這里管理網(wǎng)絡(luò)一般采用千兆以太網(wǎng),計(jì)算網(wǎng)絡(luò)一般采用萬(wàn)兆光纖網(wǎng)絡(luò)或者IB網(wǎng)絡(luò),IPMI網(wǎng)絡(luò)做遠(yuǎn)程管理使用。
(圖 IW4222-8GR )
*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有
NVIDIA A40 GPU 可使數(shù)據(jù)中心的性能和多工作負(fù)載能力獲得進(jìn)化式飛躍。它集優(yōu)秀的專業(yè)圖形性能與強(qiáng)大的計(jì)算和 AI 加速能力于一體,可應(yīng)對(duì)當(dāng)今的設(shè)計(jì)、創(chuàng)意和科學(xué)挑戰(zhàn)。NVIDIA A40 能驅(qū)動(dòng)新一代虛擬工作站和基于服務(wù)器的工作負(fù)載,并隨時(shí)隨地為專業(yè)人士提供光線追蹤渲染、模擬、虛擬制作等領(lǐng)域的先進(jìn)功能。NVIDIA A40 對(duì)最新 vGPU 軟件的支持使復(fù)雜的圖形工作負(fù)載可以在虛擬環(huán)境中運(yùn)行,且性能可與裸機(jī)媲美。
Citrix 產(chǎn)品管理副總裁 Calvin Hsu 表示:“Citrix Hypervisor8.2 和 Citrix Virtual Desktops 支持 NVIDIA 最新的 vGPU 軟件和 NVIDIA A40 ,盡管客戶需要處理的數(shù)據(jù)和工作負(fù)載不斷增加,我們依然可以繼續(xù)為其提供運(yùn)行圖形密集型可視化應(yīng)用程序的所需性能。 Citrix 和 NVIDIA 虛擬化技術(shù)的結(jié)合使用戶無(wú)論身在何處,都能夠訪問(wèn)這些應(yīng)用程序,并獲得與物理工作站相媲美的優(yōu)質(zhì)體驗(yàn)?!?/span>
紅帽產(chǎn)品管理總監(jiān) Steve Gordon 表示:“NVIDIA 最新一代 A40 GPU 和 NVIDIA vGPU 軟件的結(jié)合,以及紅帽企業(yè) Linux 和紅帽虛擬化的支持,能夠?yàn)橛脩籼峁┮粋€(gè)強(qiáng)大的平臺(tái)。無(wú)論在石油天然氣還是媒體娛樂(lè)行業(yè),都能滿足從 AI/ML 到可視化領(lǐng)域最嚴(yán)苛的工作負(fù)載。隨著組織轉(zhuǎn)型并越來(lái)越多地使用 Kubernetes 進(jìn)行容器設(shè)計(jì)并作為其應(yīng)用程序的關(guān)鍵構(gòu)建模塊,我們認(rèn)為紅帽可能是容器化和虛擬化工作負(fù)載的終點(diǎn)?!?/span>
上面介紹了很多關(guān)于硬件資源層的知識(shí),筆者再分享下構(gòu)建好集群硬件后,關(guān)于平臺(tái)軟件的部署的問(wèn)題
我們?cè)陂_(kāi)篇講到部署AI應(yīng)用需要pytorch、Tensorflow等AI框架,如果沒(méi)有平臺(tái)軟件統(tǒng)一管理,就需要使用者自己安裝應(yīng)用環(huán)境,包括CUDA、AI框架、docker等,再進(jìn)行環(huán)境的調(diào)試,在AI部署中,軟件環(huán)境調(diào)試非常耗費(fèi)時(shí)間,并且不是所有使用者都熟悉各種軟件環(huán)境,此外,沒(méi)有軟件平臺(tái)做統(tǒng)一管理,會(huì)造成資源分配不均,容易產(chǎn)生計(jì)算資源的浪費(fèi),比如大多數(shù)高校發(fā)現(xiàn)GPU 計(jì)算資源被初學(xué)者占用,往往導(dǎo)致真正科研計(jì)算任務(wù)匱乏計(jì)算資源,基于 Docker 環(huán)境的計(jì)算管理環(huán)境常常發(fā)生計(jì)算資源搶占現(xiàn)象,讓管理者應(yīng)接不暇各種投訴,這里思騰合力有自主開(kāi)發(fā)的SCM人工智能云平臺(tái)軟件,集成了主流的AI框架,可實(shí)現(xiàn)計(jì)算資源池化,按需分配給一個(gè)或多個(gè)用戶使用。SCM云平臺(tái)可對(duì) GPU 高性能計(jì)算資源進(jìn)行統(tǒng)一的管理和調(diào)度,有效滿足用戶在深度學(xué)習(xí)等科研及教學(xué)方面的需求,用戶可以快速的在平臺(tái)上進(jìn)行數(shù)據(jù)處理、算法設(shè)計(jì)、模型訓(xùn)練、模型驗(yàn)證、模型部署等工作,而不用關(guān)心底層復(fù)雜的集群構(gòu)建與調(diào)度機(jī)制以及深度學(xué)習(xí)框架的安裝部署、性能調(diào)優(yōu)等問(wèn)題,在充分簡(jiǎn)化深度學(xué)習(xí)訓(xùn)練方面工作的同時(shí)有效提高資源利用率。
其實(shí)分享到這里,我們的AI應(yīng)用的全套裝備差不多就齊全了,下面以實(shí)際案例,讓我們?cè)诳纯匆粋€(gè)AI應(yīng)用究竟是如何落地的。
案例1:國(guó)內(nèi)某知名智能汽車設(shè)計(jì)及制造商AI駕駛基礎(chǔ)架構(gòu)建設(shè),定位于深圳,成立于2014年,是一家專注未來(lái)出行的科技公司。他們一直堅(jiān)持飽和式研發(fā)投入,構(gòu)建全棧自研的核心能力,如今已經(jīng)成為中國(guó)領(lǐng)先的智能電動(dòng)汽車公司之一。
背景:在研發(fā)的過(guò)程中,尤其是深度神經(jīng)網(wǎng)絡(luò)建模及訓(xùn)練,需要大量計(jì)算力,因?yàn)槠囎詣?dòng)駕駛是需要很多大量數(shù)據(jù)進(jìn)行訓(xùn)練,讓這個(gè)汽車能夠去進(jìn)行圖象圖形的識(shí)別,然后應(yīng)用在汽車當(dāng)中,讓我們的汽車能夠智能化的去自動(dòng)駕駛。
需求痛點(diǎn):
1 模型和算法出現(xiàn)算力瓶頸,訓(xùn)練出成熟的模型周期太長(zhǎng);
2 難分配:存在的所有資源都是以物理形式存在,沒(méi)有辦法很好的進(jìn)行合理資源分配,導(dǎo)致算法研究存在一定問(wèn)題。低效率:正在運(yùn)行中的項(xiàng)目作業(yè)只能靠人為干預(yù)檢查是否正常運(yùn)行,費(fèi)時(shí)費(fèi)力。不靈活:大量的算力資源無(wú)法通過(guò)軟件進(jìn)行靈活調(diào)配,無(wú)法支撐算力需求極高的任務(wù);
3 難定位:在多個(gè)線程的項(xiàng)目同時(shí)運(yùn)行時(shí),一旦有其中之一出錯(cuò),難以精準(zhǔn)定位報(bào)錯(cuò)任務(wù)。
解決方案:從底層硬件算力平臺(tái)和上層軟件管理平臺(tái)的統(tǒng)一部署,使用6節(jié)點(diǎn)思騰合力IW4213-4G,加速計(jì)算卡為NVIDIA A40,配合NVIDIA 深度學(xué)習(xí)SDK與NVIDIA DRIVE? 軟件堆棧進(jìn)行問(wèn)題的解決。
部署效果:
GPU作為底層平臺(tái),很好的起到了加速應(yīng)用的作用,幫助深度學(xué)習(xí)的研發(fā)人員更快的訓(xùn)練出成熟的模型,其次,用戶可以根據(jù)需求選擇不同的平臺(tái),深度學(xué)習(xí)研發(fā)人員需要在算法、統(tǒng)計(jì)方面精益求精,都需要一個(gè)生態(tài)環(huán)境的支持,GPU已經(jīng)構(gòu)建了CUDA、cuDNN及DIGITS等工具,支持硬件兼容,GPU高性能解決方案讓研發(fā)人員能夠排除意外干擾,專注于深度學(xué)習(xí)的研究項(xiàng)目中。
案例2:國(guó)內(nèi)某知名醫(yī)院AI醫(yī)療算力平臺(tái)建設(shè),醫(yī)院位于北京市昌平區(qū),由高校與北京市共建共管的大型綜合性公立醫(yī)院,建設(shè)和運(yùn)營(yíng)過(guò)程中得到了臺(tái)塑企業(yè)的無(wú)私捐助和援建。
背景:基于現(xiàn)代先進(jìn)的醫(yī)療科研發(fā)展趨勢(shì),醫(yī)院作為新型醫(yī)院,對(duì)于病例、病因的數(shù)據(jù)處理需求很大?;颊叩尼t(yī)療影像數(shù)據(jù)十分龐大,原有設(shè)備已無(wú)法滿足大量的數(shù)據(jù)推理,模型訓(xùn)練,新型醫(yī)院需要對(duì)患者肺部的切片醫(yī)療影像進(jìn)行病理匹配、判斷,減少醫(yī)療事故的發(fā)生。
需求痛點(diǎn):
1 對(duì)于病例、病因的數(shù)據(jù)處理需求很大,很多數(shù)據(jù)沒(méi)有及時(shí)的建立相應(yīng)的數(shù)據(jù)庫(kù)進(jìn)行存放。
2 設(shè)備數(shù)量不足,無(wú)法滿足龐大的醫(yī)療影像數(shù)據(jù)進(jìn)行數(shù)據(jù)訓(xùn)練、數(shù)據(jù)推理與模型訓(xùn)練等。
3 無(wú)法對(duì)未知的病部切片進(jìn)行推理分析,無(wú)法在影像中看到醫(yī)生肉眼看不到的疾病發(fā)展征象。
解決方案:從底層硬件算力平臺(tái)和上層軟件管理平臺(tái)的統(tǒng)一部署,1節(jié)點(diǎn)IW2200-2G計(jì)算服務(wù)器,1節(jié)點(diǎn)IW4200-8G計(jì)算服務(wù)器,1節(jié)點(diǎn)IR2200推理服務(wù)器,1節(jié)點(diǎn)管理服務(wù)器,1節(jié)點(diǎn)存儲(chǔ)服務(wù)器,加速計(jì)算卡為NVIDIA A40,計(jì)算網(wǎng)絡(luò)采用萬(wàn)兆光纖組網(wǎng),軟件管理平臺(tái)使用思騰合力SCM人工智能云平臺(tái)軟件。
部署效果:
AI與醫(yī)療的融合可以有效的解決資源不均衡的痛點(diǎn),AI的強(qiáng)大在于可以通過(guò)大量的數(shù)據(jù)深度學(xué)習(xí)之后,能夠預(yù)測(cè)和看到人類肉眼看不到的東西,比如通過(guò)影像切片預(yù)測(cè)病變的發(fā)生。通過(guò)AI經(jīng)過(guò)上千病例的訓(xùn)練,能在影像中看到醫(yī)生肉眼看不到的疾病發(fā)展征象,從而給出醫(yī)生更精準(zhǔn)的判斷提示,算力平臺(tái)的建設(shè)可加快AI模型的訓(xùn)練與推理。
案例3:北京某知名AI科技公司智能視覺(jué)處理平臺(tái)建設(shè),公司位于北京市海淀區(qū),是一家以圖像處理與智能視覺(jué)為核心的AI技術(shù)服務(wù)提供商。
背景:公司是以圖像處理與智能視覺(jué)為核心的AI技術(shù)服務(wù)提供商,聚焦活體采集、人臉識(shí)別、人形檢索等應(yīng)用,以高性能圖像處理和視頻結(jié)構(gòu)化技術(shù)為基礎(chǔ),整合人、物識(shí)別與追跡以及場(chǎng)景感知,需要GPU集群加速數(shù)據(jù)處理過(guò)程。
需求痛點(diǎn):
1.人臉識(shí)別、人臉比對(duì)云服務(wù)的算法訓(xùn)練周期太長(zhǎng),影響客戶體驗(yàn)的同時(shí),丟失了部分商業(yè)市場(chǎng)。
2人形檢索與人物追跡、車牌識(shí)別等算法精確度不足,時(shí)長(zhǎng)出現(xiàn)識(shí)別錯(cuò)誤的信息。
3高性能圖像處理和視頻結(jié)構(gòu)化技術(shù)在實(shí)際的應(yīng)用場(chǎng)景中,對(duì)項(xiàng)目落地的要求太高,端到端的AI算法訓(xùn)練難以開(kāi)展。
解決方案:從底層硬件算力平臺(tái)和上層軟件管理平臺(tái)的統(tǒng)一部署,1節(jié)點(diǎn)思騰合力IR2200管理服務(wù)器,2節(jié)點(diǎn)思騰合力IW4200-8G計(jì)算服務(wù)器,1節(jié)點(diǎn)思騰合力IS4200-24存儲(chǔ)服務(wù)器,加速計(jì)算卡為NVIDIA A40,計(jì)算網(wǎng)絡(luò)采用56G Mellanox IB組網(wǎng)與千兆以太網(wǎng)管理,軟件管理平臺(tái)使用思騰合力SCM人工智能云平臺(tái)軟件。
部署效果:
通過(guò)思騰合力搭建的GPU集群環(huán)境,配套云平臺(tái)軟件,可實(shí)現(xiàn)端到端的AI算法訓(xùn)練,加速了人臉識(shí)別、人臉比對(duì)云服務(wù)、人形檢索與人物追跡、車牌識(shí)別等算法的落地。
NVIDIA GPU應(yīng)用在實(shí)際的項(xiàng)目中需要多重因素協(xié)調(diào)配合,對(duì)于一些非計(jì)算機(jī)專業(yè)人員,基礎(chǔ)設(shè)施的開(kāi)發(fā)、搭建、調(diào)試往往要耗費(fèi)數(shù)月時(shí)間,期間透明性低,測(cè)試頻繁,效率低下,嚴(yán)重限制人工智能技術(shù)在行業(yè)中的應(yīng)用,比如Tensorflow、Caffe 等眾多的計(jì)算框架以及 CNN、RNN 等復(fù)雜的網(wǎng)絡(luò)模型,即便是資深工程師也需要花費(fèi)大量的時(shí)間成本學(xué)習(xí)和應(yīng)用,主流計(jì)算框架采用 CPU+GPU 的異構(gòu)計(jì)算平臺(tái),其管理和調(diào)度融合了高性能計(jì)算、大數(shù)據(jù)和云計(jì)算等多領(lǐng)域技術(shù),實(shí)現(xiàn)難度較大,諸如思騰合力這類解決方案提供者,可以幫助大家完成從基礎(chǔ)設(shè)施到云管理平臺(tái)的構(gòu)建,通過(guò)其研發(fā)的SCM人工智能云平臺(tái)軟件,面向大規(guī)模異構(gòu)計(jì)算基礎(chǔ)設(shè)施管理,解決上述問(wèn)題。
這篇文章就暫時(shí)先到這里,希望各位開(kāi)發(fā)者、技術(shù)負(fù)責(zé)人、業(yè)務(wù)管理者們能夠找到適合自身的解決方案,在AI企業(yè),醫(yī)療、金融、教育、汽車等行業(yè)中更好的使用NVIDIA GPU的應(yīng)用,充分提升GPU資源利用效率,降低部署AI應(yīng)用的總體擁有成本,提升AI研發(fā)創(chuàng)新效率!
評(píng)論