Nvidia:GPU激發(fā)轉(zhuǎn)型 突破過去無法達(dá)成的分析工作
數(shù)據(jù)科學(xué)家Deborah Tylor,堅(jiān)持不懈的運(yùn)用正確的工具,達(dá)成原本以為做不到的事情。Deborah Tylor負(fù)責(zé)整理美國國稅局 (IRS) 超過 300 TB 的龐大數(shù)據(jù)庫,從中找出可能有助于發(fā)現(xiàn)身份盜用和其它詐欺行為的模式。但就算她在一大排 CPU 服務(wù)器上徹夜運(yùn)行整理工作,依舊摸不著頭緒。她隔天早上發(fā)現(xiàn)沒有成功,于是又試了一次,結(jié)果再次失敗。
本文引用地址:http://2s4d.com/article/202108/427472.htm最新版的 Cloudera Data Platform 加上由 NVIDIA 加快運(yùn)行速度的 Spark 3.0,協(xié)助一支團(tuán)隊(duì)提升作業(yè)表現(xiàn)達(dá)八倍。
Cloudera 的 Nasheb Ismaily 差不多就在同一時間,敲了敲 Tylor 的主管 Rahul Tikekar 辦公室的門,Tikekar 也是國稅局?jǐn)?shù)據(jù)分析師技術(shù)支持團(tuán)隊(duì)的主管。這名 Cloudera 的解決方案工程師詢問 Tikekar 的團(tuán)隊(duì)有沒有用過 Cloudera Data Platform (CDP),以發(fā)揮 以 GPU 加速的 Apache Spark 3.0 軟件的優(yōu)勢。
Tikekar 表示,我欣然接受這個提議。我們的獨(dú)立服務(wù)器上裝有 NVIDIA 顯示適配器,在分布式叢集上使用 Spark 來運(yùn)行這些顯示適配器也有一段時間了,這對我們來說時機(jī)剛剛好。
他們很快就進(jìn)行軟件測試,在沒有更動程序代碼的情況下,Tylor 很多的工作執(zhí)行速度提升高達(dá)五倍,不過還是出現(xiàn)了一些延遲。
Ismaily 找來 NVIDIA 的數(shù)據(jù)科學(xué)家協(xié)助檢查程序代碼,很快就確認(rèn) CPU 上還運(yùn)行著一些數(shù)據(jù)結(jié)構(gòu)特別差的任務(wù)。他們寫了程序代碼來處理這些工作,并且把它插入 Spark 的 RAPIDS (在 GPU 上進(jìn)行數(shù)據(jù)分析的開源函式庫) 軟件接口里。Tylor 又試了一次。
Tikekar 說,數(shù)據(jù)突然全都進(jìn)入分布式 Spark 叢集的 GPU 上,加速成果非常顯著,Deborah 現(xiàn)在在有四個節(jié)點(diǎn)的叢集上運(yùn)行整個程序。
美國國稅局研究與應(yīng)用分析及統(tǒng)計(jì)部門的技術(shù)主管 Joe Ansaldi 表示,Cloudera 與 NVIDIA 的整合讓我們能夠從數(shù)據(jù)中找出寶貴的洞察,以支持關(guān)鍵的任務(wù)。我們正運(yùn)用這個組合,且已經(jīng)看到數(shù)據(jù)工程和數(shù)據(jù)科學(xué)工作流程的執(zhí)行速度提高了十倍以上,而且成本還少了一半。
IRS 團(tuán)隊(duì)已經(jīng)著手探索這項(xiàng)工作帶來的一些回報(bào)。他們使用搭載 GPU 的服務(wù)器組成的 Spark 叢集,可以加快處理手邊的各項(xiàng)工作,還能執(zhí)行過去以為做不到的事情,而這些工作可以協(xié)助處理該團(tuán)隊(duì)所擁有的大型數(shù)據(jù)集。Tikekar 表示,在 Spark 3.0 出現(xiàn)前,我們做不到這些,但現(xiàn)在有 GPU 可以讓我們放手一搏,解決曾經(jīng)不可能解決的問題。
規(guī)畫發(fā)展人工智能(AI)的路線
這支團(tuán)隊(duì)計(jì)劃應(yīng)用他們在數(shù)據(jù)準(zhǔn)備的成功經(jīng)驗(yàn),即數(shù)據(jù)分析的擷取、轉(zhuǎn)換和加載 (ETL) 作業(yè)。下一個重大計(jì)劃便是加快全面發(fā)展 AI 推論工作。
Tikekar 表示,跟 Cloudera 和 NVIDIA 合作,幫助我們發(fā)揮叢集中 GPU 的優(yōu)勢。市場上出現(xiàn)這么進(jìn)步的技術(shù),我們要花點(diǎn)時間才能認(rèn)清它們的實(shí)力,還有開發(fā)出能夠運(yùn)用它們的應(yīng)用,Deborah 為我們規(guī)劃了一條新的路線,她是我們故事的英雄。
說得更具體一點(diǎn),這支團(tuán)隊(duì)想要建立大型深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),以解決自然語言處理和分析的問題。
這是當(dāng)下許多企業(yè)想要透過機(jī)器學(xué)習(xí)進(jìn)行的轉(zhuǎn)型。
擁有計(jì)算機(jī)科學(xué)博士學(xué)位的 Tikekar 表示,機(jī)器學(xué)習(xí)帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。Tikekar 在 13 年前加入國稅局之前,曾在南奧勒岡大學(xué) (Southern Oregon University) 任教十年。
他進(jìn)一步表示,例如我們可以掃描表格,然后用光學(xué)字符識別技術(shù)來讀取里面的只字詞組,但有了 AI,我們還可以更深入從表格中找出有助于發(fā)現(xiàn)身分盜用,或是減少浪費(fèi)的模式,AI 在很多方面都能嘉惠不少應(yīng)用。
評論