可省近90%服務(wù)器,反欺詐效率卻大增,PayPal打破「AI內(nèi)存墻」的方案為何如此劃算?
內(nèi)存不夠只能割肉買 DRAM?英特爾:很多時(shí)候大可不必。
人們常說(shuō),新一代的人工智能浪潮是由數(shù)據(jù)、算法和算力來(lái)驅(qū)動(dòng)的。最近幾年模型參數(shù)的爆炸式增長(zhǎng)更是讓大家看到了算力的基礎(chǔ)性作用。
為了配合企業(yè)用戶對(duì)于算力的強(qiáng)烈需求,當(dāng)前的很多 AI 硬件(比如 GPU)都鉚足了勁兒地提高峰值算力,但這種提升通常以簡(jiǎn)化或者刪除其他部分(例如內(nèi)存的分層架構(gòu))為代價(jià)[1],這就造成 AI 硬件的內(nèi)存發(fā)展速度遠(yuǎn)遠(yuǎn)落后于算力的增長(zhǎng)速度。
SOTA Transformer 模型參數(shù)量(紅點(diǎn))和 AI 硬件內(nèi)存大?。ňG點(diǎn))增長(zhǎng)趨勢(shì)對(duì)比。圖源:https://github.com/amirgholami/ai_and_memory_wall/blob/main/imgs/pdfs/model_size_scaling.pdf
因此,在遇到大模型的訓(xùn)練和推理時(shí),用戶總是感覺顯存或內(nèi)存不夠用,這就是所謂的「內(nèi)存墻」問題。
為了打破內(nèi)存墻,人們想了很多種辦法,比如前段時(shí)間大火的 Colossal-AI 項(xiàng)目就是一個(gè)適用于訓(xùn)練階段的方法。在這個(gè)項(xiàng)目中,開發(fā)者高效利用了「GPU+CPU 異構(gòu)內(nèi)存」的策略,使得一塊消費(fèi)級(jí)顯卡就能訓(xùn)練 180 億參數(shù)的大模型。
而在推理階段,模型對(duì)硬件的主要需求就是加載模型的全部參數(shù)量,所以對(duì)算力要求相對(duì)低一些。一般對(duì)于計(jì)算密集型模型,我們可以采用 INT8 量化或者模型并行等策略,用多張 GPU 及其顯存資源來(lái)推理單個(gè)模型。但實(shí)際上,還有很多工業(yè)界應(yīng)用場(chǎng)景的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型可以使用 CPU 與內(nèi)存來(lái)做推理,例如推薦系統(tǒng)、點(diǎn)擊預(yù)估等。
對(duì)于這些模型,我們除了內(nèi)存容量上的訴求外,可能還需要考量異常情況下的數(shù)據(jù)恢復(fù)時(shí)間、硬件成本、維護(hù)成本等問題,這也對(duì)破解內(nèi)存墻方案的選擇提出了新的要求。
工業(yè)界的推理攔路虎:內(nèi)存墻
在工業(yè)場(chǎng)景下,海量數(shù)據(jù)、高維模型確實(shí)能帶來(lái)更好的效果,但這些數(shù)據(jù)的高維、稀疏特征又為計(jì)算和存儲(chǔ)帶來(lái)了很大的挑戰(zhàn)。畢竟像推薦系統(tǒng)這樣的模型,隱藏層大小可能就是數(shù)百萬(wàn)的量級(jí),總參數(shù)量甚至能達(dá)到十萬(wàn)億的量級(jí),是 GPT-3 的百倍大小,所以其用戶往往需要特別強(qiáng)大的內(nèi)存支持系統(tǒng)才能實(shí)現(xiàn)更好的在線推理能力。
既然內(nèi)存不夠,那豈不是直接堆內(nèi)存條(如 DRAM)就夠了?這從原理上是可行的,但一方面 DRAM 內(nèi)存的價(jià)格不便宜啊,這類模型需要的內(nèi)存又不是幾百 GB,而是動(dòng)不動(dòng)就沖上數(shù)十 TB,而單條 DRAM 內(nèi)存一般都只有幾十 GB,很少有超過 128GB 的。所以,整體算一下,不論是成本,還是在容量擴(kuò)展上的能力,這一方案都不太容易被大家接受。
此外,DRAM 內(nèi)存還有一個(gè)問題,即數(shù)據(jù)是易失的,或者說(shuō):一斷電就丟數(shù)據(jù)。有時(shí)候模型重啟或者排除故障的時(shí)候,只能重新將權(quán)重從更慢的存儲(chǔ)設(shè)備,如 SSD 或機(jī)械硬盤中加載到內(nèi)存里,非常耽誤時(shí)間,這對(duì)于在線推理業(yè)務(wù)來(lái)說(shuō)是很難容忍的。
打破推理內(nèi)存墻,不用 DRAM 用什么?
那么,除了添購(gòu) DRAM 這個(gè)不太劃算的選擇外,提供在線推理服務(wù)或使用這類應(yīng)用的企業(yè)要打破內(nèi)存墻,還有其他選擇嗎?
如果仔細(xì)比較一下不同存儲(chǔ)層級(jí)的容量和延遲數(shù)據(jù),我們可以發(fā)現(xiàn),DRAM 內(nèi)存和固態(tài)盤 / 硬盤存儲(chǔ)之間其實(shí)存在很大的差距。如果能開發(fā)一種全新的存儲(chǔ)部件或設(shè)備來(lái)填補(bǔ)這個(gè)缺口,那內(nèi)存墻問題可能就會(huì)得到緩解。
這就是英特爾? 傲騰? 持久內(nèi)存(Intel? Optane? Persistent Memory, 簡(jiǎn)稱 PMem)誕生的背景。其獨(dú)有的傲騰? 存儲(chǔ)介質(zhì)與先進(jìn)的內(nèi)存控制器和其它軟硬件技術(shù)相結(jié)合,使其在性能上接近 DRAM 內(nèi)存,在容量上又能有數(shù)倍的提升(單條容量可達(dá) 512GB),用在基于第三代英特爾? 至強(qiáng)? 可擴(kuò)展處理器的雙路平臺(tái)上時(shí),理論上可提供最高達(dá) 12TB 的內(nèi)存總?cè)萘浚?TB DRAM+8TB 持久內(nèi)存),相比之下,基于純 DRAM 的方案不但在容量擴(kuò)展能力上遠(yuǎn)遠(yuǎn)不及,在成本上也讓人難以承受。
此外,傲騰? 持久內(nèi)存還有兩個(gè)重要特性:可按字節(jié)尋址和數(shù)據(jù)持久性,分別匯集了內(nèi)存與存儲(chǔ)的優(yōu)點(diǎn)。傳統(tǒng)存儲(chǔ)需要按塊進(jìn)行讀寫尋址,就如同去圖書館借書時(shí),必須要把放置有目標(biāo)書籍的整個(gè)書架上的書都背回家再做分揀,而內(nèi)存按字節(jié)尋址則相當(dāng)于能夠精準(zhǔn)定位目標(biāo)書籍的位置并僅將其借出。
傲騰? 持久內(nèi)存在存儲(chǔ)層級(jí)中的位置及作用。
用書的存放和查找做例子,來(lái)理解不同存儲(chǔ)層級(jí)的特點(diǎn)。
數(shù)據(jù)持久性則補(bǔ)全了 DRAM 內(nèi)存的先天不足,即可在斷電后依然能保留數(shù)據(jù),這就讓大體量的內(nèi)存數(shù)據(jù)庫(kù)在計(jì)算系統(tǒng)出現(xiàn)計(jì)劃內(nèi)或計(jì)劃外停機(jī)時(shí),恢復(fù)數(shù)據(jù)及服務(wù)的速度大大加快,畢竟中間節(jié)省了從固態(tài)盤或硬盤上將數(shù)百 GB,甚至是 TB 級(jí)數(shù)據(jù)讀回內(nèi)存的耗時(shí)。
PayPal 的實(shí)踐,證明持久內(nèi)存很劃算!
光練不說(shuō)傻把式,光說(shuō)不練假把式,傲騰? 持久內(nèi)存能不能幫助用戶打破 AI 內(nèi)存墻,我們還是要眼見為實(shí)。
以全球知名的在線支付服務(wù)商 PayPal 為例。和其他金融類服務(wù)企業(yè)一樣,PayPal 也難逃欺詐的挑戰(zhàn)——即便在這方面的應(yīng)對(duì)水平要高于業(yè)界的平均水平,每年損失仍會(huì)超過 10 億美元。因此 PayPal 對(duì)反欺詐格外上心,不但為此早早構(gòu)建了具備強(qiáng)大反欺詐預(yù)防模型的實(shí)時(shí)決策系統(tǒng),為了實(shí)時(shí)識(shí)別新出現(xiàn)的欺詐模式,PayPal 還在不斷強(qiáng)化這個(gè)系統(tǒng)在處理和分析相關(guān)數(shù)據(jù)時(shí)的效率。
圖源:PayPal Newsroom
對(duì)于本就承擔(dān)著上百 PB 數(shù)據(jù)處理任務(wù)的 PayPal IT 基礎(chǔ)設(shè)施來(lái)說(shuō),反欺詐決策平臺(tái)數(shù)據(jù)量的增長(zhǎng)和數(shù)據(jù)處理和分析效率的提升可是一個(gè)嚴(yán)峻的挑戰(zhàn)。雖然它從 2015 年就導(dǎo)入了 Aerospike 的數(shù)據(jù)庫(kù)技術(shù),將主索引數(shù)據(jù)存入內(nèi)存來(lái)實(shí)現(xiàn)更好的實(shí)時(shí)性,但隨著主索引數(shù)據(jù)規(guī)模的不斷擴(kuò)大,節(jié)點(diǎn)中的內(nèi)存容量很容易耗盡,進(jìn)而就會(huì)影響數(shù)據(jù)讀寫和處理的實(shí)時(shí)性。此時(shí),若要采購(gòu)新的節(jié)點(diǎn)又將耗費(fèi)高昂的成本。注意,這里的成本不止包含硬件成本,還有隨之而來(lái)的管理人員成本和功耗成本。
所以 PayPal 更傾向于能夠提高單位節(jié)點(diǎn)存儲(chǔ)密度的方案。
綜合這些訴求,PayPal 選擇了導(dǎo)入英特爾的傲騰? 持久內(nèi)存,而這里也有另一個(gè)先決條件,就是 Aerospike 正好是這款創(chuàng)新硬件發(fā)布后第一波支持它的數(shù)據(jù)庫(kù)廠商之一。
借助 Aerospike 數(shù)據(jù)庫(kù)的混合內(nèi)存架構(gòu)( HMA),PayPal 可將主索引轉(zhuǎn)存到傲騰? 持久內(nèi)存中,而非過去的 DRAM 中。這么做的好處非常明顯,因?yàn)榘硫v? 持久內(nèi)存的單條容量遠(yuǎn)高于 DRAM,且每 GB 成本也顯著低于 DRAM,這就可以幫助 PayPal 將每節(jié)點(diǎn)的總存儲(chǔ)空間提高為原來(lái)的 4 倍(從 3.2 TB 到 12 TB),因此 PayPal 只需使用更小的集群就可以滿足業(yè)務(wù)所需的高性能,從而讓服務(wù)器數(shù)量減少約 50%,每集群的成本降低約 30% 。
將主索引存儲(chǔ)在傲騰? 持久內(nèi)存中還有一個(gè)額外的好處,也就是我們前面提到的數(shù)據(jù)持久性。這使得 Aerospike 完成索引重建的時(shí)間從 59 分鐘縮短至 4 分鐘,滿足了 PayPal 對(duì)較長(zhǎng)運(yùn)行時(shí)間和更高可靠性的要求。據(jù)悉,英特爾和 Aerospike 之間多年的合作還成就了一系列更深層次的優(yōu)化,包括在傲騰? 持久內(nèi)存中存儲(chǔ)更多數(shù)據(jù)(不僅僅是索引)。
在采用傲騰? 持久內(nèi)存加持的 Aerospike 實(shí)時(shí)數(shù)據(jù)平臺(tái)后,PayPal 以其 2015 年的欺詐數(shù)據(jù)量和此前使用的平臺(tái)為基準(zhǔn)做了一個(gè)評(píng)估,它發(fā)現(xiàn)新方案可以將其欺詐計(jì)算的服務(wù)級(jí)別協(xié)議 (SLA) 遵守率從 98.5% 提升到 99.95%,漏查的欺詐交易量降到約為原來(lái)的 1/30。同時(shí),與先前的基礎(chǔ)設(shè)施相比,使用的服務(wù)器總數(shù)量可以減少近 90%(從 1024 臺(tái)減少到 120 臺(tái)),相關(guān)的硬件占用空間可減到約為原來(lái)的 1/8,吞吐量可增至原來(lái)的 5 倍(每秒事務(wù)處理量從 20 萬(wàn)提升到 100 萬(wàn)),硬件成本下降為原來(lái)的約 1/3( 預(yù)計(jì)硬件成本從 1250 萬(wàn)美元省至 350 萬(wàn)美元)。
需要指出的是,其實(shí)在 PayPal 的 IT 基礎(chǔ)設(shè)施中,傲騰? 持久內(nèi)存并不是一個(gè)孤立的部件,與它緊密配合且內(nèi)置了 AI 加速能力(英特爾? 深度學(xué)習(xí)加速技術(shù))的第二代英特爾? 至強(qiáng)? 可擴(kuò)展處理器也是這一解決方案的靈魂所在。相信如果把它換成 AI 加速能力以及內(nèi)存子系統(tǒng)帶寬和性能表現(xiàn)更優(yōu)的第三代英特爾? 至強(qiáng)? 可擴(kuò)展處理器,這種打破內(nèi)存墻的效果將更加明顯。
AlphaFold2 端到端高通量?jī)?yōu)化
值得一提的是,在 AI for Science 領(lǐng)域,至強(qiáng)? 可擴(kuò)展處理器 + 傲騰? 持久內(nèi)存的組合所帶來(lái)的突破內(nèi)存墻實(shí)踐也開始大放異彩。
以這幾年大火的 AlphaFold2 為例。作為 AI for Science 領(lǐng)域的著名大模型,AlphaFold2 的落地部署在算力和存儲(chǔ)方面都面臨著嚴(yán)峻的挑戰(zhàn),這也給內(nèi)置高位寬優(yōu)勢(shì)(AVX-512 等技術(shù))的第三代英特爾? 至強(qiáng)? 可擴(kuò)展處理器和大肚量的傲騰? 持久內(nèi)存提供了盡情發(fā)揮的空間。
圖源:www.exxactcorp.com
據(jù)英特爾相關(guān)技術(shù)專家透露的信息,他們正在英特爾這套計(jì)算 + 存儲(chǔ)的創(chuàng)新產(chǎn)品組合上優(yōu)化 AlphaFold2。一方面,在模型推理階段,他們通過對(duì)注意力模塊(attention unit)進(jìn)行大張量切分(tensor slicing),以及使用英特爾? oneAPI 進(jìn)行算子融合等優(yōu)化方法,提升了算法的計(jì)算效率和 CPU 利用率,加快了并行推理速度,并緩解了算法執(zhí)行中各個(gè)環(huán)節(jié)面臨的內(nèi)存瓶頸等問題。
另一方面,他們通過使用傲騰? 持久內(nèi)存,為 AlphaFold 2 實(shí)現(xiàn)了 TB 級(jí)內(nèi)存的戰(zhàn)略級(jí)支持,輕松解決了多實(shí)例并行執(zhí)行時(shí)內(nèi)存峰值疊加的內(nèi)存瓶頸。這個(gè)瓶頸有多大?據(jù)英特爾專家介紹:在輸入長(zhǎng)度為 765aa 的條件下,64 個(gè)實(shí)例并行執(zhí)行時(shí),內(nèi)存容量的需求就會(huì)突破 2TB。在這種情形下,對(duì)廣大用戶來(lái)說(shuō),使用傲騰? 持久內(nèi)存是一個(gè)可行且可負(fù)擔(dān)的方案。
除了傲騰? 持久內(nèi)存,還有哪些方案可以打破內(nèi)存墻?
雖然傲騰? 持久內(nèi)存的出現(xiàn)為一些應(yīng)用場(chǎng)景提供了打破內(nèi)存墻的可行路徑,但截至目前,硬件領(lǐng)域還沒有出現(xiàn)一個(gè)「一招鮮吃遍天」的內(nèi)存墻解決方案,不過其他一些技術(shù)路徑齊頭并進(jìn)的勢(shì)頭,還是讓我們看到了解決這一問題的希望。討論熱度較高的解決方案包括在即將呈爆發(fā)式成長(zhǎng)的異構(gòu)系統(tǒng)中實(shí)現(xiàn)統(tǒng)一和池化的內(nèi)存資源(把不同運(yùn)算單元匹配的 HBM、顯存和系統(tǒng)內(nèi)存集中管理和分配),以及前瞻性的存算一體架構(gòu)等。
在異構(gòu)系統(tǒng)中打造池化的內(nèi)存資源是近年來(lái)針對(duì)算力和存儲(chǔ)間瓶頸問題的比較熱的一個(gè)創(chuàng)新方向。為了實(shí)現(xiàn) CPU 與 GPU、FPGA 等各種專用加速芯片的高速互聯(lián),英特爾早在 2019 年就牽頭成立了名為 CXL(Compute Express Link)的標(biāo)準(zhǔn)組織。對(duì)于存儲(chǔ)來(lái)說(shuō),CXL 將提供新的內(nèi)存接口,與原來(lái)的 DDR 相比,它具有更高的可擴(kuò)展性,更高的帶寬,支持包括傲騰? 產(chǎn)品在內(nèi)的各種存儲(chǔ)方案,而且它的架構(gòu)設(shè)計(jì)不局限于單個(gè)系統(tǒng),而是可以在多機(jī)之間進(jìn)行連接,實(shí)現(xiàn)多機(jī)共享。大內(nèi)存技術(shù)方案的代表性企業(yè) MemVerge 的創(chuàng)始人兼 CEO 范承工評(píng)價(jià)說(shuō),CXL 是一個(gè)改變游戲規(guī)則的新技術(shù),它可以實(shí)現(xiàn)內(nèi)存和計(jì)算的相對(duì)獨(dú)立,有望實(shí)現(xiàn)多機(jī)之間的內(nèi)存池化共享以及真正的可組合基礎(chǔ)設(shè)施,可以動(dòng)態(tài)地為系統(tǒng)添加計(jì)算、內(nèi)存、存儲(chǔ)資源[2]。
存算一體則是讓存儲(chǔ)具備計(jì)算的能力,從而解決數(shù)據(jù)反復(fù)搬遷導(dǎo)致的效率低下問題。如今國(guó)內(nèi)外眾多企業(yè)都已經(jīng)開展了存算一體技術(shù)的研發(fā),包括英特爾、SK 海力士、IBM、美光、三星、臺(tái)積電、阿里等傳統(tǒng)芯片大廠以及眾多新興 AI 和存儲(chǔ)企業(yè)[3]。
不過,這些方案在成本、技術(shù)成熟度等方面還需要更多驗(yàn)證。
所以,盡管我們都希望看到更多前瞻性解決方案能夠早日落地,但是短期來(lái)看,英特爾?傲騰? 持久內(nèi)存仍然是當(dāng)前比較容易實(shí)現(xiàn)而且性價(jià)比較高的一種內(nèi)存墻解決方案。況且,傲騰? 持久內(nèi)存的容量還在持續(xù)升級(jí),不久之后就可能看到單條 1TB 容量的產(chǎn)品出現(xiàn),想必到了那時(shí),其打破內(nèi)存墻的效果將更加凸顯。
參考鏈接:[1] https://www.oneflow.org/a/share/jishuboke/75.html[2]https://www.51cto.com/article/693956.html[3]http://www.dzsb.net/index.php/2022/05/05/quanqiucunsuanyitijishuyanjiujiliangchanqingkuangzuixinjinzh/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。