打破對(duì)DPU的誤解:中移動(dòng)重磅白皮書(shū)解讀
中移(蘇州)軟件技術(shù)有限公司(為中國(guó)移動(dòng)通信集團(tuán)有限公司的云能力中心,也為中移動(dòng)云服務(wù)基礎(chǔ)設(shè)施產(chǎn)品IaaS提供研發(fā)和運(yùn)營(yíng)支撐,下文簡(jiǎn)稱(chēng)“中國(guó)移動(dòng)“)聯(lián)合中國(guó)信息通信研究院(下文簡(jiǎn)稱(chēng)“中國(guó)信通院”)以及深圳云豹智能有限公司(下文簡(jiǎn)稱(chēng)“云豹智能”)在3月29日的算云融合產(chǎn)業(yè)大會(huì)上發(fā)布了《云計(jì)算通用可編程DPU發(fā)展白皮書(shū)(2023年)》,深度解析了云計(jì)算通用可編程DPU設(shè)計(jì)理念,指出具備層級(jí)化可編程、低時(shí)延網(wǎng)絡(luò)和統(tǒng)一資源管控等特性的通用DPU芯片將成為連接算力與網(wǎng)絡(luò)的核心基礎(chǔ)部件。
本文引用地址:http://2s4d.com/article/202304/445246.htm這是目前業(yè)界最有深度和最具權(quán)威性的一篇DPU白皮書(shū)。重點(diǎn)分析了DPU需具備的通用可編程特性和各種應(yīng)用場(chǎng)景,同時(shí)分析了傳統(tǒng)DPU的局限性。近些年,由于業(yè)界沒(méi)有優(yōu)異和成熟的商用DPU SoC (System on a chip)方案,各大云廠(chǎng)商只能各自研發(fā)基于CPU+FPGA的DPU方案,導(dǎo)致DPU被誤解為是個(gè)碎片化的市場(chǎng),DPU對(duì)云計(jì)算的作用及潛力沒(méi)有被業(yè)界正確認(rèn)識(shí)。
在“十四五”規(guī)劃明確指出加快推進(jìn)新型基礎(chǔ)設(shè)施建設(shè)后,東數(shù)西算工程和運(yùn)營(yíng)商算力網(wǎng)絡(luò)建設(shè)如約而至。數(shù)字經(jīng)濟(jì)的背后,云計(jì)算是最核心的算力底座。在云計(jì)算里面,DPU已成為基礎(chǔ)設(shè)施最核心的部件之一。
數(shù)字經(jīng)濟(jì)時(shí)代,云計(jì)算不斷滲透進(jìn)入各行各業(yè)。中國(guó)移動(dòng)作為云計(jì)算“國(guó)家隊(duì)”,正在加大投入,全力支持政府與國(guó)有企業(yè)數(shù)字化轉(zhuǎn)型,降本增效,并為國(guó)有數(shù)據(jù)安全保駕護(hù)航。在該白皮書(shū)中,云豹智能作為中國(guó)移動(dòng)唯一邀約參編企業(yè),是國(guó)內(nèi)DPU芯片頭部企業(yè),也是國(guó)內(nèi)已知真正能做到高性能通用可編程DPU SoC的芯片公司。該白皮書(shū)的聯(lián)合發(fā)布,代表著中國(guó)移動(dòng)和云豹智能在DPU領(lǐng)域的深度合作,強(qiáng)強(qiáng)聯(lián)手,為國(guó)家云基礎(chǔ)架構(gòu)及DPU的發(fā)展貢獻(xiàn)力量。
中國(guó)移動(dòng)云能力中心IaaS產(chǎn)品部總經(jīng)理劉軍衛(wèi)談到:“隨著人類(lèi)生產(chǎn)力進(jìn)入算力時(shí)代,傳統(tǒng)以CPU為核心的架構(gòu)正在遭受算力瓶頸考驗(yàn),多樣化算力需求亟需軟硬件架構(gòu)全面變革,算力技術(shù)發(fā)展必將遵循‘軟件定義一切,硬件加速一切’的理念,重構(gòu)算力基礎(chǔ)設(shè)施,通用可編程加速單元DPU將成為新的算力核心,重新定義算力時(shí)代云計(jì)算技術(shù)新標(biāo)準(zhǔn),構(gòu)建算力時(shí)代新技術(shù)曲線(xiàn)?!?/p>
傳統(tǒng)數(shù)據(jù)中心隨著網(wǎng)絡(luò)帶寬逐步從25Gbps向100Gbps、200Gbps、400Gbps乃至更高的帶寬演進(jìn),網(wǎng)絡(luò)數(shù)據(jù)處理占用的CPU算力資源也在不斷地增大,甚至?xí)幸话胍陨蠒?huì)消耗在這些基礎(chǔ)設(shè)施的功能上,因此迫切需要一種新型處理器來(lái)減少對(duì)云主機(jī)CPU的消耗。DPU是以數(shù)據(jù)處理為中心,提供數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù)的通用處理器,是繼CPU、GPU之后的“第三顆主力芯片”,可以卸載及加速網(wǎng)絡(luò)和存儲(chǔ),同時(shí)具備安全和管控等基礎(chǔ)功能,釋放更多的算力資源供客戶(hù)使用。在云計(jì)算與數(shù)據(jù)中心場(chǎng)景下,如果需要進(jìn)一步提升算力與發(fā)揮基礎(chǔ)設(shè)施效能,譬如動(dòng)態(tài)和彈性地調(diào)度算力、網(wǎng)絡(luò)和存儲(chǔ)資源,那么DPU是必須的,且是不可替代的。
目前,國(guó)內(nèi)云廠(chǎng)商大部分還是基于CPU+FPGA的DPU解決方案,這些方案在研發(fā)投入上擁有一定的時(shí)間優(yōu)勢(shì),但因其功耗過(guò)高及性能受到限制,并未達(dá)到新一代云計(jì)算的要求。另外,由于FPGA基本被國(guó)外兩大芯片巨頭壟斷,其高昂的價(jià)格也直接導(dǎo)致了產(chǎn)品成本居高不下,影響市場(chǎng)競(jìng)爭(zhēng)力。
DPU SoC的產(chǎn)品是前者迭代的終極形態(tài),需具備超高的異構(gòu)芯片技術(shù),通用可編程等特性,連同先進(jìn)的芯片工藝,才能夠滿(mǎn)足更復(fù)雜、更廣泛、更高性能的應(yīng)用需求。目前,國(guó)外芯片巨頭和頭部云服務(wù)商都選擇了通用DPU SoC的產(chǎn)品路線(xiàn),因?yàn)橄鄬?duì)于CPU+FPGA的方案,DPU SoC 有4到8倍性?xún)r(jià)比的提升。
圖二:以DPU為中心的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)
各云廠(chǎng)商都在尋找最佳方案來(lái)提升各自的利潤(rùn)和競(jìng)爭(zhēng)力,因?yàn)榱私獾紺PU+FPGA并不是一個(gè)長(zhǎng)遠(yuǎn)能滿(mǎn)足新一代云計(jì)算的方案,所以都在期待一款有競(jìng)爭(zhēng)力、易用及高性?xún)r(jià)比的DPU SoC出現(xiàn)。
美國(guó)的亞馬遜云(AWS)不僅占據(jù)全球云計(jì)算市場(chǎng)最高份額,而且多年前已最先實(shí)現(xiàn)了DPU SoC(AWS稱(chēng)之為Nitro)商業(yè)化的成功部署。AWS在使用自研的DPU SoC后,每年售賣(mài)每臺(tái)服務(wù)器的算力資源可以多獲得幾千美元的收益。AWS擁有幾百萬(wàn)臺(tái)服務(wù)器的體量,因此DPU帶來(lái)AWS的收益是巨大的。DPU在AWS中的成功應(yīng)用,受到業(yè)內(nèi)廣泛關(guān)注,并吸引了越來(lái)越多的芯片巨頭涌入DPU賽道。Nvidia于2020年以69億美元成功收購(gòu)了業(yè)內(nèi)知名網(wǎng)絡(luò)芯片和設(shè)備公司Mellanox,通過(guò)融合Mellanox的網(wǎng)絡(luò)技術(shù),快速面向全球數(shù)據(jù)中心市場(chǎng)推出BlueField系列的DPU SoC。AMD于2022年以19億美元收購(gòu)了DPU SoC廠(chǎng)商Pensando。而國(guó)內(nèi)的云廠(chǎng)商也正在尋求從FPGA架構(gòu)到通用可編程DPU SoC演變的技術(shù)方案。
正是在這樣的背景下,中國(guó)移動(dòng)聯(lián)合中國(guó)信通院和云豹智能發(fā)布了《云計(jì)算通用可編程DPU發(fā)展白皮書(shū)(2023年)》。深度解析了DPU的發(fā)展趨勢(shì):通用可編程、低時(shí)延網(wǎng)絡(luò)、統(tǒng)一資源管理。同時(shí)介紹了通用可編程DPU SoC在數(shù)據(jù)中心、運(yùn)營(yíng)商、異構(gòu)計(jì)算等多種不同的應(yīng)用場(chǎng)景。
國(guó)內(nèi)的數(shù)據(jù)中心建設(shè)中,服務(wù)器正在從25G向100G及更高帶寬發(fā)展,并且應(yīng)用部署的復(fù)雜度持續(xù)增高,不但要支持虛擬機(jī)、容器的應(yīng)用管理部署,也需要支持裸金屬應(yīng)用。DPU作為數(shù)據(jù)中心的核心基礎(chǔ)設(shè)施部件,要具備靈活的編程能力、數(shù)據(jù)的高吞吐能力和統(tǒng)一管控的能力,才能滿(mǎn)足當(dāng)前各種云計(jì)算業(yè)務(wù)和數(shù)據(jù)中心發(fā)展的需求。
據(jù)了解,目前云豹智能是國(guó)內(nèi)已知真正能做到自研高性能DPU SoC的芯片公司,其產(chǎn)品也將是國(guó)內(nèi)第一款通用可編程DPU SoC芯片。不僅提供高達(dá)400G的數(shù)據(jù)吞吐能力,還搭載性能強(qiáng)勁的CPU處理單元并配合多種可編程的數(shù)據(jù)處理引擎實(shí)現(xiàn)層級(jí)化可編程能力。根據(jù)該白皮書(shū)的描述,云豹智能在DPU的多個(gè)關(guān)鍵領(lǐng)域掌握并引領(lǐng)著多項(xiàng)核心技術(shù):
可編程高性能網(wǎng)絡(luò)處理技術(shù)
可編程低時(shí)延RDMA技術(shù)
DDP(Data Direct Path)數(shù)據(jù)直通技術(shù)
安全計(jì)算體系
云豹智能DPU SoC支持裸金屬、虛擬機(jī)和容器統(tǒng)一運(yùn)維和管控,提供彈性網(wǎng)絡(luò)和存儲(chǔ)、虛擬化管理和安全等一站式解決方案,極大地提升云服務(wù)商的服務(wù)質(zhì)量和業(yè)務(wù)靈活性,降低整體投入,引領(lǐng)數(shù)據(jù)中心向算網(wǎng)融合持續(xù)演進(jìn)。
中國(guó)移動(dòng)作為支持國(guó)家數(shù)字經(jīng)濟(jì)的主要云服務(wù)商,在這白皮書(shū)給出了明確的答案,DPU SoC是云計(jì)算的關(guān)鍵部件,通用可編程的DPU SoC可以實(shí)現(xiàn)對(duì)數(shù)據(jù)中心的算力、網(wǎng)絡(luò)和存儲(chǔ)資源的經(jīng)濟(jì)高效卸載和管理。也明確分析了DPU SoC需具備的關(guān)鍵特性:層級(jí)化可編程性、低時(shí)延網(wǎng)絡(luò),統(tǒng)一管控以及適應(yīng)持續(xù)發(fā)展的加速卸載,是云廠(chǎng)商推動(dòng)數(shù)據(jù)中心向高效率、高擴(kuò)展、高帶寬、高靈活性發(fā)展的重要技術(shù)支撐。同時(shí),也是各云廠(chǎng)商正在積極研究及探尋的DPU技術(shù)的發(fā)展方向。
評(píng)論