“X”PU的時代,DPU位置何在?
三類視角看DPU的興起
“X”PU的時代,DPU位置何在?
超異構(gòu)處理系統(tǒng),解決海量存儲大需求
拒絕碎片化,通用才是硬道理
市場前景廣闊,DPU將大有作為
點擊收聽大咖談芯現(xiàn)場實錄↓↓↓
三類視角看DPU的興起
幻實(主播):大家好,我是芯片揭秘的主播幻實。節(jié)目錄了很多期卻還沒請過DPU方向的從業(yè)者和我們分享這一行的發(fā)展現(xiàn)狀,今天很高興矩向科技的CEO黃朝波先生作為DPU賽道的科普人做客我們節(jié)目,先請他來跟我們大家打個招呼。
黃朝波(嘉賓):大家好,我是矩向科技的黃朝波,很高興來到芯片揭秘跟大家分享。
幻實(主播):黃總非常謙遜,了解到您曾經(jīng)寫過一本書,叫《軟硬件融合——超大規(guī)模云計算架構(gòu)創(chuàng)新之路》,您本人也被業(yè)界認(rèn)為是相關(guān)技術(shù)的布道者。2020年10月,英偉達GTC大會上官宣了一款新處理器——DPU,我知道黃總對這一塊很有心得,所以先請您聊一聊是怎樣和DPU結(jié)緣的?
黃朝波(嘉賓):DPU的發(fā)展是亞馬遜最先開始的。2017年底,亞馬遜AWS在re:Invent大會上宣布了它的NITRO系統(tǒng),這個系統(tǒng)其實就是現(xiàn)在大家說的DPU。也是從這時候開始,NITRO就成為了整個亞馬遜云服務(wù)的技術(shù)底座。我也是因為這個大的背景原因,在2018年初加盟了UCloud,來做類似的一些工作。
關(guān)于DPU 的興起,我們可以從三個視角來看。
第一個視角就是云計算公司的視角,像亞馬遜、阿里云等,它們從虛擬化出發(fā)。那么虛擬化是什么呢?虛擬化分為三部分:處理器的虛擬化、內(nèi)存的虛擬化和I/O的虛擬化。處理器和內(nèi)存的完全硬件虛擬化都是由CPU芯片完成的,但I/O的虛擬化一直都是軟件模擬的?,F(xiàn)在因為主機CPU的性能瓶頸之后, I/O虛擬化的代價非常之高,所以他們要想辦法把這些工作“下沉”到硬件中,最終的做法就是把整個基礎(chǔ)設(shè)施層整體放在獨立的硬件中完成。
還有另外一個視角,就是現(xiàn)在英偉達或一些智能網(wǎng)卡公司的看法。它們認(rèn)為,DPU是整個數(shù)據(jù)I/O的加速,因為數(shù)據(jù)要在不同服務(wù)器之間進行大量的傳輸和處理,他們的視角就是用硬件來專門優(yōu)化數(shù)據(jù)的搬運和處理。
最后還有一個點,其實是更本質(zhì)的,那就是計算。因為所有工作最終都要歸結(jié)到計算。CPU已經(jīng)到了性能瓶頸,不得不通過硬件加速的方式來不斷提升性能。
以上三個視角其實各有不同,但是有一點是一致的——那就是如果我們只站在一個視角去考慮問題,做出來的東西很有可能有失偏頗。只有把不同的視角都考慮清楚,這樣做出來的東西才是均衡的、全面的。
“X”PU的時代 ,DPU位置何在?
幻實(主播):現(xiàn)在這種概念非常多,最傳統(tǒng)的有CPU,GPU,DPU,后續(xù)還有NPU,每家都說自己不一樣,很厲害。很多人戲稱現(xiàn)在是“X”PU的時代,因為都不知道前面還會出現(xiàn)什么字母。趁此機會,您也跟我們講一講那么多“PU”是指什么,DPU又處在什么角色和位置?
黃朝波(嘉賓):用一條主線可以幫大家把這些概念都梳理清楚,這條主線其實就是它內(nèi)部所在的這些處理引擎。比方說之前Graphcore提出的IPU,再有像NPU、NP,很多PU其實內(nèi)部只有一種類型的處理引擎,這些引擎拼成了一顆芯片。但這顆芯片是無法獨立工作的,需要通過CPU+XPU異構(gòu)計算的方式工作。DPU和它們最大的不同在于它本身是一個SoC,內(nèi)部包含了很多不同類型的處理引擎,既可以獨立工作,也能作為CPU的加速助手一起協(xié)同工作。
幻實(主播):聽起來DPU特別復(fù)雜,又能協(xié)同又能獨立,那獨立的話是不是意味著它很難做?
黃朝波(嘉賓):的確是這樣的。例如我們講AI處理器,它就只關(guān)注AI這個領(lǐng)域;講網(wǎng)絡(luò)處理就關(guān)注網(wǎng)絡(luò)的領(lǐng)域。但是DPU不一樣,它要關(guān)注的領(lǐng)域非常多,首先就是虛擬化,其次還有網(wǎng)絡(luò)、存儲、安全等,另外還要關(guān)注怎么去把云服務(wù)“下沉”到里面,這就涉及方方面面軟件、硬件的綜合能力了。各方面的知識都非常多,要把各種資源整合在一起,這的確是DPU面臨的巨大挑戰(zhàn)。
幻實(主播):剛剛您提到了CPU、GPU,在它們?nèi)咧g來定性的話,是優(yōu)勢互補還是未來有可能存在誰替代誰呢?
黃朝波(嘉賓):CPU、GPU和DPU就是現(xiàn)在大家稱之為數(shù)據(jù)中心的三大處理器,其實它們?nèi)呤且粋€協(xié)同的關(guān)系,未來會朝著融合的方向發(fā)展。具體來說,我們可以把系統(tǒng)大體上分為三大部分:系統(tǒng)的底層稱之為基礎(chǔ)設(shè)施層,在此之上的應(yīng)用層又可以分成兩部分,一部分可以加速,另一部分難以加速。這樣一來,基礎(chǔ)設(shè)施層的工作就適合放到DPU里去完成,再把應(yīng)用層里可加速的那部分放到GPU里,CPU負(fù)責(zé)兜底,不可加速的部分就只能放在CPU里。
為什么這樣做呢?原因在于應(yīng)用層里很多東西是不確定的,算法也會經(jīng)常改變,還會面臨不用的應(yīng)用場景要用同一個硬件平臺這種情況,而GPU剛好是相對彈性靈活的,這就使它非常適合用在上述場景中。
接下來講三者的協(xié)同關(guān)系。由于現(xiàn)在chiplet(注:芯粒,是不同功能裸片的拼搭,某種意義上也是不同IP的拼搭)技術(shù)越來越流行;而且,并非所有的場景都要用到很重量的獨立三芯片的大系統(tǒng)。很多場景其實是一種相對輕量的場景,那么我們就可以把三者合到一起,整合成一顆芯片,這是未來發(fā)展的趨勢。
不過整合的過程并不是簡單地把三顆芯片拼起來,否則它們還是各管各的三張皮。所謂的整合是要打破界限重新做架構(gòu),最終形成一個整體,我們稱之為“超異構(gòu)處理器”,這也是我們團隊目前正在努力的方向。
超異構(gòu)處理系統(tǒng),解決海量存儲大需求
幻實(主播):超異構(gòu)處理器能夠打破三者之間的邊界。
黃朝波(嘉賓):對,把它合三為一。
幻實(主播):誰會去做“打破”的角色?因為它要用第三方視角來看,任何一方我估計都很難主動打破自己的模式或護城河去兼容別人。
黃朝波(嘉賓):其實它是需要一些落地策略的。比方說,一方面,我們可以把它先當(dāng)做一個DPU的角色,用它承擔(dān)CPU助手的工作。另一方面,內(nèi)部很多通用性的功能,讓它可以在其他的場景上落地,像存儲服務(wù)器,以及更廣闊的邊緣服務(wù)器市場,它都是大有可為的。
幻實(主播):按照這種趨勢看會大有可為,但感覺開發(fā)成本會十分昂貴。這兩年我們發(fā)現(xiàn)很多做IP的公司生意都特別好,因為不少企業(yè)會花上億的資金來買IP,投資人也得被動去接受這件事。我想問在您看來DPU除了前期買IP的費用特別高之外,未來的發(fā)展還會遇到什么阻礙?它會走怎樣的技術(shù)發(fā)展或產(chǎn)品開發(fā)的路徑?
黃朝波(嘉賓):DPU在前期大概會花費成本總額的50%左右用于購買IP,另外50%用于自研和整合。成本這塊實際上不可避免,因為一開始相對而言比較弱小,許多技術(shù)在沒有積累的時候也只能如此。不過當(dāng)?shù)谝淮a(chǎn)品開發(fā)起來以后,第二代、第三代自己貢獻的價值就會越來越多,未來自研部分的成本和價值可能會到80%甚至90%。
其實難點在于DPU涉及的領(lǐng)域眾多,并且每個領(lǐng)域都可能有很多路線之爭,到底應(yīng)該選擇哪種路線或者制式?這就好比有10道選擇題,只要有任何一道題做錯了,都將前功盡棄,直接零分。為什么會這樣?因為你給用戶提供產(chǎn)品,而用戶是一個綜合性的場景,一旦某一種功能無法滿足要求,那整體就落不了地。最大的挑戰(zhàn)和風(fēng)險就在這里,不僅要選正確的路線,還要更加前瞻。如果是定制設(shè)計,就意味著你最終覆蓋的場景和用戶數(shù)量一定會非常少,這時就要思考如何避免這種情況出現(xiàn)。
幻實(主播):這些也是投資人關(guān)心的事,會很擔(dān)心你進入到一個非常狹窄的方向。
黃朝波(嘉賓):是的,這種狹窄會使得產(chǎn)品和市場碎片化,最后大家都變成了完全碎片化的狀態(tài)。那么最合適的解決辦法是什么樣的?這需要把“通用”這個能力做出來。在許多方面我們自己其實不用選擇路徑,而是讓用戶來選,就相當(dāng)于把選擇題交給了用戶來做,我們只把選擇題的硬件提供出來。這樣的話,做出來的東西肯定百分之百最滿足用戶自己的需求。
拒絕碎片化,通用才是硬道理
幻實(主播):聽上去感覺非常定制化,那是不是要有很多種型號?
黃朝波(嘉賓):如果是剛才那種自己去選擇不同的技術(shù)路徑的時候,它會變成碎片化的東西。但如果我們做通用器件的話,一個器件就能夠把這些場景的不同需求都滿足。所以通用性是DPU設(shè)計中最核心的能力,也是最關(guān)鍵的。如果通用性做不好那么DPU就很難真正的落地。
幻實(主播):既然您覺得重點在通用性上,我想問問國外大廠比如說英偉達,他們在這個方面怎么樣?
黃朝波(嘉賓):相對來說英偉達采用的是一種確定的定制方案,這也是為什么它在落地上存在困境的原因。大家面臨的場景和困境是相同的,我們稱其為“不同用戶的場景差異化”。不僅如此,同一個用戶的場景也在持續(xù)迭代。
目前來看,每當(dāng)遇到問題后,行業(yè)里會有不同路徑的做法。例如,有的公司會針對這種場景做出來一個自認(rèn)為最優(yōu)的方案,大家來跟隨。但是可能會存在用戶的業(yè)務(wù)邏輯實現(xiàn)和我們的不一樣,并且用戶的平臺遷移風(fēng)險和成本都非常高,因此芯片落地就存在困境。
還有一種做法是客戶自研,自己需求什么就自研什么。它也存在一些問題,就是硬件的迭代周期其實趕不上軟件的迭代周期。此外,大公司內(nèi)部也有不同的團隊,團隊之間的需求也是千差萬別的。
再有一個路徑就是通用路徑,并不試圖幫助用戶來決策,而是把權(quán)力交給用戶,讓他們自己來決定想要什么,我們提供的只是一個通用的平臺而已。
幻實(主播):我發(fā)現(xiàn)目前國內(nèi)做自動駕駛、汽車方向的公司其實也一樣,因為每家主機廠的訴求是不同的。我們之前和地平線交流過,我發(fā)現(xiàn)他們很有意思,用戶想要芯片可以,想要定制各種IP也可以,總之就是想要什么我都配合你來做。這一點和DPU很類似,不替用戶做選擇,只把自己的“武器庫”準(zhǔn)備的充分一點。需要團隊的實力很強才能做到這種程度,通用性不是一般的高度。
黃朝波(嘉賓):是的,要求確實不低。我們面對的用戶有千差萬別的需求,做一千種、一萬種這類芯片是不現(xiàn)實的。你要在成千上萬的需求里找出共性,把共性變成硬件,再把差異性通過用戶編程軟件的方式去實現(xiàn)。這考驗的是整個團隊對需求、產(chǎn)品以及整個系統(tǒng)架構(gòu)的全面把握,對能力的要求確實非常高。
幻實(主播):在您看來目前國內(nèi)的DPU有沒有按照這個方向來做布局的?
黃朝波(嘉賓):還沒有?,F(xiàn)階段大家更多的還是考慮先把用戶的需求拿到,再把東西實現(xiàn)好。從國際上看,有兩家公司可能相對來說做得比較好,第一個當(dāng)然是亞馬遜。
亞馬遜的第一代NITRO系統(tǒng)嚴(yán)格來說就是一顆CPU,非常通用但性能很差,它是通過5顆芯片共同來完成整個基礎(chǔ)設(shè)施的工作。后面更新的第二代、第三代才逐漸把硬件加速部分放進去。并且,放的時候也非常的審慎,并沒有把很多功能都固化,而是通過很多軟件的方式,再去實現(xiàn)確定的功能。如此一來,它其實也是相對通用的器件了。盡管是自研自用,它也做得非常通用化。
幻實(主播):它是不對外提供的嗎?
黃朝波(嘉賓):是的,并不對外提供。
幻實(主播):亞馬遜的云之所以能被這么多科技公司所采用,其實還是有一些獨到之處。
黃朝波(嘉賓):可以說它從上到下的整個技術(shù)鏈條都非常穩(wěn)固。此外,英特爾在通用性這一塊做得也不錯。因為英特爾自身的數(shù)據(jù)中心業(yè)務(wù)經(jīng)過了多年的深耕和技術(shù)沉淀,可以說它是最懂?dāng)?shù)據(jù)中心場景的芯片公司。目前他們所倡導(dǎo)的IPU內(nèi)部的網(wǎng)絡(luò)處理器支持P4編程,相對而言更加通用。它內(nèi)部的CPU是Arm的Neoverse N1系列,性能非常強烈,通用性也非常好。另外它們還發(fā)起了開源IPDK (Infrastructure Programmer Development kit,基礎(chǔ)設(shè)施編程開發(fā)套件) 框架,發(fā)起了OPI(Open Programmable Infrastructure Project,開放可編程基礎(chǔ)設(shè)施項目)聯(lián)盟,所有這些都是為更加通用和開源開放的生態(tài)來服務(wù)的。
幻實(主播):這些也用在它的云服務(wù)上還是說它會單獨把硬件板塊對外開售?
黃朝波(嘉賓):它的IPU是對外出售的,對標(biāo)的就是英偉達的DPU。但是在產(chǎn)品理念和具體實踐上,我們還是比較認(rèn)可英特爾的做法。
幻實(主播):是的,老牌做CPU的公司會更早知道產(chǎn)品的痛點在哪兒。國內(nèi)目前還沒有這種思路開展,哪怕我們有阿里云、騰訊云、華為云等等,可能還是按照傳統(tǒng)的路徑在做。
黃朝波(嘉賓):對,目前來說,阿里云在這一塊其實做了很多的技術(shù)積累,但是它現(xiàn)在有很多技術(shù)分散在不同的部門,可能還需要一個整合的過程。接下來大家拭目以待,看它們后續(xù)資源整合的情況。
市場前景廣闊,DPU將大有作為
幻實(主播):剛剛我們聊到了DPU這個行業(yè)的現(xiàn)狀,請您來做個預(yù)判,未來它會按照什么節(jié)奏發(fā)展?又會形成什么樣的態(tài)勢?
黃朝波(嘉賓):這要分幾個方面來說。
第一點要改變認(rèn)知。現(xiàn)在大家對DPU的定位還停留在它是CPU的助手上,其實這會限制DPU自身的價值。更合適的做法是將DPU看做一個獨立處理器,脫離CPU的約束,它才可以面對更廣闊的的市場,這樣才更有希望最終真正成功。
第二點是提升通用性。DPU一定要能實現(xiàn)更多的通用性,因為不通用的話它就完全碎片化了,可通用性又對設(shè)計的能力要求很高,對全系統(tǒng)的駕馭要求也非常高。只有把DPU做得更加通用才能實現(xiàn)性能的極致飛躍,用戶完全可編程和定義一切的這種超異構(gòu)處理器,才是DPU的未來。
第三點是市場前景。首先還是定位在數(shù)據(jù)中心服務(wù)器上,不但可以用在業(yè)務(wù)服務(wù)器中,也可以用在存儲服務(wù)器里,還可以用在規(guī)模更大的邊緣服務(wù)器上。如此一來,在國內(nèi)DPU的市場經(jīng)過我的測算就能達到1000億元人民幣的規(guī)模。
幻實(主播):您覺得這幾種服務(wù)器市場都能用到它?
黃朝波(嘉賓):對的。只有做到這一步才算成功,因為大芯片的研發(fā)成本非常高,如果僅僅覆蓋碎片化的市場就會很難大規(guī)模落地。
幻實(主播):對于那種數(shù)據(jù)加倍的類似于冷存儲的存儲中心,對DPU有需求嗎?
黃朝波(嘉賓):其實我剛才提到存儲服務(wù)器大體上又可以分為三類:熱存、溫存和冷存。簡單來說這里面最大的區(qū)別就是一顆處理器上能掛多少的存儲量。比方熱存可能掛的是12塊到24塊NVMe盤,這已經(jīng)是極限了;在溫存里可能掛的是HDD,這樣的話其實相當(dāng)于掛了五六十塊甚至一百塊盤;但是在冷存里,現(xiàn)在通過分組sleep/wake up的方式,大部分盤是處于睡眠的狀態(tài),所以可以用一顆處理器掛上千塊歸檔型HDD盤。最終平均下來每一塊盤、每一個存儲容量的功耗和成本就會降得非常低,最終它還是用DPU這種SOC芯片來完成相關(guān)的處理。
幻實(主播):所以不要以為數(shù)據(jù)“睡眠”了就不需要硬件過多干涉了。
黃朝波(嘉賓):對,DPU其實一直在工作。再引申來看,既然它是一個算力和數(shù)量級都有所提升的超異構(gòu)處理器,本質(zhì)上只要在大算力場景中都能用得到,那么除了云和邊緣的服務(wù)器,DPU還能用在其他市場中,比方5G核心網(wǎng)、自動駕駛等。例如英偉達在2024年將發(fā)布的自動駕駛芯片就是由高性能的CPU、GPU和DPU共同組成的,DPU屬于三大核心計算部分之一。站著這個視角來講,超異構(gòu)處理器面向的是復(fù)雜的計算場景,這種場景在國內(nèi)就有5000億以上的市場規(guī)模。如果放眼全球,其實已經(jīng)有數(shù)萬億的市場了。
幻實(主播):不得不說在數(shù)據(jù)爆發(fā)增長的情況下就需要靈活調(diào)用想辦法。一些公司在日常辦公可能會遇到云盤存儲不夠用的情況,這就是數(shù)據(jù)幾何式增長的典型表現(xiàn)。
黃朝波(嘉賓):其實有過一些測算,數(shù)據(jù)在增長之后大概會有一半最終存在云端,另一半則沉淀在了終端或者邊緣端。數(shù)據(jù)的量大了之后,無論是傳輸、處理、分析、存儲、安全等,對硬件性能的要求都非常高。這些從本質(zhì)看都是計算,那計算靠什么呢?靠的就是CPU、GPU、DPU,最終它們會被整合成為超異構(gòu)處理器。
幻實(主播):是的,國家也提出了“東數(shù)西算”戰(zhàn)略,今天我們討論的話題很符合國家的科技大趨勢和大方向。我知道您正在創(chuàng)業(yè)做這個方向,能否展開談一談您是以什么角度切入這個行業(yè)的?
黃朝波(嘉賓):我以前在Marvell做CPU,后來機緣巧合下去了UCloud做軟硬件結(jié)合方面的工作,不僅僅是做芯片,我們的視角是如何在需求的驅(qū)動下把應(yīng)用做到最好。做久了之后,我最大的一個體會就是軟硬件其實是割裂的,軟件不懂硬件,硬件不懂軟件。現(xiàn)有的技術(shù)體系,平臺構(gòu)建好之后,大家都在上面開發(fā)軟件,但很難把這些軟硬件打開,然后重新再整合。所以這也是我后來寫了一本書叫《軟硬件融合——超大規(guī)模云計算架構(gòu)創(chuàng)新之路》的原因。在工作中我們思考更多的是要從需求出發(fā),深層次的需求到底是什么?
最開始我們是做虛擬化,發(fā)現(xiàn)已經(jīng)形成的軟件應(yīng)用性能還不夠好,但業(yè)務(wù)邏輯不敢輕易動,因為它里面承載的云服務(wù)是千億、萬億級別的規(guī)模,所以只能靠硬件來加速和提升性能,后續(xù)業(yè)務(wù)的更新迭代也要在自己的掌控之下。這樣就需要,我們做硬件時并不給用戶提供具體功能,而是提供一個工具和平臺讓他們自己來實現(xiàn)這些功能。這就是所謂深層次“需求”。
幻實(主播):您現(xiàn)在就在做這樣的平臺。
黃朝波(嘉賓):是的,以前我是甲方,現(xiàn)在我是乙方。做更好的產(chǎn)品,讓之前的自己用的更爽。
幻實(主播):對,現(xiàn)在的自己去服務(wù)當(dāng)年的自己。技術(shù)創(chuàng)新都源自最真實的需求,這很有價值。我們也在這里做個宣傳,如果有想要體驗DPU的可以來找黃總試試看。
黃朝波(嘉賓):目前我們基于FPGA做了一些原型的產(chǎn)品,如果做芯片的話投入會更大?,F(xiàn)在矩向科技處于融資狀態(tài),已經(jīng)有的原型可供大家來體驗一下。
幻實(主播):我覺得這是一條新的賽道、新的路線。體驗過后可能會發(fā)現(xiàn)跟以前的感受完全不一樣了。非常開心今天向黃總請教了很多知識,也希望在數(shù)據(jù)中心領(lǐng)域,國內(nèi)的公司不要和國外差距太大,很感謝有你們這樣的團隊在做這些事。
黃朝波(嘉賓):也謝謝曹總可以提供這樣的機會,讓我們能夠分享自己的一些看法。
作為數(shù)據(jù)中心里繼CPU和GPU之后的“第三顆主力芯片”,DPU的出現(xiàn)稱得上是異構(gòu)計算中的階段性標(biāo)志,近年來已逐步掀起了一波行業(yè)熱潮。根據(jù)Canalys Cloud Channels Analysis預(yù)測,到2023年,中國DPU市場規(guī)模將達190億人民幣。當(dāng)然,還有其它分析機構(gòu)的預(yù)測更加樂觀,認(rèn)為中國DPU市場規(guī)模預(yù)計將在2025年超過37億美元,約合240億人民幣。
不過,DPU的使用門檻非常高,只有開發(fā)、整合能力較強的用戶才能充分利用它。在推向市場的過程中,由于DPU涉及的領(lǐng)域很分散,往往造成碎片化應(yīng)用的局面,這無疑是一種算力浪費。為了解決這一難題,就需要設(shè)計出通用的平臺來承載用戶豐富、多樣和自定義下的使用場景,從而滿足個性化需求。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。