庫(kù)瀚科技協(xié)辦中國(guó)移動(dòng)科技周，共建多樣性算力科創(chuàng)發(fā)展新未來(lái)

作者：時(shí)間：2023-09-11 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

近期，中國(guó)移動(dòng)第四屆科技周暨戰(zhàn)略性新興產(chǎn)業(yè)共創(chuàng)發(fā)展大會(huì)正式啟動(dòng)。中國(guó)移動(dòng)攜手產(chǎn)學(xué)研用各方合作伙伴，以“澎湃創(chuàng)新力戰(zhàn)新共未來(lái)”為主題，匯聚院士學(xué)者、產(chǎn)業(yè)大咖、業(yè)界專家，圍繞云和算力網(wǎng)絡(luò)、人工智能、6G、大數(shù)據(jù)、能力中臺(tái)、安全等領(lǐng)域，聚焦科創(chuàng)前沿，共商協(xié)同創(chuàng)新新模式，共謀戰(zhàn)新產(chǎn)業(yè)發(fā)展新未來(lái)。

本文引用地址：http://2s4d.com/article/202309/450415.htm

其中，庫(kù)瀚科技協(xié)辦了以“多樣性算力”為主題的分論壇，該論壇聚焦算力基礎(chǔ)設(shè)施領(lǐng)域，與各界合作伙伴開(kāi)展技術(shù)創(chuàng)新分享和實(shí)踐經(jīng)驗(yàn)交流，促進(jìn)技術(shù)生態(tài)繁榮，共同推動(dòng)數(shù)字經(jīng)濟(jì)高速發(fā)展。

（圖片來(lái)源：中國(guó)移動(dòng)）

庫(kù)瀚科技軟件架構(gòu)師邱重陽(yáng)在本次論壇中，分享了庫(kù)瀚在全RISC-V架構(gòu)下高性能存儲(chǔ)軟件的實(shí)踐與探索

庫(kù)瀚分享：挑戰(zhàn)與趨勢(shì)

根據(jù)IDC預(yù)測(cè)數(shù)據(jù)，2025年全球數(shù)據(jù)量將增長(zhǎng)到175ZB，中國(guó)將成為全球最大數(shù)據(jù)圈（ 48.6ZB ），存算比趨近1:1，存儲(chǔ)與計(jì)算同等重要?；A(chǔ)設(shè)施（服務(wù)器）市場(chǎng)近萬(wàn)億，目前主導(dǎo)這個(gè)市場(chǎng)的還是X86 CPU通用計(jì)算為核心的生態(tài)。而X86 CPU的核心技術(shù)被境外壟斷，價(jià)格昂貴的同時(shí)不符合國(guó)內(nèi)信創(chuàng)趨勢(shì)。摩爾定律在服務(wù)器芯片上逐漸失效，但是高速的存儲(chǔ)、網(wǎng)絡(luò)設(shè)備還在快速發(fā)展，通用CPU很難再同時(shí)處理計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等需求。

在此背景下，數(shù)據(jù)中心存算一體架構(gòu)一直面臨兩個(gè)主要挑戰(zhàn)：

第一個(gè)挑戰(zhàn)是數(shù)據(jù)存儲(chǔ)生命周期和服務(wù)器更新周期不同，存算一體的服務(wù)器架構(gòu)無(wú)法使存算獨(dú)立擴(kuò)容，服務(wù)器的更新?lián)Q代由處理器的升級(jí)周期決定，一般是2~3年更換，與數(shù)據(jù)存儲(chǔ)5~10年的生命周期有較大區(qū)別，兩者之間巨大的差異導(dǎo)致系統(tǒng)資源大量浪費(fèi)，增加數(shù)據(jù)遷移丟失風(fēng)險(xiǎn)。

另外一個(gè)挑戰(zhàn)是，傳統(tǒng)分布式存儲(chǔ)架構(gòu)使得性能和存儲(chǔ)資源利用率難以兼得，通常情況下，性能型存儲(chǔ)通常采用三副本模式，得盤率僅僅約30%，容量型存儲(chǔ)采用EC模式提升得盤率，但同時(shí)增加了CPU、網(wǎng)絡(luò)的開(kāi)銷，導(dǎo)致存儲(chǔ)系統(tǒng)整體性能受損。

數(shù)字經(jīng)濟(jì)時(shí)代，多樣應(yīng)用推動(dòng)生產(chǎn)進(jìn)步，當(dāng)下比較熱有ChatGPT、自動(dòng)駕駛等，這些應(yīng)用的背后都在消耗巨大的算力。這些不同的應(yīng)用需要不同的算法，特定的算法匹配特定的算力來(lái)處理才能發(fā)揮更好的能效比。

業(yè)界涌現(xiàn)出越來(lái)越多的數(shù)據(jù)處理單元（DPU）和基礎(chǔ)設(shè)施處理單元（IPU）專用芯片，在數(shù)據(jù)流處理路徑上取代通用處理器，提升算力能效比。面對(duì)新的業(yè)務(wù)需求，結(jié)合計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)的新技術(shù)發(fā)展趨勢(shì)，新型存算分離的Diskless架構(gòu)將重新定義數(shù)據(jù)中心基礎(chǔ)設(shè)施。Top 廠商積極布局Diskless 架構(gòu)，通過(guò)IPU對(duì)接共享的閃存盤框。

我們可以說(shuō)：傳統(tǒng)存儲(chǔ)是存儲(chǔ)1.0時(shí)代，分布式存儲(chǔ)開(kāi)啟存儲(chǔ)2.0時(shí)代，Diskless正在帶領(lǐng)我們走進(jìn)存儲(chǔ)3.0時(shí)代。

策略與思路

·思路一：存儲(chǔ)服務(wù)器使用存儲(chǔ)專用芯片

目前芯片龍頭已經(jīng)推出的各類智能網(wǎng)卡形態(tài)數(shù)據(jù)處理芯片，主要是滿足云廠商自定義的CPU算力卸載需求。頭部廠商都在專用數(shù)據(jù)處理芯片的方向，但是目前看到的數(shù)據(jù)處理芯片側(cè)重于計(jì)算服務(wù)器側(cè)網(wǎng)絡(luò)、計(jì)算虛擬化卸載等問(wèn)題，存儲(chǔ)服務(wù)器更強(qiáng)調(diào)IO加速、EC壓縮的優(yōu)化，低功耗、低成本的需求?；诖鎯?chǔ)專用芯片的存儲(chǔ)服務(wù)器是去x86架構(gòu)、提升算力能效比、降低存儲(chǔ)服務(wù)器成本的一個(gè)有效手段，當(dāng)然也同時(shí)需要對(duì)應(yīng)存儲(chǔ)基礎(chǔ)軟件來(lái)與之配套。

·思路二：通過(guò)數(shù)據(jù)分層機(jī)制來(lái)解決存儲(chǔ)性能和資源的有效利用率難以兼得的矛盾

數(shù)據(jù)分層存儲(chǔ)已經(jīng)是一個(gè)比較老話題了，但就當(dāng)前數(shù)據(jù)中心Diskless架構(gòu)的趨勢(shì)來(lái)說(shuō)，數(shù)據(jù)分層本身使用了兩層數(shù)據(jù)分離存儲(chǔ)的策略，這和Diskless數(shù)據(jù)拉遠(yuǎn)池化的理念更加契合。一般來(lái)說(shuō)，數(shù)據(jù)分層機(jī)制，通過(guò)副本機(jī)制對(duì)外提供統(tǒng)一的高性能存儲(chǔ)服務(wù)；通過(guò)EC策略進(jìn)行數(shù)據(jù)存儲(chǔ)使得存儲(chǔ)系統(tǒng)整體得盤率更高。通過(guò)兩層架構(gòu)的技術(shù)整合，以提高存儲(chǔ)系統(tǒng)整體的存儲(chǔ)性能和資源的有效利用率。

·思路三：通過(guò)軟硬融合的設(shè)計(jì)提升存儲(chǔ)系統(tǒng)資源的有效利用率

首先，目前SSD訪問(wèn)接口仍然是基于塊語(yǔ)義的隨機(jī)覆蓋寫，這并不契合NAND Flash的特性，NAND Flash是追加寫、擦除后寫，SSD為了適配傳統(tǒng)塊語(yǔ)義的接口，不得不在內(nèi)部實(shí)現(xiàn)轉(zhuǎn)換層FTL，增加了元數(shù)據(jù)管理、GC、OP空間預(yù)留等資源的開(kāi)銷。為了解決這個(gè)問(wèn)題，庫(kù)瀚提出了open channel技術(shù)，以及繼承于它的zoned namespace技術(shù)，這些技術(shù)突破傳統(tǒng)的標(biāo)準(zhǔn)硬件接口，打通設(shè)備與應(yīng)用層之間的信息屏障。

其次是存儲(chǔ)側(cè)的計(jì)算卸載，也可以說(shuō)是近存儲(chǔ)計(jì)算。存儲(chǔ)服務(wù)器側(cè)的數(shù)據(jù)壓縮、EC等算法，不適合利用通用處理器來(lái)計(jì)算，將其卸載到專用處理器可以顯著提升能效比。

實(shí)踐與探索

庫(kù)瀚打造的存儲(chǔ)平臺(tái)是從底層SSD 主控芯片、SSD 固件、存儲(chǔ)服務(wù)器主控到存儲(chǔ)底層基礎(chǔ)軟件全技術(shù)棧打通的一個(gè)存儲(chǔ)架構(gòu)，在IO鏈路上基于全RISC-V架構(gòu)主控平臺(tái)，軟硬融合設(shè)計(jì)的全閃存存儲(chǔ)平臺(tái)。

庫(kù)瀚兩顆RISC-V芯片——Aurora SSD主控、eSPU覆蓋從應(yīng)用到存儲(chǔ)全流程，eSPU主板主控形態(tài)支持實(shí)現(xiàn)無(wú)x86架構(gòu)的存儲(chǔ)服務(wù)器，eSPU智能網(wǎng)卡形態(tài)面向數(shù)據(jù)服務(wù)基礎(chǔ)設(shè)置場(chǎng)景；Aurora SSD主控支持實(shí)現(xiàn)PCIE 5.0/4.0等多型號(hào)的高性能企業(yè)級(jí)固態(tài)硬盤。

庫(kù)瀚StorEngine 軟固件平臺(tái)是一套軟件定義存儲(chǔ)生態(tài)的高性能分布式存儲(chǔ)軟件基礎(chǔ)計(jì)算模組，也是兩顆RISC-V芯片平臺(tái)的存儲(chǔ)基礎(chǔ)軟件，以助力數(shù)據(jù)中心實(shí)現(xiàn)在現(xiàn)有硬件平臺(tái)、eSPU/Aurora硬件平臺(tái)下發(fā)揮業(yè)界領(lǐng)先的性能。

StorEngine 既可以運(yùn)行在x86ARM平臺(tái)上，也可以運(yùn)行在eSPU（RISC-V）平臺(tái)上。

庫(kù)瀚StorEngine 采用Diskless 存算分離架構(gòu)，把存儲(chǔ)資源拉遠(yuǎn)池化，以替換傳統(tǒng)存儲(chǔ)中的本地盤；通過(guò)高密度的SPU盤框 + 存儲(chǔ)計(jì)算分開(kāi)擴(kuò)容的能力，來(lái)降低數(shù)據(jù)中心整體成本。

庫(kù)瀚StorEngine 使用數(shù)據(jù)分層和統(tǒng)一zone設(shè)計(jì)，性能層和容量層的分層設(shè)計(jì)使得系統(tǒng)在提升得盤率的同時(shí)，能夠提供高性能存儲(chǔ)服務(wù)；統(tǒng)一zone架構(gòu)，使StorEngine兼容不同介質(zhì)存儲(chǔ)設(shè)備，全局存儲(chǔ)資源以zone為單位進(jìn)行分配，實(shí)現(xiàn)全局FTL，使SSD的磨損均衡可以在全局作用，同樣可以延長(zhǎng)SSD的壽命。

庫(kù)瀚與中移已就存儲(chǔ)系統(tǒng)項(xiàng)目開(kāi)展了合作與探索。中移ESSD是一套全自研的高性能全閃分布式存儲(chǔ)系統(tǒng)，單卷可達(dá)百萬(wàn) IOPS以上；庫(kù)瀚StorEngine RPC組件KRPC在中移動(dòng)ESSD高性能場(chǎng)景下的應(yīng)用，提升了RPC組件效率，降低了硬件資源的開(kāi)銷。單卷客戶端所需的CPU核心數(shù)量從改造前的21個(gè)下降為改造后的5個(gè)，與此同時(shí)單路IO延遲也從600us下降到270us，整個(gè)資源的利用率得到了顯著的提高，存儲(chǔ)系統(tǒng)的長(zhǎng)尾延遲也有所改善。

新聞中心

庫(kù)瀚科技協(xié)辦中國(guó)移動(dòng)科技周，共建多樣性算力科創(chuàng)發(fā)展新未來(lái)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)