博客專欄

EEPW首頁 > 博客 > 降低傳統(tǒng)路徑依賴,華為推出AI推理新技術(shù)

降低傳統(tǒng)路徑依賴,華為推出AI推理新技術(shù)

發(fā)布人:ht1973 時間:2025-08-13 來源:工程師 發(fā)布文章

8月12日,華為在一場會議中對外推出AI推理新技術(shù)UCM(推理記憶數(shù)據(jù)管理器,Unified Cache Manager),這是一款以KV Cache和記憶管理為中心的推理加速套件,通過推理框架、算力、存儲三層協(xié)同,優(yōu)化Tokens在各業(yè)務(wù)環(huán)節(jié)中流轉(zhuǎn)的效率,以降低每Token的推理成本。

華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰在演講中表示,AI時代,模型訓(xùn)練、推理效率與體驗的量綱都以Token數(shù)為表征,Token經(jīng)濟已經(jīng)到來?!暗谝欢〞r間內(nèi)推理的Token數(shù)上,中國頭部互聯(lián)網(wǎng)公司與海外頭部互聯(lián)網(wǎng)公司仍有差距。”

根據(jù)華為會上公布的數(shù)據(jù),國外主流模型的單用戶輸出速度已進入200 Tokens/s區(qū)間(時延5ms),而我國普遍小于60Tokens/s(時延50 - 100ms),因此,如何解決推理效率與用戶體驗的難題迫在眉睫。目前,包括華為在內(nèi),各大科技企業(yè)都會在調(diào)度KV Cache基礎(chǔ)上,研發(fā)優(yōu)化推理過程的技術(shù)。

以高帶寬內(nèi)存(HBM)為例,在AI推理進程中,本應(yīng)是數(shù)據(jù)順暢流轉(zhuǎn)的 “高速通道”,但現(xiàn)實是資源常常緊缺。一旦HBM資源不足,AI推理便會出現(xiàn)任務(wù)卡頓、響應(yīng)遲緩等問題。UCM的研發(fā)方向主要在于不再單純依賴HBM這一 “獨木橋”,而是在存儲層面構(gòu)建起一個多層級、可靈活調(diào)配的資源體系,使得推理過程中的數(shù)據(jù)能夠在不同存儲介質(zhì)間合理流動,充分利用各級存儲的優(yōu)勢。

根據(jù)華為的測試驗證,UCM可將首Token時延最高降低90%,系統(tǒng)吞吐最大提升22倍,實現(xiàn)10倍級上下文窗口擴展。

但從技術(shù)上看,盡管國內(nèi)廠商在AI推理的硬件層面,如算力芯片等方面取得了一定進展,但在以KV Cache為核心的軟件體系構(gòu)建上,尚未形成完整、成熟且具有廣泛適用性的解決方案。而在國外,已經(jīng)有一些較為成熟的基于KV Cache的推理加速軟件框架與工具,能夠很好地與各類硬件平臺適配。

華為在會上表示,希望聯(lián)合產(chǎn)業(yè)界的力量,推進以記憶數(shù)據(jù)管理為中心的AI推理生態(tài)。

“目前業(yè)界缺乏一套在各種場景下都能普適適用的框架、加速機制與算法,我們希望通過將部分成果開放,促進框架廠商、存儲廠商以及GPU廠商共同加速這一框架機制的成熟,最終解決當(dāng)前AI行業(yè)落地過程中的效率與成本問題?!比A為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構(gòu)師李國杰表示,華為計劃在今年9月正式開源UCM。

中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰表示,“系統(tǒng)級的推理架構(gòu)優(yōu)化已經(jīng)形成主流,但不是單點技術(shù)的突破,我們要從整個芯片級的、軟件級的,再到上層的框架級的進行協(xié)同考慮,形成整個推理架構(gòu),這也是未來產(chǎn)業(yè)的發(fā)展重點?!?/p>


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。


關(guān)鍵詞: 半導(dǎo)體

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉