華為推出 UCM 算法以減少對 HBM 的依賴,據(jù)報道將在 9 月開源
雖然當?shù)孛襟w關注華為減少中國 HBM 對人工智能推理的依賴,但這家科技巨頭在 8 月 12 日發(fā)布了 UCM(統(tǒng)一計算內(nèi)存)——據(jù)我的駕駛和證券時報報道,這是一種人工智能推理突破,可大幅降低延遲和成本,同時提高效率。
值得注意的是,報道表明華為將在 2025 年 9 月開源 UCM,首先在 MagicEngine 社區(qū)推出,然后貢獻給主流推理引擎,并與 Share Everything 存儲供應商和生態(tài)系統(tǒng)合作伙伴分享。
UCM 的變革性功能
《證券時報》援引華為數(shù)字金融 CEO 曹健的話指出,高延遲和高成本仍然是當今 AI 推理開發(fā)面臨的主要挑戰(zhàn)。正如報道所指出的,目前國際領先模型實現(xiàn)了單用戶輸出速度為每秒 200 個 token(5 毫秒延遲),而中國模型通常低于每秒 60 個 token(50-100 毫秒延遲)。
根據(jù)報道,華為將 UCM 描述為一個以 KV(鍵值)緩存技術為核心的 AI 推理加速工具包。該系統(tǒng)據(jù)說結(jié)合了多種緩存優(yōu)化算法,以智能管理 AI 處理過程中產(chǎn)生的 KV 緩存內(nèi)存數(shù)據(jù)。這種方法擴展了推理上下文窗口,實現(xiàn)了高吞吐量、低延遲的性能,同時降低了每個 token 的推理成本,報道補充道。
證券時報報道,UCM 根據(jù)內(nèi)存熱模式自動將緩存數(shù)據(jù)分配到 HBM、DRAM 和 SSD 存儲中。據(jù)報道,該系統(tǒng)通過結(jié)合多種稀疏注意力算法,優(yōu)化計算和存儲協(xié)調(diào),在長序列場景中提供 2-22 倍更高的每秒令牌數(shù)(TPS),同時降低每個令牌的成本。
另一方面,據(jù)報道,華為官員解釋說,在多輪對話和知識搜索應用中,該系統(tǒng)直接訪問之前存儲的數(shù)據(jù),而不是重新計算所有內(nèi)容,將初始響應延遲減少高達90%。
降低對 HBM 的依賴
根據(jù) EE Times China 的報道,華為的新技術不僅提高了 AI 推理效率,還可能減少對 HBM 內(nèi)存的依賴,提升國內(nèi) AI 大模型推理性能,并加強中國的 AI 推理生態(tài)系統(tǒng)。
EETimes China 報道,自 2025 年 1 月 2 日起,美國禁止向中國出口 HBM2E 及更高等級的 HBM 芯片。該禁令不僅涵蓋在美國制造的 HBM 芯片,還包括使用美國技術在國外生產(chǎn)的芯片。
華為在 AI 推理方面的突破并非新事。據(jù)報告,該公司已取得多個里程碑,包括與北京大學合作開發(fā)的 DeepSeek 開源推理解決方案,以及在其 Ascend 平臺上實現(xiàn)的數(shù)項性能提升。此外,華為與科大訊飛的合作伙伴關系取得了顯著成果,使 MoE(專家混合模型)在大規(guī)模專家分布方面得以在國產(chǎn)計算基礎設施上實現(xiàn),推理速度提升三倍,響應延遲減半,報告補充道。
評論