AI時代下,推理技術(shù)關(guān)系用戶與AI交互的體驗,包括回答問題的時延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等,在此背景下,華為最新推出AI推理黑科技UCM(推理記憶數(shù)據(jù)管理器),可大幅降低推理時延與成本,并大幅提升推理效率。
8月12日,華為舉行發(fā)布會,正式發(fā)布AI推理創(chuàng)新技術(shù)UCM。
據(jù)了解,目前,國外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時延5ms),而我國普遍小于60 Tokens/s(時延50-100ms),如何解決推理效率與用戶體驗的難題迫在眉睫。
“高延遲、高成本是當(dāng)下AI推理領(lǐng)域發(fā)展的主要挑戰(zhàn)?!比A為數(shù)字金融軍團(tuán)CEO曹沖在會上表示。
華為方面介紹,作為一款以KV Cache為中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,以實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。
在具體技術(shù)實現(xiàn)路徑方面,華為相關(guān)負(fù)責(zé)人表示,UCM通過層級化自適應(yīng)的全局前綴緩存技術(shù),可實現(xiàn)任意物理位置、任意輸入組合上的KV前綴緩存重用,在多輪對話、RAG知識檢索等場景中直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計算,使首Token時延最大降低90%。
另外,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中自動分級緩存,同時融合多種稀疏注意力算法,實現(xiàn)存算深度協(xié)同,使長序列場景下TPS(每秒處理Token數(shù))提升2—22倍,降低每Token推理成本。
此外,UCM通過動態(tài)KV逐層卸載、位置編碼擴(kuò)展、Prefill稀疏等組合技術(shù),將超長序列Cache分層卸載至外置專業(yè)存儲,利用算法突破模型和資源限制,實現(xiàn)10倍級推理上下文窗口擴(kuò)展。
華為相關(guān)負(fù)責(zé)人表示,當(dāng)前,中國互聯(lián)網(wǎng)企業(yè)在AI領(lǐng)域的投資規(guī)模僅為美國的十分之一。與此同時,國內(nèi)大模型的推理體驗與海外相比仍存在差距——而推理體驗的不足會直接導(dǎo)致用戶流失,進(jìn)而減緩企業(yè)的投資節(jié)奏;投資收縮又會使企業(yè)難以承擔(dān)高昂的推理成本,反過來進(jìn)一步限制推理體驗的提升,形成惡性循環(huán)。UCM能夠在算力基礎(chǔ)設(shè)施投入保持不變的前提下,顯著優(yōu)化推理體驗,推動AI推理進(jìn)入“體驗提升—用戶增長—投資加大—技術(shù)迭代”的商業(yè)正循環(huán)。
記者了解到,華為UCM已率先在中國銀聯(lián)“客戶之聲”“營銷策劃”“辦公助手”三大業(yè)務(wù)場景中,開展智慧金融AI推理加速應(yīng)用試點,并已取得一定成果。
“AI時代后,Token經(jīng)濟(jì)時代到來,目前推理過程仍存不少挑戰(zhàn),如何改進(jìn)推理系統(tǒng)的體驗和效率是一個重要的話題。與中國銀聯(lián)合作落地UCM,對于AI推理的效率來說是一個有效的突破?!比A為副總裁、數(shù)據(jù)存儲總裁周躍峰表示。
隨著AI應(yīng)用向各類實際場景深度滲透,用戶規(guī)模和請求量急劇攀升,模型分析和生成的Token數(shù)更呈現(xiàn)指數(shù)級增長態(tài)勢,最大化單Token智能承載力、優(yōu)化其成本成為廠商核心目標(biāo),Token經(jīng)濟(jì)時代來臨,訓(xùn)練、推理效率與體驗量綱都以Token為表征。以火山引擎為例,2025年5月日均Token調(diào)用達(dá)16.4萬億,較2024年同期激增137倍。巨大的Token處理量意味著高昂運營成本——服務(wù)器維護(hù)、電力消耗持續(xù)攀升;而保障流暢推理體驗又需加大算力投入。如何在兩者間找到平衡,成為全行業(yè)亟待破解的難題。
在此背景下,華為計劃于2025年9月正式開源UCM,屆時將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲廠商和生態(tài)伙伴。
“為什么要開源,是希望行業(yè)內(nèi)更多人(企業(yè))一起推動推理框架、標(biāo)準(zhǔn)的形成,這是一個大家共創(chuàng)標(biāo)準(zhǔn)、共同推動推理領(lǐng)域加速發(fā)展的過程?!比A為相關(guān)負(fù)責(zé)人表示。