上海近日举办了2025金融AI推理应用落地与发展论坛,吸引了众多行业领袖和技术专家的参与。中国银联执行副总裁涂晓军与华为数字金融军团CEO曹冲在论坛上发表了精彩致辞,共同探讨金融AI推理技术的未来趋势。
论坛的高光时刻之一是华为公司副总裁、数据存储产品线总裁周跃峰博士发布了一项创新技术——UCM推理记忆数据管理器。这项技术旨在优化AI推理体验,提高推理效率,并降低成本,从而推动AI技术在商业领域的正向循环。周跃峰博士指出,在AI时代,Token数已成为衡量模型训练、推理效率和用户体验的关键指标,预示着Token经济的兴起。
华为发布的UCM推理记忆数据管理器由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)和高性能存取适配器(Adapter)。这些组件通过推理框架、算力和存储的协同工作,实现了AI推理的“高效体验、低成本运营”。具体来说,UCM采用层级化自适应的全局前缀缓存技术,直接调用KV缓存数据,避免了重复计算,显著降低了首Token时延。同时,通过算法创新,UCM将超长序列缓存分层卸载至外置专业存储,扩展了推理上下文窗口,满足了长文本处理的需求。
在成本控制方面,UCM具备智能分级缓存能力,能够根据记忆热度在HBM、DRAM、SSD等存储介质中按需流动。它还融合了多种稀疏注意力算法,实现了存算深度协同,提高了长序列场景下的处理速度,降低了每Token推理成本。这些特性使得UCM在金融等行业的AI推理应用中具有显著优势。
在中国银联与华为的联合创新技术试点中,UCM的技术价值得到了充分验证。在中国银联的“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度得到了大幅提升,仅需10秒即可精准识别客户高频问题,有效提升了服务质量。这一成果不仅展示了UCM技术的强大实力,也为金融行业的AI应用提供了新的思路和解决方案。
论坛现场,华为还宣布了UCM的开源计划。通过开放统一的南北向接口,UCM可以适配多类型推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区。这一举措将有助于推动AI推理生态的繁荣发展,促进更多创新应用的涌现。