华为UCM技术革新AI推理：成本大降，推理速度提升百倍，金融场景率先应用-信息流-ITBear科技资讯

上海近日举办了2025金融AI推理应用落地与发展论坛，吸引了众多行业领袖和技术专家的参与。中国银联执行副总裁涂晓军与华为数字金融军团CEO曹冲在论坛上发表了精彩致辞，共同探讨金融AI推理技术的未来趋势。

论坛的高光时刻之一是华为公司副总裁、数据存储产品线总裁周跃峰博士发布了一项创新技术——UCM推理记忆数据管理器。这项技术旨在优化AI推理体验，提高推理效率，并降低成本，从而推动AI技术在商业领域的正向循环。周跃峰博士指出，在AI时代，Token数已成为衡量模型训练、推理效率和用户体验的关键指标，预示着Token经济的兴起。

华为发布的UCM推理记忆数据管理器由三大核心组件构成：推理引擎插件（Connector）、功能库（Accelerator）和高性能存取适配器（Adapter）。这些组件通过推理框架、算力和存储的协同工作，实现了AI推理的“高效体验、低成本运营”。具体来说，UCM采用层级化自适应的全局前缀缓存技术，直接调用KV缓存数据，避免了重复计算，显著降低了首Token时延。同时，通过算法创新，UCM将超长序列缓存分层卸载至外置专业存储，扩展了推理上下文窗口，满足了长文本处理的需求。

在成本控制方面，UCM具备智能分级缓存能力，能够根据记忆热度在HBM、DRAM、SSD等存储介质中按需流动。它还融合了多种稀疏注意力算法，实现了存算深度协同，提高了长序列场景下的处理速度，降低了每Token推理成本。这些特性使得UCM在金融等行业的AI推理应用中具有显著优势。

在中国银联与华为的联合创新技术试点中，UCM的技术价值得到了充分验证。在中国银联的“客户之声”业务场景下，借助UCM技术及工程化手段，大模型推理速度得到了大幅提升，仅需10秒即可精准识别客户高频问题，有效提升了服务质量。这一成果不仅展示了UCM技术的强大实力，也为金融行业的AI应用提供了新的思路和解决方案。

论坛现场，华为还宣布了UCM的开源计划。通过开放统一的南北向接口，UCM可以适配多类型推理引擎框架、算力及存储系统。预计在今年9月，UCM将正式开源，并逐步贡献给业界主流推理引擎社区。这一举措将有助于推动AI推理生态的繁荣发展，促进更多创新应用的涌现。