ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

华为UCM技术引领AI推理新时代:优化体验,降低成本

时间:2025-08-13 13:45:53来源:凤凰网财经编辑:快讯团队

上海,中国——在金融科技的浪潮中,2025金融AI推理应用落地与发展论坛于近日盛大启幕,汇聚了业界的精英与先锋。中国银联的执行副总裁涂晓军与华为数字金融军团的CEO曹冲亲临现场并发表精彩致辞,为论坛拉开了序幕。

论坛的焦点之一,是华为公司副总裁兼数据存储产品线总裁周跃峰博士所发布的UCM推理记忆数据管理器。这一创新技术旨在重塑AI推理的体验与成本结构,推动AI商业应用的正向循环。周跃峰博士在演讲中深刻指出:“在AI时代,Token数已成为衡量模型训练、推理效率与体验的关键指标,Token经济正引领行业变革。”

随着AI技术的深入发展,推理阶段的重要性日益凸显,而推理体验与成本之间的平衡,成为了企业面临的一大挑战。为了应对这一挑战,华为推出了UCM推理记忆数据管理器,它由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)以及高性能存取适配器(Adapter)。通过这三层协同,UCM实现了AI推理体验与成本的双重优化。

在推理体验方面,UCM采用了层级化自适应的全局前缀缓存技术,能够直接调用KV缓存数据,避免重复计算,从而将首Token时延降低了最高90%。同时,针对长文本处理的需求,UCM通过算法创新,将超长序列Cache分层卸载至外置专业存储,实现了推理上下文窗口的10倍级扩展。

在降低成本方面,UCM具备智能分级缓存能力,能够根据记忆热度在HBM、DRAM、SSD等存储介质中灵活流动。它还融合了多种稀疏注意力算法,实现了存算深度协同,使得长序列场景下的TPS(每秒处理token数)提升了2至22倍,显著降低了每Token的推理成本。

论坛上,华为还宣布了UCM的开源计划。这一开放统一的平台,将通过南北向接口适配多类型推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区,携手全行业共同推动AI推理生态的繁荣发展。

更多热门内容