ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小米MiMo大模型API降价99%揭秘:全链路优化驱动大模型普惠化

时间:2026-06-02 09:15:14来源:快讯编辑:快讯

近日,小米宣布对其MiMo-V2.5系列API进行永久性价格调整,最高降幅达99%,这一举措在人工智能领域引发了广泛关注。小米此次降价的核心在于其Hybrid SWA+MoE+多模态复合架构的全面优化,使得推理成本大幅降低,为AI应用的普及提供了新的可能。

小米MiMo大模型团队通过系统性重构推理栈,包括KV Cache管理、分级缓存、前缀缓存树以及调度策略和Prefill/Decode链路,成功将KV Cache存储压缩至同级方案的约1/7。这一优化在长序列场景下尤为显著,推理成本大幅下降,为大规模AI应用提供了经济高效的解决方案。

在技术实现上,MiMo-V2.5系列模型采用了Hybrid SWA架构,其中SWA层占比高达6/7,计算量仅为全注意力机制的1/7。这种设计不仅减少了计算量,还显著降低了KV Cache的存储需求,使得长序列推理成本进一步降低。小米还通过双池分治、前缀缓存树重构和GCache三级缓存等优化措施,提升了KV Cache的命中率,进一步降低了推理成本。

小米MiMo大模型负责人罗福莉在社交平台X上详细解释了降价原因。她指出,输入(缓存命中)部分降幅高达99%,主要得益于推理框架对SWA分层键值缓存优化的支持。而输入(缓存未命中)和输出价格降低60%-80%,则是因为Hybrid SWA架构中SWA层的高占比,使得计算量大幅减少。罗福莉还强调,尽管API价格大幅下调,但小米的生产推理引擎仍能基本实现收支平衡。

在调度优化方面,小米开发了可动态扩展的无状态调度器LLM-Router,通过Redis中心化存储避免了单服务故障后的KV Cache调度回退现象,稳定保证了缓存命中率。同时,小米还引入了计算量感知优先调度策略,优先处理真实计算token数更少的请求,进一步降低了推理延迟。

Decode阶段的优化也是小米此次技术升级的重点。通过显存优化和MTP优化,小米成功提升了KV Cache的有效容量,使得GPU算力得到更充分的利用。MiMo-V2.5系列模型还原生支持3层MTP加速decode输出,进一步降低了智能体场景下的真实decode成本。

在多模态推理方面,MiMo-V2.5系列支持视觉、音频、视频跨模态理解。小米研究人员通过大量工程优化和稳定性修复,将Encoder吞吐提升至2倍,显著提高了多模态推理的效率。

更多热门内容
Token经济浪潮下挑战与机遇并存 华为星河AI网络筑牢数智化转型底座
在Token智能守护方面,华为秉持“AI对抗AI、AI守护AI”理念,推出内置AI Core引擎的AI防火墙,未知病毒检出率达95%;同时打造Agent安全护栏,结合鲲鹏架构与算子多层优化,实现安全和效率…

2026-06-02

2026年小米水杯代工怎么选?从生产实力到口碑推荐一文说清
像深圳市小家居用品有限公司,具备 17 年水杯制造经验,这使得他们在生产工艺、质量把控等方面都有深厚的积累,能够确保产品的稳定性和可靠性。小米水杯代工专业厂家在这个行业中扮演着重要角色,通过专业的生产和定制服…

2026-06-02

小米汽车交付量稳健攀升,雷军谈避免“数字内卷”聚焦市场长远发展
这一成绩不仅巩固了其在新能源汽车市场的地位,更让行业内外对其未来发展充满期待。雷军甚至提到,团队曾多次统计出具体的交付数字,比如36700台,但他认为没有必要过于关注这些细节,统一报告为3万台就可以。随着电动…

2026-06-02

小米汽车交付量持续攀升,雷军谈不公布精确数据:避免陷入数字比拼
交付数据:稳步增长小米汽车4月、5月交付量均突破3万台,延续增长势头。2月、3月交付量已超2万台,初期爬坡速度显著。官方称销量增长超预期。雷军回应:避免数字竞争雷军解释不公布精确销量是为了避免与同行陷入“比拼…

2026-06-02

小米YU7 GT交付现场星光熠熠,雷军舒淇亮相,生态互联与性能受赞
交付仪式盛况小米YU7GT正式开启交付,雷军与舒淇现身交付仪式,首批车主对新车赞不绝口。“人-车-家”生态互联车主可通过YU7GT控制米家设备,实现生态无缝连接。外观与性能车厘子红配色受好评,车漆工艺精湛。旅…

2026-06-02

小米YU7 GT交付现场星光熠熠,智能生态受赞,未来出行新选择来袭
无论是调节家中的灯光、空调,还是查看家庭安防,车主都能在驾驶过程中轻松实现,充分展现了小米在智能生态系统整合方面的强大能力。这一优势不仅吸引了众多消费者的目光,也成为他们选择小米YU7GT的重要原因。许多车主…

2026-06-02