ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小米MiMo-V2.5语音大模型来袭:TTS合成与ASR识别双突破,开启Agent时代新体验

时间:2026-04-24 09:49:25来源:互联网编辑:快讯

小米公司今日宣布推出面向智能体时代的全链路语音模型系列——MiMo-V2.5-TTS Series与MiMo-V2.5-ASR。该系列模型突破传统语音技术局限,通过整合语音合成与识别两大核心能力,构建起覆盖输入输出全流程的智能化语音交互体系,为智能设备赋予更自然的人机对话能力。

在语音合成领域,MiMo-V2.5-TTS Series包含三款创新模型。基础版MiMo-V2.5-TTS搭载数十种专业级音色库,支持语速、情感、语调等12维参数的精细调控,可满足有声读物、智能客服等场景需求。VoiceDesign版本通过自然语言指令即可生成全新音色,用户仅需描述"温柔女声"或"沧桑男声"等特征,系统即可在30秒内完成音色建模。VoiceClone版本则突破性实现小样本音色克隆技术,仅需5分钟音频样本即可复现目标音色,同时保持98%的风格指令遵循率。

该系列模型独创的分层指令系统引发行业关注。在处理复杂创作需求时,用户可提交包含角色设定、场景描述、对话指导的三级结构化文本,模型能精准识别各层级指令并动态组合输出。例如在游戏NPC配音场景中,系统可同时保持角色音色统一性与单句表演独立性。更值得关注的是其音频标签技术,允许在文本中嵌入类似"[愤怒][加快语速]"的标记,实现帧级语音控制。

语音识别模型MiMo-V2.5-ASR选择开源路线,其核心技术突破体现在复杂场景适应能力。经实测,该模型在强噪声环境下(信噪比-5dB)仍保持89%的识别准确率,在吴语、粤语等8种方言混合对话场景中错误率低于12%。特别针对中英混合语料(Code-Switch)优化后,模型可自动识别语种切换点,无需预先标注即可实现流畅转录。在专业领域测试中,古诗词、医学术语等知识密集型内容的识别准确率达到94.7%。

技术白皮书显示,ASR模型采用多模态预训练架构,通过融合声学特征与语义信息,在AMI会议数据集上取得14.2%的词错率,刷新行业纪录。其独创的动态标点系统可结合语音停顿与语义逻辑自动插入标点,后处理效率提升60%。目前该模型已支持实时流式识别,端到端延迟控制在300ms以内。

开发者生态建设方面,小米开放平台提供双重接入方案:TTS系列三款模型在MiMo API平台提供限时免费调用服务,配套上线的MiMo Studio可视化工具支持零代码语音创作;ASR模型则通过GitHub开源代码与模型权重,提供PyTorch实现框架及预训练检查点。文档中心显示,当前已有超过2.3万开发者注册使用相关服务,日均处理语音数据量突破1.2PB。

更多热门内容
神舟二十一号乘组归途在即 揭秘东风着陆场背后的航天智慧与保障实力
飞船返回的时候再入会产生剧烈的摩擦高温,不过飞船做了很多的防护,乘组是没问题的。最后离地1米,反推发动机点火,会听到“砰”的一声,伴随一下轻微的撞击——这也就意味着,返回舱稳稳地站在了地球的土地上。 返回…

2026-05-31

北京太空智算研究院落地亦庄 聚焦太空算力2028年前将发射首发试验星
研究院将围绕星载算力芯片、星间激光通信、太空能源与散热、天地一体化网络及空间安全标准等方向开展关键共性技术攻关,搭建覆盖技术研发、中试验证、在轨测试到成果转化的全链条服务体系,并计划于2028年前完成首发试验…

2026-05-31

北京太空智算研究院落地亦庄 攻关关键技术 构建太空算力产业生态
IT之家 5 月 30 日消息,据“北京亦庄”官方公众号,近日,北京太空智算研究院在北京经济技术开发区(简称北京经开区,又称北京亦庄)注册成立。 据介绍,研究院将围绕星载算力芯片、星间激光通信、太空能源与散热…

2026-05-31

百度Apollo捐赠自动驾驶车进高校,搭建平台共育未来科技新力量
百度Apollo向北京建筑大学捐赠了自动驾驶车辆,这不仅是技术的传递,更是对未来人才的培养。此次捐赠为教学科研搭建了全新平台,期待以此为契机深化产学研融合,碰撞创新火花,共同推动自动驾驶技术发展与复合型人才培…

2026-05-31