ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小米MiMo-V2.5再升级:TTS系列精细控声 ASR开源应对复杂场景

时间:2026-04-24 10:22:35来源:互联网编辑:快讯

小米技术团队在完成MiMo-V2.5系列大模型公测后,迅速推进语音技术生态建设,于近日同步推出MiMo-V2.5-TTS语音合成与MiMo-V2.5-ASR语音识别两大子系统,构建起覆盖语音输入输出的完整技术链条。此次发布的语音解决方案包含六项核心突破,其中TTS系统通过创新的声音控制机制重新定义了语音交互体验。

在语音合成领域,新发布的TTS系列包含三个差异化模型。基础版MiMo-V2.5-TTS集成超过20种专业级音色库,用户可直接调用包含新闻播报、客服对话等场景的预设音色,同时支持通过自然语言指令动态调整语速、音高及情感强度。创新模型MiMo-V2.5-TTS-VoiceDesign突破传统音色生成模式,仅需输入"30岁女性,温柔知性"等文本描述即可自动生成全新音色,整个过程无需提供任何音频样本。针对高精度复刻需求,MiMo-V2.5-TTS-VoiceClone模型展现出强大实力,通过分析3-5秒的参考音频,不仅能完美复现原声特征,还可保持对情感指令的响应能力,官方测试中成功实现了"愤怒中带着哭腔"等复合情绪表达。

语音识别系统MiMo-V2.5-ASR则聚焦复杂场景适应性,其开源版本已支持包括吴语、粤语在内的8种中文方言识别,在中英文混合对话场景中准确率突破92%。针对嘈杂环境,模型通过引入多模态降噪算法,在80分贝背景噪音下仍保持85%以上的识别精度。特别设计的多人对话模式可自动区分说话人,并实时生成带标点符号的转写文本,经实测在4人交叉对话场景中,端到端响应延迟控制在300毫秒以内。

技术实现层面,TTS系统采用分层声学编码架构,将音色特征与内容表达解耦处理,既保证音色生成质量,又提升情感控制的响应速度。ASR系统则创新性地融合了自监督学习与流式处理技术,通过40万小时多模态数据训练,使模型具备上下文语义理解能力。开发者可通过GitHub及HuggingFace平台获取ASR系统的完整代码与预训练权重,TTS系列则已在小米自主研发的MiMo Studio平台开放在线体验通道。

据技术文档披露,小米后续研发将聚焦两大方向:一是拓展音频生成维度,开发支持环境音效与音乐创作的通用音频模型;二是深化语义理解能力,构建可处理长文本上下文的记忆机制。此次发布的语音系统已与小米智能生态完成初步对接,预计将在智能客服、车载语音、无障碍交互等领域率先落地应用。

更多热门内容
北京智源领航世界模型新赛道 中国AI竞逐万亿级物理交互新蓝海
王仲远举了个例子,视频模型能生成天上飞的猪,这在数字世界是趣味,在物理世界却是灾难。 王仲远提出,要让AI真正进入物理世界,解决制造业、医疗、物流、养老等实体经济的痛点,世界模型须具备几项核心能力——物理正确…

2026-06-13

谷歌推出Gemini-SQL2模型:Text-to-SQL能力顶尖,执行准确率达80.04%
IT之家注:Text-to-SQL 是指把自然语言问题自动转换成 SQL查询的技术。用户不必手写数据库语句,只需用口语描述需求,系统就尝试生成可运行的 SQL。 在实际场景下,业务人员可以通过该模型自助式…

2026-06-13

HDC2026新看点:鸿蒙智能体框架升级,小艺如何实现能力跃迁与智慧进化?
HDC2026上,小艺给出了答案,能跨应用执行、具备持久记忆与自主决策能力的智能协同。鸿蒙系统应用全面Skill化,把备忘录、日历、图库等2100多项系统能力开放给小艺,同时日程、位置、健康指标、睡眠数据、…

2026-06-13

SpaceX总裁肖特韦尔:星舰入轨飞行或今年达成 试飞计划稳步推进
来源:环球市场播报 SpaceX公司总裁格温妮・肖特韦尔谈及星舰轨道试飞:“这件事很大程度上取决于美国联邦航空管理局”肖特韦尔表示,星舰能否开展轨道试飞 “很大程度上取决于” 美国联邦航空管理局(FAA),…

2026-06-13

中美航天竞逐:长征9号与星舰V3同台竞技,中国重型火箭未来可期
2018年,我国公开了长征9号系列火箭的发展计划,目标是2028年首飞。将长征9号与星舰V3对比,不难发现我国火箭在尺寸和直径上明显更胜一筹。 以俄罗斯为例,联盟5号系列火箭于20…

2026-06-13