ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小米开源OmniVoice语音克隆TTS模型,搞定600余种语言

时间:2026-05-08 06:40:28来源:IT之家编辑:快讯

5 月 7 日消息,“小米技术”公众号今天下午宣布,小米 AI 实验室新一代 Kaldi 团队全新推出 OmniVoice,不仅在中英文场景达到顶尖性能,更在多语言任务中展现出超越商用系统的实力,是业内首个覆盖数百语种的语音克隆 TTS 模型。

官方表示,该模型在低资源小语种上具备极强的泛化能力,你想得到的所有语种几乎都可以用 OmniVoice 来合成。OmniVoice“最亮眼的突破”是其极简的模型架构。它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,省去了多余的结构和环节:没有文本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。

OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练,用 PyTorch 推理就可以达到 40 倍实时,轻松适配各类应用场景。

在这种实力的背后,是两项“关键设计”:一是通过全码本随机掩蔽策略,显著提升模型的训练效率,进而全面提升模型能力;二是引入大语言模型作为模型的预训练参数,首次在非自回归 TTS 模型中有效利用大语言模型,让语音合成的可懂度大幅提升,解决“读不准”的问题。

从官方介绍获悉,在多语言测试中,即便仅基于开源数据训练,在 24 语种的测试中,其语音相似度和可懂度均超越多款商用系统;在 102 种语种的测试中,它的语音可懂度逼近甚至优于真实语音;即便对于训练数据不足 10 小时的小语种,OmniVoice 也能实现高质量的语音合成,大大降低了低资源语种的语音合成门槛。

该模型还具备多项实用功能:

自定义音色设计:无需参考音频,只需描述音色属性(如性别、年龄、音调、方言、口音等),就能生成符合预期的音色,还支持耳语等特殊风格。

带噪参考音频适配:针对实际使用中参考音频音质不佳的问题,OmniVoice 能自动过滤噪声,提取清晰的音色特征,即便在嘈杂环境下录制的音频,也能克隆出高质量语音。

丰富语气表达:支持插入笑声、叹气等语气符号,让合成语音更有表现力,更贴近真人交流。

发音精准纠正:针对中英文多音字、专有名词易读错的问题,用户可通过简单设置,纠正发音错误,提升语音合成的可靠性。

更多热门内容
小红书亮相上海网络视听创作者大会:AI赋能创作,共筑真实互动新生态
在《AIGC重塑创作:开启人机共创新生态》主题圆桌中,小红书社区科技人文内容负责人散兵表示,AI正在降低内容创作门槛,也让越来越多普通人拥有表达和创造的能力。多位创作者也在现场分享了他们借助AI进行创作与表…

2026-05-31

“知识喵・能量站”亮相杨浦V聚场 探索知识传播新范式
其中,“时政之镜”板块聚焦优质时政类UP主的深度时事解读、国际视野分析内容,配套推出专属蓝莓时政推荐书单,助力青年读懂时事、拓宽格局;“历史之脉”板块集中展示头部历史科普UP主精品内容,搭配趣味“蓝莓说历史”…

2026-05-31

王力宏杭州演唱会“科技感”拉满!宇树机器人踢踏舞后竟开嗓引全场沸腾
快科技5月30日消息,5月29日晚,王力宏杭州演唱会迎来特别嘉宾 —— 宇树 G1人形机器人登台献艺。机器人搭档王力宏演绎经典曲目《龙的传人》,利落的踢踏舞将国风韵味与前沿科技巧妙融合,惊艳全场。 现场气氛…

2026-05-31

Meta为缓解Reality Labs亏损压力 计划明年春季内测AI吊坠并扩充产品线
IT之家 5 月 30 日消息,科技媒体 The Information 今天(5 月 30 日)发布博文,报道称 Meta 公司为缓解其Reality Labs 实验室的长期亏损压力,计划 2027 年春…

2026-05-30

英特尔推出Thunderbolt Share技术:两台Win11电脑轻松共享外设与文件
IT之家 5 月 30 日消息,英特尔今天宣布推出 Thunderbolt Share 雷电共享技术,可让两台具备雷电 4 / 雷电 5 接口的Win11 电脑实现共享文件、键盘、鼠标等外设,同时支持数据备…

2026-05-30

把星光握在掌心,vivo S60系列携田曦薇解锁4K Live新体验
她说,S60的4K星光Live理念就是“不折腾也能出片,记录的是情绪而非参数”。 用过Live图的人都有体会,拍的时候觉得还不错,一回看就发现问题:画面模糊、动态卡顿、封面帧和动态片段色彩割裂,甚至画面突然变…

2026-05-30