小米开源OmniVoice语音克隆TTS模型，搞定600余种语言-业界动态-ITBear科技资讯

5 月 7 日消息，“小米技术”公众号今天下午宣布，小米 AI 实验室新一代 Kaldi 团队全新推出 OmniVoice，不仅在中英文场景达到顶尖性能，更在多语言任务中展现出超越商用系统的实力，是业内首个覆盖数百语种的语音克隆 TTS 模型。

官方表示，该模型在低资源小语种上具备极强的泛化能力，你想得到的所有语种几乎都可以用 OmniVoice 来合成。OmniVoice“最亮眼的突破”是其极简的模型架构。它仅用一个双向 Transformer 网络，就能直接实现文本到语音的转化，省去了多余的结构和环节：没有文本的单独建模，没有复杂的混合结构，也没有多层级的 token 预测，是目前最简单的非自回归 TTS 模型。

OmniVoice 的语音合成质量优于目前同类主流模型，同时，训练和推理速度极具优势，一天完成 10 万小时训练，用 PyTorch 推理就可以达到 40 倍实时，轻松适配各类应用场景。

在这种实力的背后，是两项“关键设计”：一是通过全码本随机掩蔽策略，显著提升模型的训练效率，进而全面提升模型能力；二是引入大语言模型作为模型的预训练参数，首次在非自回归 TTS 模型中有效利用大语言模型，让语音合成的可懂度大幅提升，解决“读不准”的问题。

从官方介绍获悉，在多语言测试中，即便仅基于开源数据训练，在 24 语种的测试中，其语音相似度和可懂度均超越多款商用系统；在 102 种语种的测试中，它的语音可懂度逼近甚至优于真实语音；即便对于训练数据不足 10 小时的小语种，OmniVoice 也能实现高质量的语音合成，大大降低了低资源语种的语音合成门槛。

该模型还具备多项实用功能：

自定义音色设计：无需参考音频，只需描述音色属性（如性别、年龄、音调、方言、口音等），就能生成符合预期的音色，还支持耳语等特殊风格。

带噪参考音频适配：针对实际使用中参考音频音质不佳的问题，OmniVoice 能自动过滤噪声，提取清晰的音色特征，即便在嘈杂环境下录制的音频，也能克隆出高质量语音。

丰富语气表达：支持插入笑声、叹气等语气符号，让合成语音更有表现力，更贴近真人交流。

发音精准纠正：针对中英文多音字、专有名词易读错的问题，用户可通过简单设置，纠正发音错误，提升语音合成的可靠性。

泰坦军团KF271S PRO+电竞显示器京东开售，高刷低蓝光仅1349元

2026-06-29

马斯克宣布Grok 4.5开启内部测试 SpaceX将每月推出全新AI模型

2026-06-29

马斯克加速AI布局：Grok 4.5开启内部测试软件开发能力再升级

2026-06-29

中国移动成立Token办公室集团核心领导挂帅推动全流程拉通

2026-06-29

马斯克55岁生日之际深情许愿：愿全人类共赴光明未来之约

2026-06-29

2026年4K闺蜜机怎么选？海信X8 Ultra凭创新形态与硬核配置成高端优选

接下来，我们将对目前市场上热度最高的三款 32 吋 4K 闺蜜机 —— 海信 X8 Ultra、小度 4K 以及创维随心屏SKS13，进行核心定位梳理与深度测评，并为您提供不同需求下的选购建议。在众多 …

2026-06-29

2026闺蜜机选购指南：从实测数据出发，揭秘三款热门机型优劣

海信大白闺蜜机 X8 Ultra 凭借在屏幕、芯片、形态结构、续航快充以及音响系统等全维度的越级配置，稳居排行榜首位，是当之无愧的“高端闺蜜机天花板”。小度和创维的产品虽然各有特点，但在综合体验上与海信 X…

2026-06-29

鸿蒙OS 6.1.0.130 SP16来袭，不止流畅，这10处细节优化别错过

我认真看了一遍这次更新内容，发现相比新增几个炫酷功能，华为这次更像是在完善大家每天都会用到的体验。如果你的华为手机已经收到了这次更新，不妨把上面这10个地方都体验一遍，说不定会发现一些之前没有注意到的新变…

2026-06-29