小米开源OmniVoice多语言TTS模型：超600种语言支持，语音克隆高效且自然-业界动态-ITBear科技资讯

小米下一代 Kaldi 团队（k2-fsa）近日正式开源了一款名为 OmniVoice 的超大规模多语言零样本文本转语音（TTS）模型。该模型支持超过 600 种语言，在中英文及多语言基准测试中多项关键指标达到行业领先水平，为语音合成领域带来了重要突破。

在性能表现上，OmniVoice 展现出了显著优势。在 Seed-TTS 中文测试集中，其词错误率（WER）低至 0.84%，而在多语言基准测试中，相似度（SIM-o）和词错误率指标均超越了 ElevenLabs v2 和 MiniMax 等知名商用模型，语音自然度和清晰度表现尤为突出。

合成效率是 OmniVoice 的另一大亮点。该模型的实时因子（RTF）低至 0.025，合成速度比实时需求快 40 倍。这一特性使其能够快速处理长文本语音生成任务，大幅提升用户体验，尤其适用于需要高效语音合成的应用场景。

OmniVoice 的核心架构采用了创新设计。其扩散语言模型风格的离散非自回归架构，可直接从文本生成语音，跳过了传统模型中复杂的中间语义 token 阶段。这种设计不仅简化了流程，还通过全码本随机掩码策略和预训练 LLM 初始化技术，进一步提升了训练效率和语音输出的清晰度与可懂度。

在语音克隆与定制方面，OmniVoice 提供了高度灵活的解决方案。用户仅需提供 3-10 秒的短参考音频，即可实现高品质的零样本语音克隆。模型还支持通过自然语言描述自定义声音属性，包括性别、年龄、音调、口音和方言等，甚至能够生成耳语等特殊语音效果。

针对中文及方言的精准合成需求，OmniVoice 特别优化了非语言符号处理和发音控制功能。模型能够识别并处理如 [laughter] 这样的非语言符号，同时支持通过拼音或音标进行发音纠正，确保语音合成的准确性。

OmniVoice 的最大特色在于其广泛的语言覆盖能力。从主流语种到众多低资源语言，该模型均能高效支持。对于小语种和濒危语言，仅需少量样本即可生成高质量语音，这一特性为语言文化的数字化保护提供了有力支持。

目前，OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 平台开源，开发者可以轻松进行本地部署或集成到各类应用中。项目地址：https://github.com/k2-fsa/OmniVoice