ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小米开源OmniVoice多语言TTS模型:超600种语言支持,语音克隆高效且自然

时间:2026-04-09 15:41:44来源:互联网编辑:快讯

小米下一代 Kaldi 团队(k2-fsa)近日正式开源了一款名为 OmniVoice 的超大规模多语言零样本文本转语音(TTS)模型。该模型支持超过 600 种语言,在中英文及多语言基准测试中多项关键指标达到行业领先水平,为语音合成领域带来了重要突破。

在性能表现上,OmniVoice 展现出了显著优势。在 Seed-TTS 中文测试集中,其词错误率(WER)低至 0.84%,而在多语言基准测试中,相似度(SIM-o)和词错误率指标均超越了 ElevenLabs v2 和 MiniMax 等知名商用模型,语音自然度和清晰度表现尤为突出。

合成效率是 OmniVoice 的另一大亮点。该模型的实时因子(RTF)低至 0.025,合成速度比实时需求快 40 倍。这一特性使其能够快速处理长文本语音生成任务,大幅提升用户体验,尤其适用于需要高效语音合成的应用场景。

OmniVoice 的核心架构采用了创新设计。其扩散语言模型风格的离散非自回归架构,可直接从文本生成语音,跳过了传统模型中复杂的中间语义 token 阶段。这种设计不仅简化了流程,还通过全码本随机掩码策略和预训练 LLM 初始化技术,进一步提升了训练效率和语音输出的清晰度与可懂度。

在语音克隆与定制方面,OmniVoice 提供了高度灵活的解决方案。用户仅需提供 3-10 秒的短参考音频,即可实现高品质的零样本语音克隆。模型还支持通过自然语言描述自定义声音属性,包括性别、年龄、音调、口音和方言等,甚至能够生成耳语等特殊语音效果。

针对中文及方言的精准合成需求,OmniVoice 特别优化了非语言符号处理和发音控制功能。模型能够识别并处理如 [laughter] 这样的非语言符号,同时支持通过拼音或音标进行发音纠正,确保语音合成的准确性。

OmniVoice 的最大特色在于其广泛的语言覆盖能力。从主流语种到众多低资源语言,该模型均能高效支持。对于小语种和濒危语言,仅需少量样本即可生成高质量语音,这一特性为语言文化的数字化保护提供了有力支持。

目前,OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 平台开源,开发者可以轻松进行本地部署或集成到各类应用中。项目地址:https://github.com/k2-fsa/OmniVoice

更多热门内容
Snap计划2026年秋季推AR眼镜Specs 定价2500美元 独立设计或成市场新焦点
IT之家 5 月 23 日消息,科技记者 Alex Heath 昨日(5 月 22 日)发布博文,报道称 Snap 计划 2026 年秋季推出AR 眼镜 Specs,目标定价 2500 美元(IT之家注:现…

2026-05-23

小米REDMI Note 17系列现身GSMA数据库,海外发布或提档且命名体系或迎调整
据 GSMA 数据库信息,小米 REDMI Note 17 系列一共有 26012RN62L、26012RN62Y 和 26012RN62A 三个型号,面向全球市场和拉丁美洲市场推出,但中国版和印度版机型暂…

2026-05-23

小米人车家新品齐发!YU7 GT 领衔,这场发布会科技感拉满节奏带感
在本场发布会中,人车家全生态新品同场发布:YU7 GT、YU7 标准版、17 Max、首款耳夹式耳机、手环 10 Pro、科技家电联袂登场。刹得住体现在搭载 SU7 Ultra 同款赛道版制动系统,配备超…

2026-05-23