阿里通义再发力：开源Fun-CosyVoice3-0.5B及轻量化模型，功能升级亮点多-业界动态-ITBear科技资讯

阿里通义近日在语音技术领域接连推出多项创新成果，为开发者与用户带来更高效的解决方案。其最新开源的Fun-CosyVoice3-0.5B模型具备突破性的零样本音色克隆能力，用户仅需上传一段时长超过3秒的音频样本，系统即可精准复刻该音色并生成全新语音内容。该模型支持本地化部署与二次开发，为个性化语音应用开发提供了灵活的技术底座。

在语音识别领域，通义同步推出轻量化模型Fun-ASR-Nano，通过将参数量压缩至0.8B级别，显著降低了推理计算成本。这款开源模型不仅保持了高精度识别能力，更支持开发者根据特定场景需求进行定制化微调，特别适合资源受限设备部署。经测试，该模型在普通消费级硬件上即可实现流畅运行。

针对复杂音频环境挑战，通义对Fun-ASR模型进行专项优化升级。升级后的版本在噪声干扰场景下仍能保持93%的准确识别率，同时扩展了对音乐类内容的识别支持，包括歌词文本转写和说唱节奏识别等特殊需求。这项改进使得语音识别技术得以拓展至音乐创作、影视制作等创意产业领域，为内容生产者提供智能化工具支持。