通义大模型再升级！Fun-Audio-Chat发布开启语音交互实用化新篇章-业界动态-ITBear科技资讯

阿里云旗下的通义大模型近日正式推出新一代语音交互模型Fun-Audio-Chat，这是通义百聆语音模型系列中首个专注于“语音对语音”交互能力的创新成果。该模型支持用户直接通过语音进行多轮对话，无需依赖文本输入或转换，为语音交互领域带来了新的技术突破。

在性能表现方面，Fun-Audio-Chat在多项国际权威评测中展现出显著优势。根据OpenAudioBench、VoiceBench、Ultraeval-Audio等语音与多模态评测数据显示，该模型在语音理解、生成质量以及对话协同能力上均达到开源模型领先水平，整体性能超越同参数规模的多款主流模型。这一成果验证了其在复杂语音场景下的技术实力。

作为通义百聆语音模型家族的最新成员，Fun-Audio-Chat-8B与系列中已有的语音转文字模型Fun-ASR、文字转语音模型Fun-CosyVoice3形成互补。其核心亮点在于端到端的语音交互能力，可直接应用于语音聊天、情感陪伴、智能终端交互及语音客服等场景。目前，该模型已在魔搭社区、Hugging Face及GitHub等平台全面开源，供全球开发者使用。

在技术架构上，阿里云团队采用了两项创新策略。首先是Core-Cocktail两阶段训练方法，通过分阶段引入语音与多模态能力，并与原有文本大模型参数进行融合微调，有效降低了新增能力对语言理解基础的干扰，解决了“灾难性遗忘”这一技术难题。其次是多阶段、多任务的偏好对齐训练机制，使模型能够更精准地捕捉语音对话中的语义与情绪线索，显著提升了对话的自然流畅度。

算力效率优化是该模型的另一大突破。通过采用压缩—自回归—解压缩的双分辨率端到端架构，Fun-Audio-Chat-8B将音频处理帧率降至约5Hz，在保持语音质量的同时，将GPU计算开销降低近50%。这一设计在当前语音大模型普遍面临高算力成本的背景下，展现了重要的工程应用价值。

此次开源的Fun-Audio-Chat-8B不仅推动了语音交互技术向低算力、强对话的实用化方向发展，也为开源社区提供了可部署于真实场景的语音大模型技术方案。其创新架构与训练策略为行业开发者提供了新的技术参考，有望加速语音交互技术在更多领域的落地应用。

通义大模型再升级！Fun-Audio-Chat发布 开启语音交互实用化新篇章

通义大模型再升级！Fun-Audio-Chat发布开启语音交互实用化新篇章