ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

通义大模型再升级!Fun-Audio-Chat发布 开启语音交互实用化新篇章

时间:2025-12-23 23:27:31来源:互联网编辑:快讯

阿里云旗下的通义大模型近日正式推出新一代语音交互模型Fun-Audio-Chat,这是通义百聆语音模型系列中首个专注于“语音对语音”交互能力的创新成果。该模型支持用户直接通过语音进行多轮对话,无需依赖文本输入或转换,为语音交互领域带来了新的技术突破。

在性能表现方面,Fun-Audio-Chat在多项国际权威评测中展现出显著优势。根据OpenAudioBench、VoiceBench、Ultraeval-Audio等语音与多模态评测数据显示,该模型在语音理解、生成质量以及对话协同能力上均达到开源模型领先水平,整体性能超越同参数规模的多款主流模型。这一成果验证了其在复杂语音场景下的技术实力。

作为通义百聆语音模型家族的最新成员,Fun-Audio-Chat-8B与系列中已有的语音转文字模型Fun-ASR、文字转语音模型Fun-CosyVoice3形成互补。其核心亮点在于端到端的语音交互能力,可直接应用于语音聊天、情感陪伴、智能终端交互及语音客服等场景。目前,该模型已在魔搭社区、Hugging Face及GitHub等平台全面开源,供全球开发者使用。

在技术架构上,阿里云团队采用了两项创新策略。首先是Core-Cocktail两阶段训练方法,通过分阶段引入语音与多模态能力,并与原有文本大模型参数进行融合微调,有效降低了新增能力对语言理解基础的干扰,解决了“灾难性遗忘”这一技术难题。其次是多阶段、多任务的偏好对齐训练机制,使模型能够更精准地捕捉语音对话中的语义与情绪线索,显著提升了对话的自然流畅度。

算力效率优化是该模型的另一大突破。通过采用压缩—自回归—解压缩的双分辨率端到端架构,Fun-Audio-Chat-8B将音频处理帧率降至约5Hz,在保持语音质量的同时,将GPU计算开销降低近50%。这一设计在当前语音大模型普遍面临高算力成本的背景下,展现了重要的工程应用价值。

此次开源的Fun-Audio-Chat-8B不仅推动了语音交互技术向低算力、强对话的实用化方向发展,也为开源社区提供了可部署于真实场景的语音大模型技术方案。其创新架构与训练策略为行业开发者提供了新的技术参考,有望加速语音交互技术在更多领域的落地应用。

更多热门内容
三星发力AI赛道:今年拟将Galaxy AI移动设备产量提至8亿台
【环球网科技综合报道】1月6日消息,在全球人工智能竞争愈发白热化的当下,三星电子正积极发力,计划在今年大幅扩充人工智能移动设备的产量。据路透社报道,三星电子联合首席执行官近日透露,公司今年计划将搭载“Gal…

2026-01-06

马斯克断言2026迎AI奇点,程序员角色转型在即,技术跃升时代来临
这股Claude Code热潮确实来势汹汹,Midjourney创始人就公开分享,圣诞假期里他敲的代码量,居然比过去十年的总和还多,即便能感受到些许局限,但也明确意识到一切都不一样了,Anthropic之父…

2026-01-06