阿里通义大模型团队近日正式开源了新一代端到端语音交互模型Fun-Audio-Chat 8B,该模型凭借多项创新技术,在多个权威评测榜单中超越同尺寸竞品,展现出强大的语音交互能力。这一成果标志着语音交互领域向更自然、更高效的方向迈出重要一步。
在性能表现上,Fun-Audio-Chat 8B在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等主流评测中均位列同尺寸模型榜首,综合表现优于GLM4-Voice、Kimi-Audio、Baichuan-Omni等知名模型。这一成绩得益于其独特的端到端架构设计,模型可直接从语音输入生成语音输出,跳过传统ASR语音识别、LLM文本处理、TTS语音合成三阶段串联的复杂流程,不仅显著降低延迟,还提升了交互流畅度。
技术层面,该模型采用双分辨率处理机制:共享大模型层以5Hz帧率高效处理语音特征,语音生成模块则以25Hz帧率输出高质量音频。这种设计使GPU计算资源消耗减少近50%,同时保持语音的自然度与表现力。为增强模型实用性,研发团队使用了百万小时级多任务训练数据,覆盖音频理解、情感识别、工具调用等真实场景,使模型具备更强的场景适应能力。
在实际应用中,Fun-Audio-Chat展现出类人化的交互特性。模型不仅能通过语气、语速、停顿等语音特征感知用户情绪,即使未明确表达情绪状态,也能给出恰当回应。例如当用户以低沉语速提问时,模型会主动调整回应方式,提供更具安抚性的建议。模型支持复杂任务处理,用户通过自然语音下达指令后,模型可自动解析需求并调用相关函数完成操作,大幅简化人机交互流程。
目前,Fun-Audio-Chat 8B已通过GitHub、HuggingFace、ModelScope等平台开源,开发者可自由获取模型代码与权重文件。项目团队还提供了在线演示页面,用户可直接体验模型与语音交互、情绪感知、任务处理等核心功能。这一开源举措有望推动语音交互技术在智能客服、教育辅导、无障碍服务等领域的广泛应用。