阶跃星辰公司近期震撼发布了其倾力打造的开源端到端语音大模型——Step-Audio2mini。这款模型在国际多项基准测试中脱颖而出,刷新了SOTA记录,将语音理解、音频推理与生成融为一体,展现了卓越的全方位能力。无论是在音频理解、语音识别,还是在跨语种翻译、情感解析及语音对话等应用场景中,Step-Audio2mini均展现出了非凡的实力。
尤为Step-Audio2mini在音频处理领域的多个核心测试中,表现远超Qwen-Omni、Kimi-Audio等同类开源模型,甚至在多数任务上超越了GPT-4o Audio。在通用多模态音频理解测试集MMAU上,它以73.2的高分傲视群雄;在口语对话能力评估平台URO Bench的基础与专业赛道上,Step-Audio2mini同样夺得了开源端到端语音模型的最高分。在中英互译任务中,它在CoVoST2和CVSS评测集上的分数分别为39.3和29.1,大幅领先竞争对手。而在语音识别方面,Step-Audio2mini在多语言和多方言测试中均排名第一,其中中文测试集的平均字错误率为3.19%,英文测试集的平均词错误率为3.50%,性能超出其他开源模型15%以上。
Step-Audio2mini之所以能在众多模型中脱颖而出,得益于其创新的架构设计。它摒弃了传统的ASR+LLM+TTS三级结构,采用了真端到端多模态架构,实现了从原始音频输入到语音响应输出的直接转换,不仅架构更加简洁,时延也大幅降低。同时,该模型还能有效理解副语言信息和非人声信号,进一步提升了其综合性能。Step-Audio2mini还首次在端到端语音模型中引入了链式思维推理(CoT)与强化学习的联合优化技术,使其能够更精细地理解、推理情绪、语调、音乐等副语言和非语音信号,并作出自然回应。
Step-Audio2mini的实际应用能力同样令人印象深刻。它能够准确识别大自然的声音和精湛的配音,还能实时搜索行业最新资讯,为用户提供有价值的信息。同时,该模型还支持控制语速,轻松适应不同场景的对话需求。在一次测试中,当面对一个复杂的哲学问题时,Step-Audio2mini展现出了强大的逻辑推理能力,将抽象问题转化为极简方法论,给出了令人信服的答案。
目前,Step-Audio2mini模型已在GitHub、Hugging Face和ModelScope等平台上线,供用户下载、试用并反馈。感兴趣的用户可以访问以下链接获取更多信息:
GitHub链接:https://github.com/stepfun-ai/Step-Audio2
Hugging Face链接:https://huggingface.co/stepfun-ai/Step-Audio-2-mini
ModelScope链接:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini