ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阶跃星辰推出Step-Audio2mini,端到端语音大模型刷新多项国际基准测试成绩

时间:2025-09-01 11:12:00来源:ITBEAR编辑:快讯团队

阶跃星辰公司近期震撼发布了其倾力打造的开源端到端语音大模型——Step-Audio2mini。这款模型在国际多项基准测试中脱颖而出,刷新了SOTA记录,将语音理解、音频推理与生成融为一体,展现了卓越的全方位能力。无论是在音频理解、语音识别,还是在跨语种翻译、情感解析及语音对话等应用场景中,Step-Audio2mini均展现出了非凡的实力。

尤为Step-Audio2mini在音频处理领域的多个核心测试中,表现远超Qwen-Omni、Kimi-Audio等同类开源模型,甚至在多数任务上超越了GPT-4o Audio。在通用多模态音频理解测试集MMAU上,它以73.2的高分傲视群雄;在口语对话能力评估平台URO Bench的基础与专业赛道上,Step-Audio2mini同样夺得了开源端到端语音模型的最高分。在中英互译任务中,它在CoVoST2和CVSS评测集上的分数分别为39.3和29.1,大幅领先竞争对手。而在语音识别方面,Step-Audio2mini在多语言和多方言测试中均排名第一,其中中文测试集的平均字错误率为3.19%,英文测试集的平均词错误率为3.50%,性能超出其他开源模型15%以上。

Step-Audio2mini之所以能在众多模型中脱颖而出,得益于其创新的架构设计。它摒弃了传统的ASR+LLM+TTS三级结构,采用了真端到端多模态架构,实现了从原始音频输入到语音响应输出的直接转换,不仅架构更加简洁,时延也大幅降低。同时,该模型还能有效理解副语言信息和非人声信号,进一步提升了其综合性能。Step-Audio2mini还首次在端到端语音模型中引入了链式思维推理(CoT)与强化学习的联合优化技术,使其能够更精细地理解、推理情绪、语调、音乐等副语言和非语音信号,并作出自然回应。

Step-Audio2mini的实际应用能力同样令人印象深刻。它能够准确识别大自然的声音和精湛的配音,还能实时搜索行业最新资讯,为用户提供有价值的信息。同时,该模型还支持控制语速,轻松适应不同场景的对话需求。在一次测试中,当面对一个复杂的哲学问题时,Step-Audio2mini展现出了强大的逻辑推理能力,将抽象问题转化为极简方法论,给出了令人信服的答案。

目前,Step-Audio2mini模型已在GitHub、Hugging Face和ModelScope等平台上线,供用户下载、试用并反馈。感兴趣的用户可以访问以下链接获取更多信息:

GitHub链接:https://github.com/stepfun-ai/Step-Audio2

Hugging Face链接:https://huggingface.co/stepfun-ai/Step-Audio-2-mini

ModelScope链接:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

更多热门内容
科大讯飞湾区总部及产业加速中心深圳启动,赋能区域数字化转型
每经AI快讯,据深圳发布,近日,科大讯飞湾区总部及深圳产业加速中心在深圳龙华正式启动,迈出在粤港澳大湾区深化布局的关键一步。产业加速中心依托科大讯飞核心技术能力和国家新一代人工智能开放创新平台集聚的开发者资源…

2025-09-01

科大讯飞湾区总部启航龙华,深圳产业加速中心赋能创新生态
产业加速中心依托科大讯飞核心技术能力和国家新一代人工智能开放创新平台集聚的开发者资源,打造“线上+线下”相融合的创新创业服务加速平台,为开发者、创业企业和区域产业数字化转型提供线下赋能,通过创业孵化、产业聚…

2025-09-01

科大讯飞湾区总部启动深圳加速中心,全方位赋能中小微企业转型升级
来源:证券时报e公司 人民财讯8月31日电,据深圳发布,近日,科大讯飞湾区总部及深圳产业加速中心在深圳龙华正式启动,迈出在粤港澳大湾区深化布局的关键一步。产业加速中心依托科大讯飞核心技术能力和国家新一代人工智…

2025-09-01