ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里巴巴Qwen团队打造Qwen3-Omni:多模态全能助手,对话如真人般流畅自然

时间:2025-10-10 04:32:23来源:互联网编辑:快讯

阿里巴巴Qwen团队在人工智能领域取得重大突破,其研发的Qwen3-Omni模型实现文字、语音、图像、视频四模态的无损融合处理。该成果发表于arXiv平台(编号2509.17765v1),经36项基准测试验证,在32个项目中达到开源模型最优性能,其中22项创造新纪录。

传统多模态AI常面临"技能失衡"困境,如同时掌握绘画与写作的人类可能顾此失彼。Qwen3-Omni通过创新架构破解这一难题,其核心"思考者-表达者"双模块设计,使系统既能深度分析多模态信息,又能以自然语音实时交互。实验数据显示,该模型在数学推理测试AIME25中取得65.0分,超越GPT-4o的26.7分;中英文语音识别错误率分别低至1.22%和2.48%。

技术实现层面,研究团队构建了三项关键创新。首先开发专用音频编码器AuT,通过2000万小时多语言音频训练,使系统具备动态注意力调节能力,可精准捕捉80毫秒级声音细节。其次采用混合专家架构(MoE),为不同任务分配数学、艺术等专项"顾问",提升处理效率。最后实施三阶段训练策略,从模态对齐到通用训练,最终实现32768令牌的长上下文处理,支持40分钟连续音频理解。

实时交互性能方面,该系统达到234毫秒的业界领先响应速度。通过多码本自回归生成技术,实现"边思考边表达"的流式语音输出。工程优化上,分块预填充机制与轻量级MTP模块配合,使高并发场景下仍能保持低延迟。在119种文字语言理解、19种语音理解、10种语音生成的支持下,系统可实现跨语言语音克隆,用中文声纹输出英语内容。

专项能力开发取得显著进展。音频描述专家Qwen3-Omni-Captioner能识别语音内容、情绪状态、背景噪音等复合信息,为视听障碍者提供无障碍服务。思考模式版本Qwen3-Omni-Thinking则具备深度推理能力,在复杂积分计算中可分步验证结果合理性,数学解题准确率较基础版提升18%。

实验证明多模态训练存在协同效应。对比测试显示,融合模型在MMLU文本测试中得分81.69,超越纯文本模型的81.24;MMMU视觉测试得分59.33,优于纯视觉模型的57.22。这表明音频的时序特征可增强视觉序列理解,视觉的空间结构则提升音频内容解析能力。

目前该模型已在GitHub和HuggingFace平台开源,支持开发者进行二次开发。其低延迟、高并发的特性,在智能客服、远程教育、多媒体创作等领域具有广泛应用前景。研究团队正持续优化多说话人识别、视频OCR等功能,推动AI向更自然的人机交互方向发展。

更多热门内容
百年科学接力:12位诺奖得主铺就AI之路,从神经元到ChatGPT的智慧传承
1906年,两位科学家在诺贝尔奖台上“互怼”:高尔基认为神经系统是一张连续的网,卡哈尔坚称它由独立的神经元组成。几十年后,电子显微镜证实卡哈尔正确——AI的神经网络算法,自此有了第一块拼图。这场科学马拉松,整…

2025-10-10

阿里通义千问迈出新步伐:组建团队探索智能体从虚拟走向物理世界
10月9日,据《科创板日报》报道,阿里通义千问大模型负责人林俊旸在社交媒体上发文表示,已建立机器人和具身智能的小型团队。 在2025年9月底举办的云栖大会上,通义大模型实现“七连发”,在模型智能水平、Age…

2025-10-10

AI落地“最后一公里”难?阿里云4R标准服务为企业架起通途
一号位们雄心勃勃,技术团队加班加点,投入不菲,几个月后的汇报会上,却常常是尴尬的沉默:"模型是跑通了,但准确率只有70%","系统能用,但业务部门说不实用"。 杭州,云栖大会,中小企业AI应用规模化发展论坛、…

2025-10-10

英伟达20亿美元注资马斯克xAI,黄仁勋直言错过更多投资机会很遗憾
8日当天,黄仁勋在接受外媒采访时强调,从CPU计算向由GPU驱动的生成式AI计算的转变“才刚刚开始”,新一代AI公司包括OpenAI、Anthropic和xAI。英伟达还计划逐步向OpenAI投资1000亿…

2025-10-10

四川农商联合银行:借大模型之力,开启智能问数赋能业务新征程
在此过程中,积累的关键经验在于:坚实的数据底座是前提,我行多年数据治理与中台建设为项目成功奠定了基础;场景驱动与业务深度融合是关键,确保技术方案能真正解决业务痛点并创造价值;坚定国产化技术路线不仅保障了项目自…

2025-10-10

蚂蚁Ling-1T开源引关注,中美AI大模型加速竞逐,全球AI投资创新高
OpenAI发布AI视频模型Sora2,并在开发者大会上公布GPT-5 Pro、ChatGPT框架Apps SDK等,引发全球关注; DeepSeek则发布DeepSeek-V3.2-Exp,全面适配国产…

2025-10-10

阿里Qwen再发力!通义千问技术负责人林俊旸亲自带队组建具身智能小分队
如果说以往的大模型是在“理解”世界,那具身智能的目标,就是让模型能够“参与”世界——从林俊旸的推文里不难看出,Qwen已经开始着手把多模态模型推向具身智能的新阶段。 在9月举办的2025年云栖大会上,阿里…

2025-10-10

全球首个AI劳动力市场MuleRun:让智能体成为可交易商品,构建交易新生态
OpenAI 已有大量用户,品牌影响力、模型基础设施和ChatGPT生态都不是初生的MuleRun可以比拟的,当OpenAI等拥有底层模型能力的大厂也开始支持第三方应用,上面的应用或Agent 可直接获得可…

2025-10-10

OpenAI奥特曼自曝“管理短板”:更适合投资,AGI之路与能源新思
他 不仅详细阐述了OpenAI的三大核心战略,而且也提到了Sora2、未来人机交互界面等热点话题,甚至还自言“我天生就不是一个适合管理公司的人”(doge)。 在他的设想中,未来界面包括:一是像Sora那…

2025-10-10

国信证券深度剖析:OpenAI软硬件生态布局进展与战略蓝图全解读
硬件与算力生态上,OpenAI以“星际之门”项目为核心推进基建,联合软银、Oracle等计划四年投5000亿美元建10GW AI基础设施,首期1000亿美元已落地。商业化多元,2025年ARR达120亿美元…

2025-10-10