阿里巴巴Qwen团队打造Qwen3-Omni：多模态全能助手，对话如真人般流畅自然-人工智能-ITBear科技资讯

阿里巴巴Qwen团队在人工智能领域取得重大突破，其研发的Qwen3-Omni模型实现文字、语音、图像、视频四模态的无损融合处理。该成果发表于arXiv平台（编号2509.17765v1），经36项基准测试验证，在32个项目中达到开源模型最优性能，其中22项创造新纪录。

传统多模态AI常面临"技能失衡"困境，如同时掌握绘画与写作的人类可能顾此失彼。Qwen3-Omni通过创新架构破解这一难题，其核心"思考者-表达者"双模块设计，使系统既能深度分析多模态信息，又能以自然语音实时交互。实验数据显示，该模型在数学推理测试AIME25中取得65.0分，超越GPT-4o的26.7分；中英文语音识别错误率分别低至1.22%和2.48%。

技术实现层面，研究团队构建了三项关键创新。首先开发专用音频编码器AuT，通过2000万小时多语言音频训练，使系统具备动态注意力调节能力，可精准捕捉80毫秒级声音细节。其次采用混合专家架构（MoE），为不同任务分配数学、艺术等专项"顾问"，提升处理效率。最后实施三阶段训练策略，从模态对齐到通用训练，最终实现32768令牌的长上下文处理，支持40分钟连续音频理解。

实时交互性能方面，该系统达到234毫秒的业界领先响应速度。通过多码本自回归生成技术，实现"边思考边表达"的流式语音输出。工程优化上，分块预填充机制与轻量级MTP模块配合，使高并发场景下仍能保持低延迟。在119种文字语言理解、19种语音理解、10种语音生成的支持下，系统可实现跨语言语音克隆，用中文声纹输出英语内容。

专项能力开发取得显著进展。音频描述专家Qwen3-Omni-Captioner能识别语音内容、情绪状态、背景噪音等复合信息，为视听障碍者提供无障碍服务。思考模式版本Qwen3-Omni-Thinking则具备深度推理能力，在复杂积分计算中可分步验证结果合理性，数学解题准确率较基础版提升18%。

实验证明多模态训练存在协同效应。对比测试显示，融合模型在MMLU文本测试中得分81.69，超越纯文本模型的81.24；MMMU视觉测试得分59.33，优于纯视觉模型的57.22。这表明音频的时序特征可增强视觉序列理解，视觉的空间结构则提升音频内容解析能力。

目前该模型已在GitHub和HuggingFace平台开源，支持开发者进行二次开发。其低延迟、高并发的特性，在智能客服、远程教育、多媒体创作等领域具有广泛应用前景。研究团队正持续优化多说话人识别、视频OCR等功能，推动AI向更自然的人机交互方向发展。

百年科学接力：12位诺奖得主铺就AI之路，从神经元到ChatGPT的智慧传承

1906年，两位科学家在诺贝尔奖台上“互怼”：高尔基认为神经系统是一张连续的网，卡哈尔坚称它由独立的神经元组成。几十年后，电子显微镜证实卡哈尔正确——AI的神经网络算法，自此有了第一块拼图。这场科学马拉松，整…

2025-10-10

阿里通义千问迈出新步伐：组建团队探索智能体从虚拟走向物理世界

10月9日，据《科创板日报》报道，阿里通义千问大模型负责人林俊旸在社交媒体上发文表示，已建立机器人和具身智能的小型团队。在2025年9月底举办的云栖大会上，通义大模型实现“七连发”，在模型智能水平、Age…

2025-10-10

AI落地“最后一公里”难？阿里云4R标准服务为企业架起通途

一号位们雄心勃勃，技术团队加班加点，投入不菲，几个月后的汇报会上，却常常是尴尬的沉默："模型是跑通了，但准确率只有70%"，"系统能用，但业务部门说不实用"。杭州，云栖大会，中小企业AI应用规模化发展论坛、…

2025-10-10

英伟达20亿美元注资马斯克xAI，黄仁勋直言错过更多投资机会很遗憾

8日当天，黄仁勋在接受外媒采访时强调，从CPU计算向由GPU驱动的生成式AI计算的转变“才刚刚开始”，新一代AI公司包括OpenAI、Anthropic和xAI。英伟达还计划逐步向OpenAI投资1000亿…

2025-10-10

四川农商联合银行：借大模型之力，开启智能问数赋能业务新征程

在此过程中，积累的关键经验在于：坚实的数据底座是前提，我行多年数据治理与中台建设为项目成功奠定了基础；场景驱动与业务深度融合是关键，确保技术方案能真正解决业务痛点并创造价值；坚定国产化技术路线不仅保障了项目自…

2025-10-10

蚂蚁Ling-1T开源引关注，中美AI大模型加速竞逐，全球AI投资创新高

OpenAI发布AI视频模型Sora2，并在开发者大会上公布GPT-5 Pro、ChatGPT框架Apps SDK等，引发全球关注； DeepSeek则发布DeepSeek-V3.2-Exp，全面适配国产…

2025-10-10

阿里Qwen再发力！通义千问技术负责人林俊旸亲自带队组建具身智能小分队

如果说以往的大模型是在“理解”世界，那具身智能的目标，就是让模型能够“参与”世界——从林俊旸的推文里不难看出，Qwen已经开始着手把多模态模型推向具身智能的新阶段。在9月举办的2025年云栖大会上，阿里…

2025-10-10

全球首个AI劳动力市场MuleRun：让智能体成为可交易商品，构建交易新生态

OpenAI 已有大量用户，品牌影响力、模型基础设施和ChatGPT生态都不是初生的MuleRun可以比拟的，当OpenAI等拥有底层模型能力的大厂也开始支持第三方应用，上面的应用或Agent 可直接获得可…

2025-10-10

OpenAI奥特曼自曝“管理短板”：更适合投资，AGI之路与能源新思

他不仅详细阐述了OpenAI的三大核心战略，而且也提到了Sora2、未来人机交互界面等热点话题，甚至还自言“我天生就不是一个适合管理公司的人”（doge）。在他的设想中，未来界面包括：一是像Sora那…

2025-10-10

国信证券深度剖析：OpenAI软硬件生态布局进展与战略蓝图全解读

硬件与算力生态上，OpenAI以“星际之门”项目为核心推进基建，联合软银、Oracle等计划四年投5000亿美元建10GW AI基础设施，首期1000亿美元已落地。商业化多元，2025年ARR达120亿美元…

2025-10-10