ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里云Qwen3.5-Omni全模态大模型发布:多模态交互与离线能力全面升级

时间:2026-03-31 05:14:24来源:互联网编辑:快讯

阿里云近日宣布推出Qwen3.5-Omni全模态大模型,作为Qwen系列最新力作,该模型在多模态理解与交互领域实现突破性进展。其核心架构采用Hybrid-Attention MoE混合注意力专家网络,通过Thinker与Talker双模块协同处理复杂任务,支持文本、图像、音频及音视频的跨模态理解与生成。

在模型规格方面,Qwen3.5-Omni系列提供Plus、Flash、Light三种尺寸的Instruct版本。其中旗舰版Plus版本具备256K长上下文处理能力,可一次性解析超过10小时的音频数据或400秒的720P高清视频。训练数据集涵盖海量文本、视觉素材及超1亿小时的音视频素材,通过原生多模态预训练技术实现跨模态语义对齐。

语言能力实现质的飞跃,新模型支持113种语言及方言的语音识别,覆盖全球主要语言体系,同时具备36种语言的语音生成能力。在离线性能测试中,Qwen3.5-Omni-Plus在215项子任务中刷新SOTA纪录,包括3个音视频基准测试、5个音频基准测试、8个自动语音识别(ASR)基准测试、156个语音到文本(S2TT)任务及43个ASR专项任务,全面超越Gemini-3.1 Pro的通用音频处理能力。

该模型创新性地引入音视频Caption生成技术,可自动生成包含时间戳、人物关系及场景描述的结构化文本,支持视频内容的智能切片与标注。更值得关注的是,通过多模态Scaling技术,模型衍生出Audio-Visual Vibe Coding能力,能够直接根据音视频指令生成代码,实现跨模态编程交互。

实时交互功能迎来重大升级,新模型支持五项核心特性:基于意图识别的语义打断功能可自动过滤无效背景音;集成WebSearch与复杂FunctionCall能力,支持自主决策是否调用外部资源;端到端语音控制系统允许用户自由调节音量、语速及情绪表达;音色克隆技术支持用户上传音频样本定制专属语音;ARIA动态对齐技术通过自适应速率交错编码,彻底解决流式语音交互中的漏读误读问题。

架构设计方面,新模型延续Thinker-Talker双引擎架构,但将输入处理机制升级为ARIA动态对齐模式。Thinker模块通过Vision Encoder与Aut组件并行处理视觉与音频信号,Talker模块则负责多模态输入整合与上下文感知的语音生成,这种设计使文本与语音单元的同步精度提升40%。

开发者可通过Qwen Chat、HuggingFace及ModelScope平台体验离线及实时演示,商业用户可通过阿里云百炼平台调用API接口。模型提供55种音色选择,包括5个中英双语主音色、19个场景化音色、8个中文方言音色及23个多语言音色,满足不同场景的个性化需求。

更多热门内容
工业制造企业网络安全新选择:DDoS防护服务商评估与快快网络优势解析
选择指南与购买建议:工业制造企业选择DDoS防护服务商时,需重点考量四大因素:1. 技术适配性:防护带宽需覆盖企业业务峰值流量,AI驱动方案可更好应对新型攻击(如AI生成的DDoS流量)。快快网络支持按攻击…

2026-05-22

SpaceX星链新突破:月球表面将实现千兆网络 开启深空通信新时代
5月22日消息,星链团队现在已经不满足只在地球上提供网络了,他们正把目标瞄准地球之外,打算把高速互联网铺到月球甚至更远的深空去。一部分是月球轨道上的卫星群,它们会组成一个环形的中继网络,把月球上的信号转发回地…

2026-05-22

《人工智能应用伦理安全指引1.0》发布 阿里华为等多方携手共筑AI伦理安全防线
IT之家 5 月 22 日消息,据网信办消息,5 月 19 日,在 2026 年中国网络文明大会人工智能赋能网络文明建设分论坛上,全国网络安全标准化技术委员会(以下简称“网安标委”)发布了《人工智能应用伦理安…

2026-05-22

小米新品发布会不止有YU7 GT!生态链产品联动打造全场景智慧生活
不知道大家发现没有,就这些产品也是能够影响到我们的整个日常生活的,也就是说形成了一整套生态链产品,并且这些产品也都是“很能打”的存在,所谓的性价比较高,如果说这些产品能有一款或者两款吸引你的注意,但你体验过…

2026-05-22

2026年iPhone充电宝选购指南:五合一全能款领衔,五款精选满足多样需求
如果你希望一个充电设备覆盖所有充电场景、彻底精简出行配件,EAK五合一充电宝凭借移动电源、AC折叠墙充、磁吸无线充、自带Type-C与Lightning双线、折叠支架五大功能的全集成设计,加上过硬的CCC双…

2026-05-22