ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里Qwen3.5-Omni全模态大模型来袭!实测50分钟视频,解锁“用嘴编程”新技能

时间:2026-04-02 02:05:47来源:快讯编辑:快讯

阿里巴巴近日正式发布新一代全模态大模型Qwen3.5-Omni,标志着多模态人工智能技术迈入新阶段。该模型突破传统单一模态限制,支持文本、图像、音频及音视频的混合输入与输出,其中音频输出与文本输出可同步生成,为智能交互领域带来全新可能。

技术团队披露,Qwen3.5-Omni系列包含Plus、Flash、Light三种规格模型,最大支持256k长上下文处理能力。在音频处理方面,该模型可连续解析超过10小时的语音内容,音视频输入时长扩展至400秒(720P分辨率,1帧/秒)。经实测验证,模型在215项多模态任务中刷新多项最佳纪录,其音频理解、推理及翻译能力已超越Gemini-3.1 Pro,音视频综合处理水平与之持平。

该模型最引人注目的创新在于"视听编程"能力。在演示场景中,用户通过手机摄像头拍摄手绘草图并语音描述需求,模型即可实时生成对应的前端代码。当测试团队上传50分钟美剧《老友记》时,系统在1分钟内完成全片解析,不仅精准标注时间轴与人物关系,还能识别关键剧情转折点。更令人惊叹的是,模型可根据游戏直播画面自动检测违规内容,展现出色的多模态内容审核能力。

方言支持成为另一大亮点。模型现已兼容39种中国方言与74种外语的语音识别,可合成7种方言及29种语言的语音输出。在闽南语对话测试中,系统准确理解方言语义并生成地道语音回应,仅在极少数专业词汇上自动切换普通话。配合实时网络搜索功能,模型甚至能主动提供当日天气等动态信息,整个交互过程延迟控制在1-2秒。

交互体验实现质的飞跃。新模型引入语义打断机制,允许用户在系统"说话"时随时插入新指令,模型可智能区分有效指令与背景噪音。通过整合端到端语音控制技术,用户能直接调节输出语音的音量、语速甚至情绪表达。更突破性的是音色克隆功能,用户上传30秒语音样本后,模型即可复现该音色并完成多语言转换,在交替传译场景中实现声纹保持。

技术架构方面,Qwen3.5-Omni延续Thinker-Talker分工模式但进行全面升级。Thinker模块采用混合注意力MoE架构,通过TMRoPE编码技术实现长序列高效处理;Talker模块引入RVQ编码替代传统DiT运算,配合ARIA自适应对齐技术,使语音合成稳定性提升40%。经基准测试,新模型在长音频处理效率较前代提升3倍,音视频理解任务响应速度加快2.5倍。

该模型已开放API调用服务,支持离线与实时两种模式。定价体系采用阶梯计费,128k以下输入场景中,音频处理价格为4.96元/百万tokens,文本/图像/视频输入为0.8元/百万tokens。输出端文本+音频综合价格为61.322元/百万tokens,纯文本输出降至9.6元/百万tokens。开发者可通过阿里云百炼平台、魔搭社区及Hugging Face等渠道体验模型能力。

更多热门内容
苹果Xcode 26.6正式登场:谷歌Gemini编程助手入驻,多系统SDK同步更新
IT之家 6 月 26 日消息,苹果现已发布 Xcode 26.6 IDE,新增谷歌 Gemini 编程助手支持。IT之家附苹果官方更新公告如下: Xcode 26.6 包含 Swift 6.3.3,以及…

2026-06-26

OpenAI内部大变革:Codex成“新宠”,AI编程工具重塑工作模式
Codex是OpenAI面向开发者推出的端到端AI编程智能体,不同于简短且自成一体的聊天机器人,Agentic AI可在短时间内独立运行,同时协调工具调用、与环境交互,不断迭代以达成解决方案。OpenAI的…

2026-06-26

港大阿里联合推出FineVLA框架:机器人执行指令更精细 一句话掌控操作细节
数据层 :从异构数据到细粒度标注的完整构建流程 模型层 :用于可扩展机器人视频细粒度标注的RoboFine-VLM 评测层 :用VQA和Caption衡量VLM对机器人视频理解与标注的RoboFine-B…

2026-06-26