ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里Qwen团队再发力:Qwen3-Omni全模态AI与Qwen-Image-Edit-2509图像编辑工具双双亮相

时间:2025-09-23 07:07:03来源:小AI编辑:快讯

阿里旗下Qwen团队近日动作频频,接连推出两款具有突破性的AI模型——Qwen3-Omni与Qwen-Image-Edit-2509,引发业界广泛关注。其中,Qwen3-Omni作为全球首个原生端到端全模态AI模型,标志着多模态技术进入全新发展阶段。

Qwen3-Omni的核心突破在于其“一体化”设计理念。传统多模态模型常面临文本、图像、音视频处理能力难以平衡的困境,而该模型通过统一架构实现了四大模态的无缝融合。在性能测试中,该模型在36项音视频基准中22项达到行业顶尖水平,尤其在长音频理解方面表现突出——可精准解析长达30分钟的语音内容,响应延迟仅211毫秒。

语言支持能力成为另一大亮点。模型支持119种语言的文本处理、19种语言的语音输入及10种语言的语音输出,覆盖全球主要语言体系。其高度可控的特性允许开发者通过系统提示词自定义模型行为,配合内置的工具调用功能,可轻松对接各类应用服务。更值得关注的是,团队同步开源了低幻觉字幕生成模型,为音视频内容处理提供可靠解决方案。

开发团队已开放多个模型版本供全球开发者使用,包括Qwen3-Omni-30B-A3B-Instruct等指令遵循模型及创意任务模型。开发者可通过Hugging Face平台获取相关资源,web端体验入口也同步开放,用户可实时测试模型性能。

同步推出的Qwen-Image-Edit-2509则聚焦图像编辑领域,在一致性控制方面实现重大突破。该模型支持多图协同编辑,可将人物与产品、场景等不同元素无缝融合,同时保持视觉一致性。单图编辑功能同样强大:人脸特征在姿势变换、滤镜调整等操作中保持高度稳定;广告产品可维持核心设计元素;文字编辑支持内容、字体、颜色及材质的全维度修改。

技术层面,模型内置的ControlNet功能成为关键创新。开发者可通过深度图、边缘检测等控制参数,实现对图像生成的精准调控。这种“即插即用”的设计大幅降低了专业编辑的技术门槛,使复杂图像处理变得更为简便。

据开发团队透露,Qwen-Image-Edit-2509的发布标志着图像生成技术进入精细化控制时代。其详细技术说明与案例演示已通过官方博客对外公布,包含多组对比实验数据及实际应用场景展示。

两款模型的推出不仅展现了阿里在AI领域的技术积累,更通过开源策略推动行业生态发展。随着更多开发者参与模型优化与应用拓展,全模态AI技术的商业化落地进程有望进一步加速。

更多热门内容
从海龟到“海龟”:科研团队突破创新,开启水下探测新纪元
这是哈尔滨工程大学船舶与工程学院王刚教授团队研发的敏捷型水下机器人“海龟”的真实工作场景。王刚团队将目光投向海洋生物,仔细研究了数十种海底动物后,从海龟的推进方式中找到了灵感。 在实海测试中,科研人员在海…

2025-09-23