阿里Qwen团队火力全开：Qwen3-Omni全模态模型与Qwen-Image-Edit-2509图像编辑工具齐亮相-信息流-ITBear科技资讯

阿里旗下Qwen团队近期动作频频，接连推出两款颇具影响力的AI模型——Qwen3-Omni与Qwen-Image-Edit-2509，引发行业广泛关注。据透露，该团队还预告将有新的重要发布，进一步点燃了市场的期待。

Qwen3-Omni的诞生，标志着AI多模态处理领域的一次重大突破。传统多模态模型往往需要在不同能力间做出权衡，而Qwen3-Omni则实现了文本、图像、音频和视频处理能力的无缝统一，成为真正意义上的全能AI模型。这一创新，解决了长期以来困扰行业的多模态能力整合难题。

在性能表现上，Qwen3-Omni堪称卓越。在36项音频及音视频基准测试中，该模型有22项达到了业界顶尖水平，展现了其强大的技术实力。同时，它支持119种语言的文本处理、19种语言的语音输入以及10种语言的语音输出，语言能力覆盖广泛，具有高度的全球化特征。

除了强大的性能，Qwen3-Omni还具备极致的效率和高度可控性。其延迟仅为211毫秒，并能轻松理解长达30分钟的音频内容，这在同类模型中极为罕见。它支持通过系统提示词进行完全自定义，满足用户的个性化需求，并内置了工具调用功能，可与其他应用和服务轻松集成。

为了推动技术发展和应用创新，Qwen团队还开源了多个Qwen3-Omni版本，包括Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking以及Qwen3-Omni-30B-A3B-Captioner等。这些开源版本旨在赋能全球开发者，探索从指令遵循到创意任务等多样化的应用场景。同时，团队还开源了一个低幻觉的Captioner（字幕生成）模型，为音视频内容处理提供了可靠工具。

在图像编辑领域，Qwen团队同样带来了惊喜。Qwen-Image-Edit-2509作为Qwen-Image的升级版本，在一致性上实现了巨大提升。该模型支持多图编辑和无缝融合功能，用户可以将“人物+产品”或“人物+场景”等多张图片拖入编辑，保持一致性同时进行推理。

在单图编辑方面，Qwen-Image-Edit-2509同样表现出色。它能够实现人脸保真、产品保真以及文字编辑等功能。无论变换姿势、滤镜还是风格，人物的面部特征始终保持一致；在广告、海报等应用中，产品能维持其核心特征，确保品牌识别度；同时，它还支持对图像中的文字进行全面修改，包括内容、字体、颜色，甚至材质纹理。

Qwen-Image-Edit-2509还内置了强大的ControlNet功能，让用户可以即插即用，实现对图像生成的精准控制。这一功能在深度、边缘、关键点等方面提供了强大的支持，进一步提升了图像编辑的灵活性和准确性。