阿里通义Qwen团队近日推出了一款名为Qwen-Image-Edit-2511的全新图像编辑模型,该模型在视觉生成领域实现了重要突破。与传统的文生图模型不同,这款模型专注于解决图像编辑中的核心难题——在保持原图主体结构不变的前提下,对特定区域进行精准修改,为开发者和设计师提供了更高效的AI辅助工具。
Qwen-Image-Edit-2511在上一版本Qwen-Image-Edit-2509的基础上进行了多项关键升级。模型通过减轻图像漂移现象,显著提升了人物一致性,同时集成了LoRA能力,增强了工业设计生成能力,并强化了几何推理能力。这些改进使得模型在处理复杂图像编辑任务时表现更加出色。
该模型的最大亮点在于其强大的指令遵循能力。用户无需掌握复杂的Photoshop技术或手动绘制选区,只需通过自然语言输入指令,如“将画面中的猫换成狗”或“移除背景中的路人”,模型即可自动理解意图并执行操作。这种交互方式大大降低了图像编辑的技术门槛,使更多用户能够轻松使用AI工具进行创作。
通过深度融合视觉编码器与语言模型,Qwen-Image-Edit-2511能够精确识别图像中的语义对象。在修改目标物体时,模型会最大限度地保留原图的光影、纹理及背景一致性,确保编辑后的图像自然流畅,无明显人工痕迹。这一特性在人物编辑场景中尤为突出,模型能够在保留主体身份特征和视觉风格的基础上,实现富有想象力的编辑效果。
在多人合影场景中,Qwen-Image-Edit-2511展现出了卓越的一致性表现。模型能够将两张独立的人物图像高保真地融合为一张协调的群像照片,解决了传统方法中人物比例、光线和视角不匹配的问题。这一功能在摄影后期处理和创意合成中具有广泛应用价值。
模型还集成了部分精选的热门LoRA,无需额外微调即可直接使用。例如,在光照增强LoRA的加持下,用户可以轻松实现逼真的光照控制,为图像添加专业级的光影效果。这种开箱即用的设计大大简化了工作流程,提高了创作效率。
几何推理能力的引入是Qwen-Image-Edit-2511的另一大创新。模型能够直接为设计或标注目的生成辅助构造线,帮助用户更精准地完成构图和布局。这一功能在工业设计、建筑绘图和产品原型制作等领域具有重要实用价值,为专业人士提供了强大的辅助工具。

