港科大DreamOmni2开源引关注，多模态AI生图编辑能力再升级，海外创作者热议-信息流-ITBear科技资讯

最近，AI图像生成与编辑领域迎来了一次重要突破。一款名为DreamOmni2的新模型开源发布，迅速引发海外创作者社区的广泛关注和讨论。这款由香港科技大学贾佳亚教授团队研发的模型，被认为有望将多模态图像编辑与生成技术推向新的高度。

随着谷歌Nano Banana、字节Seedream4.0和阿里Qwen-Image-Edit-2509等模型的出现，图像编辑领域进入了一个新的发展阶段。这些模型不仅支持OOTD穿搭生成、文字渲染和电影分镜制作，还让创作者无需掌握复杂的修图技巧，就能实现更具创意和产品价值的图像生成。

然而，现有模型在实际应用中仍存在一些局限。例如，语言指令有时无法准确描述需求，需要结合参考图像和额外说明；在处理抽象概念如发型、妆容、纹理等时，表现往往不尽如人意。这些问题促使研究人员探索更优的技术解决方案。

DreamOmni2的推出正是为了解决这些痛点。该模型基于FLUX-Kontext架构训练，不仅保留了原有的指令编辑和文生图能力，还创新性地增加了多参考图生成编辑功能，为创作者提供了更高的灵活性和创意空间。据团队介绍，无论是具体物体还是抽象概念的编辑与生成，DreamOmni2的表现都显著优于当前最先进的开源模型，甚至在某些方面超越了Nano Banana。

在实际测试中，DreamOmni2展现了强大的能力。当要求将一张熊猫图片的背景替换为另一张图片时，模型迅速生成了符合要求的证件照，毛发细节处理得当，效果堪比专业修图。更复杂的是风格迁移任务，模型能准确捕捉参考图的色调和氛围，并将其自然融入原图。

与GPT-4o和Nano Banana等主流模型的对比测试显示，DreamOmni2在处理复杂指令时表现更为出色。例如，在将一张图片中的夹克替换为另一张图片中的衣服时，DreamOmni2不仅准确完成了替换，还自然保留了人物特征，只有衣领部分略有出入。相比之下，GPT-4o生成的结果显得不自然，人物比例失调；Nano Banana虽然整体效果不错，但衣物颜色和形态发生了变化，logo也消失了。

DreamOmni2的另一大亮点是其多模态生成能力。在测试中，模型成功将一张图片中的徽标印在另一张图片的物体上，并自然放置在桌面上，光影效果处理得当。更令人印象深刻的是，根据手绘草图生成相同姿态图片的任务中，DreamOmni2能准确捕捉草图中的姿态信息，将其转化为自然的人物动作。

这些优异表现的背后，是贾佳亚团队在数据构建、框架设计和训练策略上的创新。团队提出了三阶段式数据构建范式，通过特征混合、真实数据与模型自生数据的结合，解决了多模态训练中抽象概念稀缺和缺乏参考图像条件的问题。同时，团队对模型框架进行了针对性修改，添加索引编码到位置通道，有效缓解了复制粘贴和像素混淆现象。

在训练优化方面，团队提出了VLM和生成模型联合训练的机制，使模型能更好地理解复杂用户指令。通过LoRA方法分别训练编辑与生成模块，实现了编辑与生成功能的无缝融合。这些技术创新使DreamOmni2在多模态指令编辑与生成任务中达到了新的水平。

开源两周以来，DreamOmni2在GitHub上已获得1.6k的Star量，受到开源社区的广泛认可。YouTube上也出现了大量介绍和使用经验分享的视频，有创作者称赞其为"King Bomb"，特别肯定了其在抽象概念理解方面的能力。