AI图像生成领域迎来重大突破——港科大贾佳亚团队研发的DreamOmni2模型,成功攻克了多模态指令编辑与生成的技术瓶颈。该成果论文《DreamOmni2: Multimodal Instruction-based Editing and Generation》在GitHub发布两周即收获1600颗星,引发YouTube创作者群体热议,更被国外技术论坛称为"智能创作工具的里程碑"。
传统AI创作工具的局限性日益凸显。当用户试图将照片中背包替换为波西米亚风格图案时,语言描述的乏力暴露无遗;而要模仿老照片的复古胶片光影或特定画家的笔触风格,现有模型更是束手无策。这种"语言失语"现象,正是DreamOmni2要解决的核心问题。
研究团队构建的三阶段数据训练体系堪称创新典范。通过特征混合方案生成高质量图像对,解决传统拼接法导致的边缘模糊问题;利用提取模型与编辑模型联动,自动生成(源图+指令+参考图)→目标图的完整训练数据;最终形成支持多参考图像输入的综合性数据集。这种从零开始的数据构建方法,为模型提供了精准理解抽象概念的"教材"。
模型架构的革新同样引人注目。针对多图像输入的混淆难题,团队开发的索引编码与位置编码偏移技术,使模型能准确区分不同参考图像。联合训练视觉语言模型(VLM)与生成模型的方案,则显著提升了指令理解能力。通过LoRA微调技术,模型在保持原有功能的基础上,新增了多模态处理能力。
实测数据印证技术突破。在风格迁移测试中,DreamOmni2将像素风、二次元等复杂风格完美复现,对比GPT-4o仅迁移色调、Nano Banana仅轻微变色的表现形成碾压优势。多图编辑测试更显实力:让鹦鹉佩戴指定帽子并复刻火箭图氛围时,模型精准还原了羽毛纹理、帽子颜色与背景光影。
基准测试揭示技术代差。在205个多模态编辑测试用例中,DreamOmni2的物体迁移准确率与抽象属性一致性均领先GPT-4o和Nano Banana。定量分析显示,该模型在生成准确性指标上超越开源模型37%,在对象一致性方面领先29%。特别是在处理四图组合生成梵高风格画作时,人物特征与笔触色彩均得到忠实呈现。
技术社区的反响印证实用价值。海外创作者制作的教程视频中,DreamOmni2被冠以"最强免费工作流"称号。用户实测显示,模型能精准复刻人物表情的嘴角弧度与眼睛眯缝程度,甚至能处理发型改变带来的颈部阴影变化。这种超越语言描述的创作能力,正在重新定义智能工具的边界。