ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

港科大贾佳亚团队新突破:DreamOmni2开源,AI多模态创作迈入新阶段

时间:2025-10-24 02:53:06来源:快讯编辑:快讯

当语言无法精准传递灵感时,AI能否跨越文字的局限,直接捕捉创作者心中的视觉想象?香港科技大学贾佳亚团队最新推出的DreamOmni2模型,通过突破性的多模态编辑技术,为这一难题提供了创新解决方案。该成果在GitHub上线两周即收获1600颗星,引发YouTube创作者群体热议,被视为AI图像生成领域的里程碑。

传统AI创作工具长期受困于指令依赖困境。当用户试图将照片中的背包替换为波西米亚风格图案时,复杂纹理的语义描述往往导致结果偏差;而模仿老照片的复古光影或画家笔触时,现有模型更因抽象属性处理能力不足而束手无策。DreamOmni2的突破性在于,其构建的FLUX Kontext基座模型通过多参考图像解析机制,首次实现了对具体物体与抽象概念的同步编辑。

实测数据显示,该模型在人物替换任务中展现出惊人精度。将赛博场景中的男性角色替换为女性形象时,生成的画面不仅完整保留了背景光影与文字细节,更通过面部光线迁移技术,使新角色自然融入原始环境。在风格迁移测试中,模型成功将像素艺术、二次元画风等视觉特征完整迁移,相较GPT-4o的色调复制和Nano Banana的简单变色,展现出对艺术风格的深度理解。

技术白皮书揭示,研究团队通过三阶段数据工程构建了新型训练范式。首先利用特征混合技术生成包含相同物体/属性的高质量图像对,解决数据稀缺难题;继而开发提取-编辑双模型架构,自动生成(源图+指令+参考图)→目标图的完整训练链;最终通过多参考图像生成机制,形成覆盖具体物体与抽象属性的综合数据集。这种创新方法使模型在基准测试中,抽象属性处理得分超越GPT-4o与Nano Banana。

模型架构创新同样引人注目。针对多图像输入的混淆问题,研究团队引入索引编码与位置偏移技术,使模型能精准区分不同参考图像。通过视觉语言模型(VLM)与生成模型的联合训练机制,系统可自动将用户模糊指令转化为结构化操作,显著提升真实场景下的指令理解能力。LoRA微调策略的运用,则在保持基座模型性能的同时,实现了多模态能力的无缝激活。

在四图组合生成测试中,DreamOmni2将三位不同角色的特征与第四张图的画风完美融合,生成画面中人物服饰细节、动物品种特征与艺术笔触均得到准确呈现。这种跨图像、跨模态的编辑能力,使设计师能直接通过视觉参考进行创作,而非依赖文字描述。YouTube教程作者评价该模型为"免费工作流中的性能王者",其多图编辑精度已达到专业创作工具水准。

更多热门内容
网友苦等一加15终有回应 李杰称值得等 165帧游戏体验即将登场
快科技10月23日消息,有网友给一加中国区总裁李杰留言:前面那么多新机都没买,就一直等着一加15。李杰回复:“等等党不会输”。 从120帧到165帧,游戏帧率的突破不仅是参数上的跃升,更是手游体验的一次大换代…

2025-10-24

NFC认证新版本CR15发布,读取距离提至20毫米,用户体验再升级
近场通信论坛(NFC Forum)今日(10 月 23 日) 宣布推出 NFC 认证版本 15(Certification Release15,简称 CR15),该版本引入了一项重要更新,显著提升了 NFC…

2025-10-24

苹果2027年跳过iPhone19系列,iPhone20系列携创新设计及多款机型重磅来袭
苹果 2027 年推出的 iPhone 手机将被命名为“iPhone 20”。 苹果计划在 2027 年上半年发布 iPhone 18e 和iPhone 20 标准版手机,下半年则推出 iPhone 20 …

2025-10-24

鸿蒙6全球发布:终端超2300万,致敬800万开发者共筑生态新未来
华为常务董事、终端BG董事长余承东向所有鸿蒙开发者致以了最诚挚的敬意,他表示,鸿蒙生态今天取得的每一个进步,都离不开背后每一位开发者的辛勤付出与不懈努力。 如果说鸿蒙5为生态打下了坚实的基础,那么接下来的鸿蒙…

2025-10-24

亚马逊推出AI智能眼镜Amelia:助力快递员高效配送,安全与效率双提升
亚马逊运输副总裁 Beryl Tomay 表示,“这些司机已经在真实配送中使用Amelia,它是为这一特定场景量身定制的。” 正如Tomay总结的那样:“Amelia不是一款炫技的智能产品,而是一款能让快递员…

2025-10-24

OPPO Find X9系列首销热潮涌动:追光红受追捧,Pro版销量占比超六成
其中,Pro版的热度居高不下,追光红配色更是备受消费者欢迎,甚至一些男性客户也选择了该配色,这在手机行业销售中较为少见,也进一步突显了OPPOFind X9系列在设计上的独特魅力和对不同消费群体的广泛吸引力…

2025-10-24

红米K90系列“硬刚”旗舰市场,陈奕迅力赞K90 Pro Max音质出色
在Pro Max上,卢伟冰特别提到,此次K90 ProMax的目标定位是“4K档最强全能旗舰”,这是REDMI旗舰首次定位在4000元档位上,其设计则直接对标6000元档位旗舰。 屏幕是K90系列另一个重…

2025-10-24

荣耀全球开发者大会启幕:发布8大AI方案 构建全场景智能生态新格局
为解决用户面对“场景割裂、服务单一”的智能生态时带来的碎片化体验,并攻克行业长期存在的互联互通难题,荣耀基于HONOR AI Connect平台,发布了8大AI场景化生态解决方案,覆盖智慧家居、智慧车联、潮…

2025-10-24

OPPO Find X9系列首销火爆:“追光红”受追捧,Pro版销量占比超六成
结合OPPO在全球及中国市场长期稳健的表现,以及在品质管控和售后服务上的卓越口碑,OPPO Find X9系列的热销不仅是一时现象,更折射出OPPO在高端旗舰市场布局的深度与持续竞争力,未来有望继续引领行业发…

2025-10-24

机构预测:苹果或跳过iPhone 19,2027年直接推出iPhone 20迎20周年
【环球网科技综合报道】10月23日消息,据GSMArena报道,如果按照数字来算,2027 年的 iPhone应该被称为 iPhone 19,但Omdia 高级研究员 Heo Moo-yeol 认为,苹果可…

2025-10-24