ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

港科大DreamOmni2开源引关注,多模态AI生图编辑能力再升级,海外创作者热议

时间:2025-10-24 03:19:08来源:快讯编辑:快讯

最近,AI图像生成与编辑领域迎来了一次重要突破。一款名为DreamOmni2的新模型开源发布,迅速引发海外创作者社区的广泛关注和讨论。这款由香港科技大学贾佳亚教授团队研发的模型,被认为有望将多模态图像编辑与生成技术推向新的高度。

随着谷歌Nano Banana、字节Seedream4.0和阿里Qwen-Image-Edit-2509等模型的出现,图像编辑领域进入了一个新的发展阶段。这些模型不仅支持OOTD穿搭生成、文字渲染和电影分镜制作,还让创作者无需掌握复杂的修图技巧,就能实现更具创意和产品价值的图像生成。

然而,现有模型在实际应用中仍存在一些局限。例如,语言指令有时无法准确描述需求,需要结合参考图像和额外说明;在处理抽象概念如发型、妆容、纹理等时,表现往往不尽如人意。这些问题促使研究人员探索更优的技术解决方案。

DreamOmni2的推出正是为了解决这些痛点。该模型基于FLUX-Kontext架构训练,不仅保留了原有的指令编辑和文生图能力,还创新性地增加了多参考图生成编辑功能,为创作者提供了更高的灵活性和创意空间。据团队介绍,无论是具体物体还是抽象概念的编辑与生成,DreamOmni2的表现都显著优于当前最先进的开源模型,甚至在某些方面超越了Nano Banana。

在实际测试中,DreamOmni2展现了强大的能力。当要求将一张熊猫图片的背景替换为另一张图片时,模型迅速生成了符合要求的证件照,毛发细节处理得当,效果堪比专业修图。更复杂的是风格迁移任务,模型能准确捕捉参考图的色调和氛围,并将其自然融入原图。

与GPT-4o和Nano Banana等主流模型的对比测试显示,DreamOmni2在处理复杂指令时表现更为出色。例如,在将一张图片中的夹克替换为另一张图片中的衣服时,DreamOmni2不仅准确完成了替换,还自然保留了人物特征,只有衣领部分略有出入。相比之下,GPT-4o生成的结果显得不自然,人物比例失调;Nano Banana虽然整体效果不错,但衣物颜色和形态发生了变化,logo也消失了。

DreamOmni2的另一大亮点是其多模态生成能力。在测试中,模型成功将一张图片中的徽标印在另一张图片的物体上,并自然放置在桌面上,光影效果处理得当。更令人印象深刻的是,根据手绘草图生成相同姿态图片的任务中,DreamOmni2能准确捕捉草图中的姿态信息,将其转化为自然的人物动作。

这些优异表现的背后,是贾佳亚团队在数据构建、框架设计和训练策略上的创新。团队提出了三阶段式数据构建范式,通过特征混合、真实数据与模型自生数据的结合,解决了多模态训练中抽象概念稀缺和缺乏参考图像条件的问题。同时,团队对模型框架进行了针对性修改,添加索引编码到位置通道,有效缓解了复制粘贴和像素混淆现象。

在训练优化方面,团队提出了VLM和生成模型联合训练的机制,使模型能更好地理解复杂用户指令。通过LoRA方法分别训练编辑与生成模块,实现了编辑与生成功能的无缝融合。这些技术创新使DreamOmni2在多模态指令编辑与生成任务中达到了新的水平。

开源两周以来,DreamOmni2在GitHub上已获得1.6k的Star量,受到开源社区的广泛认可。YouTube上也出现了大量介绍和使用经验分享的视频,有创作者称赞其为"King Bomb",特别肯定了其在抽象概念理解方面的能力。

更多热门内容
BOE(京东方)陈炎顺香港发声:以战略定力绘就科技企业全球升维蓝图
从“全球每四块屏就有一块来自京东方”的产业实力,到“屏之物联”战略推动显示技术赋能万千场景,再到“第N曲线”自我进化系统的构建,BOE(京东方)正推动技术与市场在深度融合中持续升维。 从“技术破局”到“战略…

2025-10-24

鸿蒙版抖音小红书创作者中心升级,功能完备助力创作者开启高效创作之旅
最近体验了鸿蒙版抖音和小红书的创作者中发现,像选题灵感、创作工具、流量扶持、收益变现等等这些高频用到的核心功能都齐了,基本可以满足日常创作需求。最实用的就是创作工具这一块—— 在数据中心你可以随时掌握账号状…

2025-10-24

港科大贾佳亚团队推出DreamOmni2,AI创作工具迈向多模态融合新阶段
定量评估中,DreamOmni2也在人工评估和AI模型评估中均优于商业模型Nano Banana,取得了与GPT-4o相当的结果。 在生成准确性和对象一致性方面也要优于一众开源模型,即使在这些开源模型的专业…

2025-10-24

阿里夸克“C计划”揭晓:对话助手上线,深度融合原生功能成亮点
不同于普通聊天对话AI,它与夸克App原生功能深度融合,用户在对话中不仅可进行复杂问答,还能直接调用搜索、AI相机、拍照搜题、AI写作、翻译、电话等功能,实现从提问到行动的一体化体验。 在投资机构A16z最…

2025-10-24

松延动力10月23日推万元内人形机器人“小布米”,2026年1月交付
松延动力创始人、董事长姜哲源在接受九派财经等媒体采访时表示,小布米采用了很多轻量化的复合材料,尺寸比较小且零部件自研比例比较高,使得产品整体成本比较低,同时,公司也控制了毛利率水平,希望能做“感动人心、价格…

2025-10-24

松延动力10月23日推万元内人形机器人“小布米”,2026年1月交付
10月23日,观察者网了解到,松延动力将发布一款售价9998元的人形机器人“小布米(bumi)”。正式上线的产品可以实现倒地起身、行走、奔跑和跳舞等功能,也可以由用户实现图形化编程等二次开发。 官方演示中…

2025-10-24

谷歌借Willow芯片实现量子计算突破,“量子回声”算法登Nature封面,速度超超算13000倍
智东西10月23日消息,今天,谷歌宣布了一项重大的算法突破,研究团队借助最新一代量子芯片Willow,首次成功让量子计算机在硬件上运行可验证算法。 谷歌量子AI团队在Willow量子芯片上运行了“量子回声”…

2025-10-24