ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

港科大贾佳亚团队推出DreamOmni2,AI创作工具迈向多模态融合新阶段

时间:2025-10-24 01:41:33来源:快讯编辑:快讯

AI图像生成领域迎来重大突破——港科大贾佳亚团队研发的DreamOmni2模型,成功攻克了多模态指令编辑与生成的技术瓶颈。该成果论文《DreamOmni2: Multimodal Instruction-based Editing and Generation》在GitHub发布两周即收获1600颗星,引发YouTube创作者群体热议,更被国外技术论坛称为"智能创作工具的里程碑"。

传统AI创作工具的局限性日益凸显。当用户试图将照片中背包替换为波西米亚风格图案时,语言描述的乏力暴露无遗;而要模仿老照片的复古胶片光影或特定画家的笔触风格,现有模型更是束手无策。这种"语言失语"现象,正是DreamOmni2要解决的核心问题。

研究团队构建的三阶段数据训练体系堪称创新典范。通过特征混合方案生成高质量图像对,解决传统拼接法导致的边缘模糊问题;利用提取模型与编辑模型联动,自动生成(源图+指令+参考图)→目标图的完整训练数据;最终形成支持多参考图像输入的综合性数据集。这种从零开始的数据构建方法,为模型提供了精准理解抽象概念的"教材"。

模型架构的革新同样引人注目。针对多图像输入的混淆难题,团队开发的索引编码与位置编码偏移技术,使模型能准确区分不同参考图像。联合训练视觉语言模型(VLM)与生成模型的方案,则显著提升了指令理解能力。通过LoRA微调技术,模型在保持原有功能的基础上,新增了多模态处理能力。

实测数据印证技术突破。在风格迁移测试中,DreamOmni2将像素风、二次元等复杂风格完美复现,对比GPT-4o仅迁移色调、Nano Banana仅轻微变色的表现形成碾压优势。多图编辑测试更显实力:让鹦鹉佩戴指定帽子并复刻火箭图氛围时,模型精准还原了羽毛纹理、帽子颜色与背景光影。

基准测试揭示技术代差。在205个多模态编辑测试用例中,DreamOmni2的物体迁移准确率与抽象属性一致性均领先GPT-4o和Nano Banana。定量分析显示,该模型在生成准确性指标上超越开源模型37%,在对象一致性方面领先29%。特别是在处理四图组合生成梵高风格画作时,人物特征与笔触色彩均得到忠实呈现。

技术社区的反响印证实用价值。海外创作者制作的教程视频中,DreamOmni2被冠以"最强免费工作流"称号。用户实测显示,模型能精准复刻人物表情的嘴角弧度与眼睛眯缝程度,甚至能处理发型改变带来的颈部阴影变化。这种超越语言描述的创作能力,正在重新定义智能工具的边界。

更多热门内容
阿里夸克“C计划”揭晓:对话助手上线,深度融合原生功能成亮点
不同于普通聊天对话AI,它与夸克App原生功能深度融合,用户在对话中不仅可进行复杂问答,还能直接调用搜索、AI相机、拍照搜题、AI写作、翻译、电话等功能,实现从提问到行动的一体化体验。 在投资机构A16z最…

2025-10-24

松延动力10月23日推万元内人形机器人“小布米”,2026年1月交付
松延动力创始人、董事长姜哲源在接受九派财经等媒体采访时表示,小布米采用了很多轻量化的复合材料,尺寸比较小且零部件自研比例比较高,使得产品整体成本比较低,同时,公司也控制了毛利率水平,希望能做“感动人心、价格…

2025-10-24

松延动力10月23日推万元内人形机器人“小布米”,2026年1月交付
10月23日,观察者网了解到,松延动力将发布一款售价9998元的人形机器人“小布米(bumi)”。正式上线的产品可以实现倒地起身、行走、奔跑和跳舞等功能,也可以由用户实现图形化编程等二次开发。 官方演示中…

2025-10-24

谷歌借Willow芯片实现量子计算突破,“量子回声”算法登Nature封面,速度超超算13000倍
智东西10月23日消息,今天,谷歌宣布了一项重大的算法突破,研究团队借助最新一代量子芯片Willow,首次成功让量子计算机在硬件上运行可验证算法。 谷歌量子AI团队在Willow量子芯片上运行了“量子回声”…

2025-10-24