港科大贾佳亚团队推出DreamOmni2，AI创作工具迈向多模态融合新阶段-信息流-ITBear科技资讯

AI图像生成领域迎来重大突破——港科大贾佳亚团队研发的DreamOmni2模型，成功攻克了多模态指令编辑与生成的技术瓶颈。该成果论文《DreamOmni2: Multimodal Instruction-based Editing and Generation》在GitHub发布两周即收获1600颗星，引发YouTube创作者群体热议，更被国外技术论坛称为"智能创作工具的里程碑"。

传统AI创作工具的局限性日益凸显。当用户试图将照片中背包替换为波西米亚风格图案时，语言描述的乏力暴露无遗；而要模仿老照片的复古胶片光影或特定画家的笔触风格，现有模型更是束手无策。这种"语言失语"现象，正是DreamOmni2要解决的核心问题。

研究团队构建的三阶段数据训练体系堪称创新典范。通过特征混合方案生成高质量图像对，解决传统拼接法导致的边缘模糊问题；利用提取模型与编辑模型联动，自动生成（源图+指令+参考图）→目标图的完整训练数据；最终形成支持多参考图像输入的综合性数据集。这种从零开始的数据构建方法，为模型提供了精准理解抽象概念的"教材"。

模型架构的革新同样引人注目。针对多图像输入的混淆难题，团队开发的索引编码与位置编码偏移技术，使模型能准确区分不同参考图像。联合训练视觉语言模型（VLM）与生成模型的方案，则显著提升了指令理解能力。通过LoRA微调技术，模型在保持原有功能的基础上，新增了多模态处理能力。

实测数据印证技术突破。在风格迁移测试中，DreamOmni2将像素风、二次元等复杂风格完美复现，对比GPT-4o仅迁移色调、Nano Banana仅轻微变色的表现形成碾压优势。多图编辑测试更显实力：让鹦鹉佩戴指定帽子并复刻火箭图氛围时，模型精准还原了羽毛纹理、帽子颜色与背景光影。

基准测试揭示技术代差。在205个多模态编辑测试用例中，DreamOmni2的物体迁移准确率与抽象属性一致性均领先GPT-4o和Nano Banana。定量分析显示，该模型在生成准确性指标上超越开源模型37%，在对象一致性方面领先29%。特别是在处理四图组合生成梵高风格画作时，人物特征与笔触色彩均得到忠实呈现。

技术社区的反响印证实用价值。海外创作者制作的教程视频中，DreamOmni2被冠以"最强免费工作流"称号。用户实测显示，模型能精准复刻人物表情的嘴角弧度与眼睛眯缝程度，甚至能处理发型改变带来的颈部阴影变化。这种超越语言描述的创作能力，正在重新定义智能工具的边界。

阿里夸克“C计划”揭晓：对话助手上线，深度融合原生功能成亮点

不同于普通聊天对话AI，它与夸克App原生功能深度融合，用户在对话中不仅可进行复杂问答，还能直接调用搜索、AI相机、拍照搜题、AI写作、翻译、电话等功能，实现从提问到行动的一体化体验。在投资机构A16z最…

2025-10-24

松延动力10月23日推万元内人形机器人“小布米”，2026年1月交付

松延动力创始人、董事长姜哲源在接受九派财经等媒体采访时表示，小布米采用了很多轻量化的复合材料，尺寸比较小且零部件自研比例比较高，使得产品整体成本比较低，同时，公司也控制了毛利率水平，希望能做“感动人心、价格…

2025-10-24

松延动力10月23日推万元内人形机器人“小布米”，2026年1月交付

10月23日，观察者网了解到，松延动力将发布一款售价9998元的人形机器人“小布米（bumi）”。正式上线的产品可以实现倒地起身、行走、奔跑和跳舞等功能，也可以由用户实现图形化编程等二次开发。官方演示中…

2025-10-24

谷歌借Willow芯片实现量子计算突破，“量子回声”算法登Nature封面，速度超超算13000倍

智东西10月23日消息，今天，谷歌宣布了一项重大的算法突破，研究团队借助最新一代量子芯片Willow，首次成功让量子计算机在硬件上运行可验证算法。谷歌量子AI团队在Willow量子芯片上运行了“量子回声”…

2025-10-24

2025“双十一”昆明线下消费热：长周期线上PK即时性线下，市场升温

2025-10-24

爱彼迎CEO：ChatGPT暂未就绪，平台AI聊天机器人多依赖阿里通义千问

2025-10-24

中国“微光一号”模态箭落地碳纤维与全流量发动机助力火箭新突破

2025-10-23

宇宙“婴儿期”星系藏谜团：年轻星系为何有高金属与尘埃？

2025-10-23

220亿年后宇宙结局成谜，探索未知的过程比答案更具魅力

2025-10-23

木星看似“软乎乎”，实则“外柔内刚”，小行星撞它为何难穿？答案在此

2025-10-23