ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

字节Seed团队新论文:破解AI生图模型能力叠加难题,实现高效编辑与生成双赢

时间:2026-07-02 08:53:30来源:快讯编辑:快讯

在火山引擎FORCE原动力大会上,字节跳动再次展示了其在图像与视频生成领域的创新实力。图像生成模型Seedream 5.0 Pro和视频生成模型Seedance 2.5的亮相,标志着该公司在多模态生成技术上迈出了重要一步。Seedream 5.0 Pro不仅支持交互式精准编辑,还能将画面拆解为多图层,直接生成可编辑的分层设计图;而Seedance 2.5则将单段原生时长延长至30秒,并支持50个素材的联合参考,为视频创作提供了更多可能性。

回顾过去一年多的发展历程,字节跳动的生成模型几乎保持了每月更新的频率。其中,2025年9月发布的Seedream 4.0是一个关键节点,它首次将“按文字生成图片”和“修改已有图片”两种功能整合到同一个模型中。然而,这种整合并非简单相加,实际操作中常常面临能力冲突的问题。例如,增加局部编辑功能可能会影响文生图的基本性能,而叠加全局改写功能又可能导致局部编辑出现混乱。模型在处理多种任务时,就像多人同时操控方向盘,最终结果往往偏离预期方向。

为了解决这一难题,字节Seed团队联合新加坡国立大学等高校,在arXiv平台上发布了一篇名为DanceOPD的论文。该研究由NUS资深教授Tat-Seng Chua参与指导,体现了工业界与学术界的深度合作。论文提出了一种新方法,旨在为生成模型添加新功能的同时,不削弱原有能力。这一研究不仅具有学术价值,更与用户实际使用场景高度契合。在字节的AI创作工具即梦中,用户通常会连续进行多个操作:先生成图片,再修改背景、更换风格、扩展画幅或进行局部重绘。理想情况下,这些操作应由同一个模型完成,但现实中每增加一种编辑功能,要么需要额外部署专用模型,要么将功能硬塞进主模型导致文生图质量下降。DanceOPD提供了一种新的解决方案:将训练好的“编辑专家”模型作为“冻结教师”,通过蒸馏技术将其能力迁移到主模型中,且仅更新少量轻量参数,避免对主模型的基础结构造成影响。

从产品逻辑来看,这种方法实现了“增量加能力”。Seedream系列模型从4.0到5.0的迭代过程中,每次更新都为主模型增添了新功能。传统做法通常采用重训或权重融合,但这些方法存在风险:新功能提升的同时,老功能可能退化。论文中的实测结果显示,采用权重融合方式时,文生图分数基本保持不变,但图片编辑能力直接归零,这正是传统方法局限性的体现。而DanceOPD采用的硬路由蒸馏技术,理论上可以在不影响现有能力的情况下添加新的编辑功能,显著降低了迭代成本和失败概率。

该研究还解决了两个具体问题:其一,将CFG(无分类器引导)作为一种能力场吸收进模型权重中,省去了推理时的额外计算,对于处理海量C端请求的即梦产品而言,每张图片节省一次计算都意味着实际成本的降低;其二,Seedream 5.0主打的精致纹理和SeedEdit主打的“非编辑区域保持不动”功能,在DanceOPD框架中分别对应“写实场吸收”和“保留型局部编辑场”,均得到了明确支持。

尽管论文尚未明确说明这套机制已应用于哪个版本的Seedream模型,目前仍处于研究阶段,但其瞄准的问题、采用的技术底座(计划支持SD3.5、Z-Image等开源流匹配模型)与字节跳动的产品路线高度一致。要理解这篇论文的核心贡献,需先了解当前主流生图模型的工作原理。这些模型通常采用流匹配技术,将“从随机噪声生成清晰图片”的过程分解为无数微小位移,每个位置都有一个“速度场”指导数据移动方向。文生图、局部编辑和全局改写分别对应不同的速度场,但这些场之间往往相互干扰,导致生成结果模糊不清。论文将这种能力丢失现象命名为“capability identity”,即能力的身份缺失。

针对这一问题,业界此前尝试过多种方法,如联合训练、权重融合和离策略蒸馏等,但这些方法都存在局限性:联合训练会稀释编辑能力,权重融合会导致编辑能力崩溃,离策略蒸馏则面临训练与部署场景不匹配的问题。DanceOPD提出了三招创新解决方案:第一招是硬路由,不再平均多个教师模型的结论,而是为每个训练样本指定唯一教师,确保能力身份不被模糊;第二招是采用在策略蒸馏,在学生模型实际生成轨迹的状态上进行教学,而非在教师模型或数据中的状态上进行;第三招是选择低噪声点进行单点对齐,采用简单的均方误差(MSE)作为对齐方式,避免使用复杂的奖励模型或对抗判别器。实验数据显示,硬路由配单点MSE的组合在图像编辑评测GEditBench上取得了5.347的分数,比最强基线高出8.1%;在局部编辑加全局编辑的组合上取得5.498的分数,比最强对照高出16.1%;同时,衡量文生图基本功的Geneval指标不降反升。

虽然DanceOPD的官方代码尚未公开,GitHub上显示“等待批准发布”,且计划支持的Seedream、SeedEdit教师模型也不开源,导致外部难以立即复现论文结果,但其核心机制——硬路由加在策略蒸馏——已通过简单实验得到验证。研究人员用两个目标分布代替两种能力,一个圆环代表“文生图”,四个角的点簇代表“编辑”,各配一个冻结的教师速度场,然后用三种策略训练同一个小网络。软融合策略将两个教师模型的箭头平均教学,结果导致生成圆环时出现点簇,文生图能力被编辑功能干扰;而DanceOPD的硬路由加在策略蒸馏策略则成功保持了两种能力的独立性,量化结果显示,到目标分布的平均偏差从软融合的0.239降至0.028,降幅约88%。对于字节跳动这样已将多能力生图技术产品化的企业而言,DanceOPD的研究为解决能力冲突问题提供了清晰的思路,也为AI图片的直接修改提供了高效路径。

更多热门内容
人形机器人伴侣面世引热议:情感寄托新选择,还是真实互动不可替代?
看到这些介绍的时候,我突然有了个大胆的想法:有了“它”,寂寞的人可以不用搂着毛绒玩具睡觉了。还是从生意角度看,有一就有二,赚钱的生意自然有竞争,伴侣机器人概念切入物理AI(Physical AI)大风口,…

2026-07-02

亚马逊豪掷10亿入局FDE领域,科技企业竞相抢人薪资水涨船高
FDE概念由大数据公司Palantir引入商业领域,指既有编程能力,又能理解业务场景的工程师,职责包括亲临客户现场,在真实数据和业务环境中构建解决方案等。 5月4日,Anthropic宣布与黑石、高盛等…

2026-07-02

97年复旦博士孙天祥加入百度任BMU负责人,学术产业双路径契合百度战略
近日,大模型领域技术专家孙天祥正式加入百度,就任基础模型研发部(BMU)负责人。 孙天祥此次同时进入百度模型委员会(BMC),从研发MOSS到提出MaaS再到其后续创业方向,他的学术与产业路径与百度基础模型…

2026-07-02

豆包转向B端:低价策略入局AI coding,能否在激烈竞争中突围?
这次,它不仅仅是发布了一个更会写代码的新模型,是在组织和资源层面,把AI商业化的重心往B端推。字节做过一组实验,在不同模型和框架下,AI生成代码的功能正确率普遍超过80%,但到了UI、可靠性、可维护性这些真…

2026-07-02

科技巨头竞相布局FDE领域,亚马逊重金入场,FDE人才薪资水涨船高
FDE概念由大数据公司Palantir引入商业领域,指既有编程能力,又能理解业务场景的工程师,职责包括亲临客户现场,在真实数据和业务环境中构建解决方案等。 5月4日,Anthropic宣布与黑石、高盛等…

2026-07-02