ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

港科大LazyDrag突破传统:显式对应让图片编辑精准又自然

时间:2025-09-29 00:12:17来源:互联网编辑:快讯

香港科技大学尹梓鑫团队与StepFun公司联合开发的LazyDrag图片编辑系统,为传统图像处理领域带来突破性变革。这项发表于arXiv平台的研究成果(编号2509.12203v1),通过创新性的显式对应技术,将复杂图片编辑转化为直观的拖拽操作,解决了长期困扰用户的精度与效率难题。

传统编辑工具在处理物体位置调整时,常因隐式匹配机制导致编辑区域错位。研究团队发现,现有方法依赖的注意力机制如同"近视导航",无法准确识别语义关联,导致移动手臂时肩膀变形、调整表情时背景扭曲等问题。更严重的是,为掩盖定位误差,多数系统不得不降低处理强度或反复优化,牺牲了填充质量与指令理解能力。

LazyDrag的核心突破在于构建显式对应地图,该技术如同为编辑系统配备"精准测绘仪"。当用户拖动图片元素时,系统会实时生成像素级迁移方案,精确记录每个像素点的移动轨迹。例如将狗耳朵从直立改为下垂时,系统能准确计算(100,200)坐标点应移动至(105,180),而非模糊处理整个区域。

针对多指令冲突场景,研究团队提出"胜者为王"策略。该机制通过距离权重分配,确保每个像素区域仅响应最相关的操作指令。在同时调整人物嘴角与嘴唇的案例中,系统能智能区分指令优先级,避免传统方法因指令平均化导致的表情失真。这种处理方式使复杂编辑的成功率提升60%以上。

技术架构采用独特的两阶段设计:对应地图生成阶段负责创建精确的迁移方案,保持机制则确保编辑区域与背景的自然融合。这种模块化结构使系统能在全强度模式下运行,无需为稳定性妥协处理质量。实验数据显示,LazyDrag在DragBench测试集中的平均误差仅21.49像素,较传统方法提升30%以上。

语义理解编辑功能展现系统智能性。当用户拖动狗嘴部并输入"叼网球"指令时,系统不仅能张开嘴巴,还能自动生成逼真的网球模型。这种图文协同编辑能力,源于多模态扩散变换器架构对视觉-语言信息的深度整合。研究显示,在32组盲测案例中,61.88%的专业用户更倾向选择LazyDrag的编辑效果。

智能填充技术突破传统复制粘贴模式,采用上下文感知的随机生成策略。移动物体后,系统通过分析图片整体风格,生成与场景匹配的填充内容。用户还可指定填充对象,如要求在空白处生成花朵或建筑。这种灵活性使LazyDrag不仅能调整位置,还能实现物体缩放、姿态变换等复杂操作。

性能测试显示,系统在语义一致性、感知质量和整体效果三个维度分别获得8.205、8.395和8.210分(满分10分)。特别值得注意的是,这些优异表现无需针对单张图片优化,处理时间较传统方法缩短40%以上。用户反馈表明,系统使复杂编辑流程简化60%,同时保持专业级输出质量。

技术路线选择方面,研究团队放弃传统U-Net架构,转而采用多模态扩散变换器。这种架构的单流注意力机制更适配精确控制需求,能同步处理视觉与文字信息。实验证明,即使将显式对应技术移植到U-Net,性能提升幅度也显著低于MM-DiT架构,验证了技术选型的正确性。

当前系统仍存在微调精度限制,在处理2-3像素级调整时可能出现偏差。复杂光影场景下的编辑自然度也有待提升。研究团队正通过改进VAE压缩算法和上下文建模技术解决这些问题。随着底层扩散模型的发展,LazyDrag的生成质量与场景适应能力将持续增强。

这项研究重新定义了人机协作的创作模式。用户通过直观拖拽和自然语言即可实现专业级编辑,AI则负责将创意意图转化为高质量视觉内容。模块化设计为未来扩展预留空间,显式对应技术有望延伸至视频编辑、3D建模等领域。技术民主化进程使更多创作者能突破工具限制,专注于艺术表达本身。

更多热门内容
最新天文突破:宇宙早期“小红点”黑洞质量被直接测出,约5000万倍太阳质量
北京5月28日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇天文学论文称,研究人员实现对一个遥远天体“小红点”中黑洞质量的直接测量,该天体的宿主星系存在于宇宙诞生约7亿年后,估算其黑洞质量约为太阳的50…

2026-05-29

早期宇宙“最裸露”黑洞QSO1现身:质量占比超三分之二引形成之谜
模型估算其质量约为太阳的 5000 万倍,而周围恒星总质量上限仅 2000 万个太阳质量,意味着超过 2/3 的质量集中在黑洞内。 第 1种是大爆炸后不久形成的原初黑洞 第 2 种是大质量气体云直接坍缩…

2026-05-29