ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

港理工突破AI图片编辑瓶颈:文字与手势协同,开启精准创作新体验

时间:2026-06-20 01:12:11来源:互联网编辑:快讯

当你想让AI图片编辑工具把猫咪的头稍微向左转时,输入文字指令可能得到夸张的变形结果,而拖拽操作又常导致皮肤拉伸失真。这种"文字说不清位置,手势道不明意图"的困境,正被一项突破性研究打破。香港理工大学与OPPO研究院联合开发的TV-Edit系统,首次实现了文字语义与空间轨迹的协同编辑,让AI同时理解"做什么"和"怎么做"。这项成果以预印本形式发布于arXiv平台,编号2606.16767。

现有工具的局限性催生了这项创新。以FLUX.1 Kontext为代表的文字编辑模型擅长改变颜色、材质等属性,却无法精准控制"向左多少厘米";而GoodDrag等拖拽工具虽能精确定位,却常将"张嘴"指令误解为皮肤拉伸。研究团队通过对比发现,文字指令的模糊性与手势操作的语义缺失,恰似指挥厨师时只说"微辣"却不示范辣椒用量,或只演示动作却不明菜品种类。

为突破数据瓶颈,研究团队从视频中挖掘训练素材。他们将视频分解为起始帧与结束帧的配对,利用SEA-RAFT光流算法计算像素位移,通过Co-Tracker-V3追踪密集网格点运动轨迹。经过运动幅度筛选、视觉提示语言生成和边界光流过滤三重处理,最终构建出包含23,000组样本的TV-Edit-23K数据集。每组数据包含原始图像、目标图像、空间坐标对和文字描述,且支持双向训练,使可用样本量翻倍。

在模型架构上,研究团队选择为现有大模型添加"空间理解插件"。新开发的"内容感知空间控制器"如同精确的测量助手,将用户指定的坐标点转化为位置地图,经轻量编码器处理后与图像特征融合。通过5层Transformer模块和动态时间调制层,控制器在生成早期强化空间信号,后期逐渐收敛影响强度。这种"即插即用"的设计,使同一控制器可适配Qwen-Image-Edit和FLUX.1 Kontext等不同基础模型。

训练策略聚焦于生成早期步骤。研究团队采用Z0预测目标,对高噪声阶段的布局错误施加更高惩罚,并通过Beta(5,2)分布动态调整采样重心。这种策略迫使模型在初始阶段就建立正确的空间关系,而非依赖后期修正。实验显示,该设计使空间控制精度提升28.7%,指令遵循准确率达93%,超越谷歌商业模型NanoBanana Pro。

为全面评估系统性能,研究团队创建了TV-Edit-Bench评测集。该数据集包含120个样本,覆盖真实视频运动、模型生成素材和先进编辑结果三类场景,从图像保真度、几何精度和语义忠实度三个维度进行评估。测试表明,TV-Edit在密集匹配距离上达到0.0462,指令遵循分达0.93,既能精准控制狐狸张嘴幅度,又能理解狗绳应随狗移动的隐性场景逻辑。

这项技术突破不仅限于单一功能优化。在展示案例中,用户可同时指定柯基犬头部右转轨迹和"变成老虎"的文字指令,系统能协调完成空间变换与外观改造。类似地,控制北极熊头部缩小的同时添加皇冠,或调整老虎大小的同时改变毛色,这些复合操作展示了语义编辑与空间控制的无缝融合。

尽管TV-Edit在二维平面编辑上表现卓越,研究团队也指出其局限性。当前系统推理速度较慢,难以支持实时交互;对涉及透视变形的三维操作处理能力有限,如让人物侧转身体等复杂形变。这些挑战为后续研究指明了方向,而数据集、模型和代码的开放发布,将推动整个领域向更自然的交互体验迈进。

更多热门内容
基于宇树G1改装的人形机器人 Pemba 登顶火山,未来将挑战珠峰
配备摄像头、传感器、卫星通信和机载 AI 后,人形机器人可以自主巡查大范围区域,并持续收集环境数据。按照设想,Pemba 将在珠峰大本营和海拔近8000 米的四号营地之间活动,收集电池性能、行走能力、关节受…

2026-06-20

亚马逊自研AI芯片或对外售,英伟达市场格局待变
据媒体报道,亚马逊正洽谈将其定制的Trainium加速器出售给其他公司用于数据中心,这意味着其芯片将直接与主导当前AI市场的英伟达(NASDAQ: NVDA)GPU展开正面竞争。大型AI客户已做出采购承诺:O…

2026-06-19