港理工突破AI图片编辑瓶颈：文字与手势协同，开启精准创作新体验-业界动态-ITBear科技资讯

当你想让AI图片编辑工具把猫咪的头稍微向左转时，输入文字指令可能得到夸张的变形结果，而拖拽操作又常导致皮肤拉伸失真。这种"文字说不清位置，手势道不明意图"的困境，正被一项突破性研究打破。香港理工大学与OPPO研究院联合开发的TV-Edit系统，首次实现了文字语义与空间轨迹的协同编辑，让AI同时理解"做什么"和"怎么做"。这项成果以预印本形式发布于arXiv平台，编号2606.16767。

现有工具的局限性催生了这项创新。以FLUX.1 Kontext为代表的文字编辑模型擅长改变颜色、材质等属性，却无法精准控制"向左多少厘米"；而GoodDrag等拖拽工具虽能精确定位，却常将"张嘴"指令误解为皮肤拉伸。研究团队通过对比发现，文字指令的模糊性与手势操作的语义缺失，恰似指挥厨师时只说"微辣"却不示范辣椒用量，或只演示动作却不明菜品种类。

为突破数据瓶颈，研究团队从视频中挖掘训练素材。他们将视频分解为起始帧与结束帧的配对，利用SEA-RAFT光流算法计算像素位移，通过Co-Tracker-V3追踪密集网格点运动轨迹。经过运动幅度筛选、视觉提示语言生成和边界光流过滤三重处理，最终构建出包含23,000组样本的TV-Edit-23K数据集。每组数据包含原始图像、目标图像、空间坐标对和文字描述，且支持双向训练，使可用样本量翻倍。

在模型架构上，研究团队选择为现有大模型添加"空间理解插件"。新开发的"内容感知空间控制器"如同精确的测量助手，将用户指定的坐标点转化为位置地图，经轻量编码器处理后与图像特征融合。通过5层Transformer模块和动态时间调制层，控制器在生成早期强化空间信号，后期逐渐收敛影响强度。这种"即插即用"的设计，使同一控制器可适配Qwen-Image-Edit和FLUX.1 Kontext等不同基础模型。

训练策略聚焦于生成早期步骤。研究团队采用Z0预测目标，对高噪声阶段的布局错误施加更高惩罚，并通过Beta(5,2)分布动态调整采样重心。这种策略迫使模型在初始阶段就建立正确的空间关系，而非依赖后期修正。实验显示，该设计使空间控制精度提升28.7%，指令遵循准确率达93%，超越谷歌商业模型NanoBanana Pro。

为全面评估系统性能，研究团队创建了TV-Edit-Bench评测集。该数据集包含120个样本，覆盖真实视频运动、模型生成素材和先进编辑结果三类场景，从图像保真度、几何精度和语义忠实度三个维度进行评估。测试表明，TV-Edit在密集匹配距离上达到0.0462，指令遵循分达0.93，既能精准控制狐狸张嘴幅度，又能理解狗绳应随狗移动的隐性场景逻辑。

这项技术突破不仅限于单一功能优化。在展示案例中，用户可同时指定柯基犬头部右转轨迹和"变成老虎"的文字指令，系统能协调完成空间变换与外观改造。类似地，控制北极熊头部缩小的同时添加皇冠，或调整老虎大小的同时改变毛色，这些复合操作展示了语义编辑与空间控制的无缝融合。

尽管TV-Edit在二维平面编辑上表现卓越，研究团队也指出其局限性。当前系统推理速度较慢，难以支持实时交互；对涉及透视变形的三维操作处理能力有限，如让人物侧转身体等复杂形变。这些挑战为后续研究指明了方向，而数据集、模型和代码的开放发布，将推动整个领域向更自然的交互体验迈进。