ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

字节开源Bernini框架:以“理解—生成”机制破解AI视频编辑难题,开启精准创作新篇

时间:2026-06-03 19:34:46来源:互联网编辑:快讯

字节跳动商业化技术团队近日宣布开源一款名为Bernini的全新框架,为视频生成与编辑领域带来技术突破。该框架通过创新性的“先理解、后生成”机制,有效解决了传统模型在处理复杂文本指令时出现的画面失控、帧间闪烁等核心问题,标志着视频创作工具向精准化控制迈出关键一步。

针对传统视频编辑中普遍存在的主体变形、背景漂移等技术瓶颈,Bernini采用模块化设计将工作流程拆解为语义规划与视觉渲染两个阶段。系统首先通过多模态大模型规划器对文本指令、视频素材及参考图像进行深度解析,在特征空间中构建出包含关键语义信息的“数字蓝图”。随后,基于Diffusion Transformer架构的渲染器将抽象语义转化为高质量视频画面,确保生成内容的时空连续性与视觉稳定性。

在可控编辑能力方面,该框架展现出显著优势。用户可通过自然语言指令实现天气变化、季节转换、材质替换等复杂操作,同时对镜头运动、焦点切换及主体动作进行像素级控制。测试数据显示,在保持环境背景稳定的前提下,系统能够自然修改动物运动轨迹,其控制精度已接近专业后期软件水平。

多模态输入支持成为另一技术亮点。除文本指令外,Bernini允许用户直接上传图片或视频作为视觉参考,大幅提升创作一致性。在视频编辑场景中,系统可精准识别目标区域,实现材质迁移、主体植入等操作,确保植入元素与原始画面的透视关系和边界融合自然。在新视频生成任务中,该框架支持单图扩展、多视角生成及关键帧动画等创新功能,甚至能将多个独立物体的视觉特征融合到同一角色模型中。

为解决多素材混合处理时的时空混淆问题,研发团队引入SA-3D RoPE位置编码技术。该机制通过为不同视觉片段分配唯一标识符,在保持时空连续性的同时清晰区分参考素材与生成目标。内部测试表明,搭载该技术的Bernini框架在视频生成质量评估中位居行业前列。目前,该框架的推理代码及第二阶段模型Bernini-R已开放下载,包含完整语义规划器的全功能版本将于近期上线。

更多热门内容