ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

北大与字节联合推出Open-o3 Video:显式时空证据嵌入,视频推理有迹可循

时间:2025-11-05 23:15:55来源:快讯编辑:快讯

在人工智能领域,视频理解一直是极具挑战性的课题。近日,一支由北京大学与字节跳动联合组成的科研团队,成功研发出全球首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。该模型突破传统视频推理的局限,不仅能准确回答问题,还能在推理过程中同步标注关键事件的发生时间和具体位置,实现真正意义上的可追溯推理。

视频理解任务要求模型同时处理时间维度的动态变化与空间维度的场景交互。传统模型虽能识别画面中的物体和动作,却难以准确判断事件发生的具体时间和位置。Open-o3 Video通过创新性的技术架构,成功解决了这一难题。该模型采用非agent架构设计,避免了复杂的工具调用和多轮推理,在单次回复中即可完成"观察-思考-验证-回答"的完整闭环。实验数据显示,在多个视频推理测试中,其关键指标较现有模型提升最高达24.2%,性能表现超越GPT-4o和Gemini-2-Flash等闭源模型。

研发团队指出,实现视频推理的可解释性面临两大核心挑战:一是保持文本、时间戳和物体检测框在推理过程中的一致性;二是解决时空耦合监督数据的严重缺失问题。现有数据集要么仅提供时间标注,要么只有空间标注,缺乏统一的时空标注体系。为突破这一瓶颈,团队构建了首个面向显式时空推理的统一语料体系STGR,包含30万条监督微调数据和3.6万条强化学习数据,其中5900条高质量时空数据通过严格标注流程确保数据质量。

该模型采用独特的双阶段训练机制:首先通过监督微调阶段让模型掌握推理格式与输出规范,再通过基于GSPO的强化学习阶段优化时空对齐能力。研发团队特别设计了自适应时间临近性机制和时间门控机制,前者通过动态调整时间奖励的容忍范围实现从粗定位到精定位的收敛,后者确保空间奖励计算仅在时间预测准确时启动。这种创新训练方式使模型能够稳定高效地学习时空推理能力。

在基准测试中,Open-o3 Video展现卓越性能。在时空推理基准V-STAR上,其时间对齐和空间对齐指标分别提升14.4%和24.2%;在VideoMME、WorldSense等四个主流测试集中,模型在需要复杂推理的时空任务和传统视频识别任务中均表现突出。特别是在VideoMME-Long子任务中,模型准确率达到54.9%,较基线模型提升4.1个百分点。

消融实验验证了模型设计的有效性:双阶段训练机制使模型性能提升显著,关键奖励机制确保训练稳定性,统一时空标注数据对推理能力提升至关重要。可视化结果显示,模型在处理物体识别、动作分析和环境推理等任务时,不仅能给出准确答案,还能提供时间戳和目标框等可验证证据,使推理过程透明可信。

目前,该研究的论文、代码和模型已全部开源。这一突破性成果为视频多模态模型的发展开辟了新方向,有望推动人工智能从"能理解"向"能定位、能解释"的更高阶段迈进。科研团队表示,将持续完善时空推理数据与训练机制,为更长视频、更复杂场景下的问答任务提供可靠支撑。

更多热门内容
AI赋能电商新未来:火山引擎豆包大模型落地杭州,共启智能商业新篇
他指出,火山引擎依托字节跳动内部30万亿+级tokens的真实业务场景经验,构建了强大的“云+智能”一体化交付能力,致力于提供“效率最高、效果最好、场景适配最全的商业视频生成模型库”,为企业实现AI应用的快速…

2025-11-05

3.54英寸LCD屏+深度防沉迷,多亲F25仅899元,学生党新选择?
而这次多亲又推出了这款 F25,继续在小屏领域深耕,但带来了更多不一样的思考。 一个比较有趣的设计是,多亲 F25将前置摄像头巧妙集成在了键盘的「# 字键」上。 虽然外观是功能机的造型,但多亲 F25 内…

2025-11-05

152g小屏LCD新机登场!LCD技术革新下护眼需求能否迎来新曙光?
现在已经是2025年底,你打开购物软件,翻上半天都很难翻出一部用LCD屏幕的手机了,基本可以说,LCD已经被各路厂商们抛弃了。Mode1 Pocket只是一款针对日本本土市场特定需求的产物,主打的是极致便携…

2025-11-05

第五代骁龙8至尊版引领新篇,12款旗舰手机齐发,开启移动体验新纪元
截至10月底,包括小米17、小米17 Pro、小米17 Pro Max、荣耀Magic8、荣耀Magic8 Pro、红魔11 Pro、红魔11Pro+、iQOO 15、真我GT8 Pro、努比亚Z80 Ul…

2025-11-05

4000元以上机型性价比揭晓:iQOO 15登顶,多款国产旗舰上榜
谁能想到在4000元以上iQOO 15能成为性价比排名第一的机型,而它的竞争对手一加15、REDMI K90 Pro Max都没有出现在榜单上。这说明目前大家预算4000元以上还要找一款性价比的机型,这些机型…

2025-11-05

王心凌自拍照引关注,新机iPhone Air超薄设计及配置成亮点
11月5日消息,歌手王心凌晒出自拍照,网友发现其微博的另一张配图里有全新的iPhone Air。 作为苹果史上最薄机型,iPhone Air一经推出就引发关注,其厚度只有5.6mm,仅支持eSIM,没有物理S…

2025-11-05

天玑9500芯片赋能 OPPO Find X9系列10天产量破百万引市场热捧
凭借强大的算力和技术支撑,从芯片到整机,从性能到体验,天玑9500与OPPO Find X9的组合,为用户带来了“性能强劲、体验卓越”的全新旗舰标杆,在影像、续航、AI摄影等方面均实现全方位提升,使其成为高…

2025-11-05

​荣耀两款新机影像配置揭秘:双2亿像素加持,中端系列配置升级​
【CNMO科技消息】11月5日,有数码博主曝光了两款处于测试阶段的神秘新机,CNMO猜测为荣耀Magic和数字系列新机。 该博主表示,其中一款新机将采用双2亿像素影像方案,配备2亿像素主摄以及2亿像素潜望镜头…

2025-11-05

安徽国科量光发布国内首台极紫外波段物质吸收谱台式仪器 助力战略新兴产业
IT之家 11 月 5 日消息,据中国声谷(国家工信部和安徽省政府合作项目,由安徽省人工智能产业投资发展有限公司负责运营)消息,昨日上午,安徽国科量光技术有限公司(简称国科量光)在合肥发布国内首台极紫外波段物…

2025-11-05

大疆禅思L3航测激光雷达系统亮相:长测程高精度 赋能多行业测绘
150米距离内重复测距精度≤5毫米(1σ),激光发散角仅0.25mrad(1/e²),同距离光斑尺寸为禅思L2的1/5,可清晰识别300米外架空线路等细小目标;强穿透能力提升林下地面点获取量,精准还原复杂地…

2025-11-05