ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果复旦联手打造StreamBridge,突破流式视频理解技术瓶颈

时间:2025-05-13 15:41:18来源:ITBEAR编辑:快讯团队

近期,科技界迎来了一项创新突破,苹果公司携手复旦大学,共同推出了StreamBridge端侧视频大语言模型(Video-LLMs)框架。这一框架专为提升AI对直播流视频的理解能力而设计,旨在满足机器人技术、自动驾驶等领域对实时感知与响应的迫切需求。

在以往,传统的视频大语言模型在处理视频内容时,往往局限于静态视频,难以适应需要即时反馈的复杂场景。尤其是在机器人操作和自动驾驶等应用中,AI系统需要迅速理解连续的直播视频流,并据此作出准确判断。然而,现有的模型在处理这类任务时,面临着两大核心挑战:一是如何在理解最新视频片段的同时,保留历史视觉和对话上下文;二是如何实现模型的主动监控功能,使其能在没有明确指令的情况下,自主输出反馈。

为了克服这些难题,苹果与复旦大学的科研团队联手开发了StreamBridge框架。该框架采用创新的内存缓冲区和轮次衰减压缩策略,有效支持了长上下文的交互处理。这一设计使得模型能够在处理实时视频流时,同时保留并有效利用历史信息,从而提高了理解的准确性和连贯性。

StreamBridge框架还引入了一个轻量化的独立激活模型。这一模型能够与现有的视频大语言模型无缝集成,赋予了模型主动响应的能力。这意味着,即使在没有明确指令的情况下,模型也能够像人类一样主动监控视频流,并在关键时刻及时输出反馈,从而大大提升了系统的实用性和灵活性。

为了验证StreamBridge框架的有效性,研究团队还推出了一个名为Stream-IT的数据集。该数据集包含了约60万个样本,融合了视频与文本序列,并支持多样化的指令格式。通过在这一数据集上进行训练和测试,研究团队能够更全面地评估和提升模型对流式视频的理解能力。

实验结果显示,StreamBridge框架在多个主流离线模型上均取得了显著的性能提升。特别是在Qwen2-VL模型上,其在OVO-Bench和Streaming-Bench上的平均分分别提高至71.30和77.04,甚至超越了GPT-4o和Gemini 1.5 Pro等专有模型。同时,Oryx-1.5模型也表现出了明显的性能改进,而LLaVA-OV模型虽然性能略有下降,但通过Stream-IT数据集的微调后,所有模型的表现均得到了进一步的提升。

这一研究成果不仅证明了StreamBridge框架在流式视频理解领域的强大潜力,也为未来的机器人技术、自动驾驶等应用领域提供了更加智能、高效的解决方案。随着技术的不断进步和完善,我们有理由相信,StreamBridge框架将在更多领域发挥重要作用,推动人工智能技术的持续发展和创新。

更多热门内容
火山引擎豆包大模型日均tokens调用量激增137倍,市场份额领跑
新榜讯6月11日,在火山引擎FORCE原动力大会现场,火山引擎总裁谭待透露,截至今年5月底,火山引擎豆包大模型tokens日均调用量高达16.4万亿,较发布时增长至137倍。据IDC市场数据显示,火山引擎占据…

2025-06-11

喜马拉雅并购案背后:共识下的抉择,应对行业变革的新起点
内容行业正经历三重深刻转变:注意力碎片化:多设备、多场景切换已成常态,内容的触达与匹配越来越依赖AI来实现跨平台、跨时间的精准分发;创作范式迁移:AIGC重构内容生产方式,效率突飞猛进,但真正引发共鸣的,依…

2025-06-11

蚂蚁数科天玑实验室升级,聚焦“AI+产业创新”推动深度融合
新榜讯 6月11日讯,2025年第九届数字金融与金融安全大会上,蚂蚁数科官宣天玑实验室完成全面升级,由原本的“数字身份安全实验室”摇身变为“人工智能+产业创新”实验室。该实验室将重点聚焦AI大模型在产业应用领…

2025-06-11