ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果复旦联手打造StreamBridge,突破流式视频理解技术瓶颈

时间:2025-05-13 15:41:18来源:ITBEAR编辑:快讯团队

近期,科技界迎来了一项创新突破,苹果公司携手复旦大学,共同推出了StreamBridge端侧视频大语言模型(Video-LLMs)框架。这一框架专为提升AI对直播流视频的理解能力而设计,旨在满足机器人技术、自动驾驶等领域对实时感知与响应的迫切需求。

在以往,传统的视频大语言模型在处理视频内容时,往往局限于静态视频,难以适应需要即时反馈的复杂场景。尤其是在机器人操作和自动驾驶等应用中,AI系统需要迅速理解连续的直播视频流,并据此作出准确判断。然而,现有的模型在处理这类任务时,面临着两大核心挑战:一是如何在理解最新视频片段的同时,保留历史视觉和对话上下文;二是如何实现模型的主动监控功能,使其能在没有明确指令的情况下,自主输出反馈。

为了克服这些难题,苹果与复旦大学的科研团队联手开发了StreamBridge框架。该框架采用创新的内存缓冲区和轮次衰减压缩策略,有效支持了长上下文的交互处理。这一设计使得模型能够在处理实时视频流时,同时保留并有效利用历史信息,从而提高了理解的准确性和连贯性。

StreamBridge框架还引入了一个轻量化的独立激活模型。这一模型能够与现有的视频大语言模型无缝集成,赋予了模型主动响应的能力。这意味着,即使在没有明确指令的情况下,模型也能够像人类一样主动监控视频流,并在关键时刻及时输出反馈,从而大大提升了系统的实用性和灵活性。

为了验证StreamBridge框架的有效性,研究团队还推出了一个名为Stream-IT的数据集。该数据集包含了约60万个样本,融合了视频与文本序列,并支持多样化的指令格式。通过在这一数据集上进行训练和测试,研究团队能够更全面地评估和提升模型对流式视频的理解能力。

实验结果显示,StreamBridge框架在多个主流离线模型上均取得了显著的性能提升。特别是在Qwen2-VL模型上,其在OVO-Bench和Streaming-Bench上的平均分分别提高至71.30和77.04,甚至超越了GPT-4o和Gemini 1.5 Pro等专有模型。同时,Oryx-1.5模型也表现出了明显的性能改进,而LLaVA-OV模型虽然性能略有下降,但通过Stream-IT数据集的微调后,所有模型的表现均得到了进一步的提升。

这一研究成果不仅证明了StreamBridge框架在流式视频理解领域的强大潜力,也为未来的机器人技术、自动驾驶等应用领域提供了更加智能、高效的解决方案。随着技术的不断进步和完善,我们有理由相信,StreamBridge框架将在更多领域发挥重要作用,推动人工智能技术的持续发展和创新。

更多热门内容
中国AI大模型四月风云:大厂激战,创新突破引领产业新潮流
例如,腾讯将混元大模型研发体系重组为语言与多模态两大部门,强化垂直场景协同;阿里开源Qwen3系列模型,并全面支持MCP协议,推动模型与支付宝、高德地图等生态工具的深度整合,凸显低成本与开源策略的技术普惠性…

2025-05-13