苹果复旦联手打造StreamBridge，突破流式视频理解技术瓶颈-人工智能-ITBear科技资讯

近期，科技界迎来了一项创新突破，苹果公司携手复旦大学，共同推出了StreamBridge端侧视频大语言模型（Video-LLMs）框架。这一框架专为提升AI对直播流视频的理解能力而设计，旨在满足机器人技术、自动驾驶等领域对实时感知与响应的迫切需求。

在以往，传统的视频大语言模型在处理视频内容时，往往局限于静态视频，难以适应需要即时反馈的复杂场景。尤其是在机器人操作和自动驾驶等应用中，AI系统需要迅速理解连续的直播视频流，并据此作出准确判断。然而，现有的模型在处理这类任务时，面临着两大核心挑战：一是如何在理解最新视频片段的同时，保留历史视觉和对话上下文；二是如何实现模型的主动监控功能，使其能在没有明确指令的情况下，自主输出反馈。

为了克服这些难题，苹果与复旦大学的科研团队联手开发了StreamBridge框架。该框架采用创新的内存缓冲区和轮次衰减压缩策略，有效支持了长上下文的交互处理。这一设计使得模型能够在处理实时视频流时，同时保留并有效利用历史信息，从而提高了理解的准确性和连贯性。

StreamBridge框架还引入了一个轻量化的独立激活模型。这一模型能够与现有的视频大语言模型无缝集成，赋予了模型主动响应的能力。这意味着，即使在没有明确指令的情况下，模型也能够像人类一样主动监控视频流，并在关键时刻及时输出反馈，从而大大提升了系统的实用性和灵活性。

为了验证StreamBridge框架的有效性，研究团队还推出了一个名为Stream-IT的数据集。该数据集包含了约60万个样本，融合了视频与文本序列，并支持多样化的指令格式。通过在这一数据集上进行训练和测试，研究团队能够更全面地评估和提升模型对流式视频的理解能力。

实验结果显示，StreamBridge框架在多个主流离线模型上均取得了显著的性能提升。特别是在Qwen2-VL模型上，其在OVO-Bench和Streaming-Bench上的平均分分别提高至71.30和77.04，甚至超越了GPT-4o和Gemini 1.5 Pro等专有模型。同时，Oryx-1.5模型也表现出了明显的性能改进，而LLaVA-OV模型虽然性能略有下降，但通过Stream-IT数据集的微调后，所有模型的表现均得到了进一步的提升。

这一研究成果不仅证明了StreamBridge框架在流式视频理解领域的强大潜力，也为未来的机器人技术、自动驾驶等应用领域提供了更加智能、高效的解决方案。随着技术的不断进步和完善，我们有理由相信，StreamBridge框架将在更多领域发挥重要作用，推动人工智能技术的持续发展和创新。

火山引擎豆包大模型日均tokens调用量激增137倍，市场份额领跑

新榜讯6月11日，在火山引擎FORCE原动力大会现场，火山引擎总裁谭待透露，截至今年5月底，火山引擎豆包大模型tokens日均调用量高达16.4万亿，较发布时增长至137倍。据IDC市场数据显示，火山引擎占据…

2025-06-11

喜马拉雅并购案背后：共识下的抉择，应对行业变革的新起点

内容行业正经历三重深刻转变：注意力碎片化：多设备、多场景切换已成常态，内容的触达与匹配越来越依赖AI来实现跨平台、跨时间的精准分发；创作范式迁移：AIGC重构内容生产方式，效率突飞猛进，但真正引发共鸣的，依…

2025-06-11

北电数智：以算力数据双引擎，树立城市级AI底座新标杆
2025-06-11

AI押题：是教育新机遇还是智慧陷阱？
2025-06-11

蚂蚁数科天玑实验室升级，聚焦“AI+产业创新”推动深度融合

新榜讯 6月11日讯，2025年第九届数字金融与金融安全大会上，蚂蚁数科官宣天玑实验室完成全面升级，由原本的“数字身份安全实验室”摇身变为“人工智能+产业创新”实验室。该实验室将重点聚焦AI大模型在产业应用领…

2025-06-11

高通骁龙AR1+ Gen1发布：智能眼镜迎来设备端AI新时代

2025-06-11