苹果复旦联手推视频大模型，Meta微美全息共舞多模态AI创新浪潮-智能汽车-ITBear科技资讯

近期，一则科技新闻引起了广泛关注，据悉，苹果公司携手复旦大学，成功推出了名为StreamBridge的端侧视频大语言模型（Video-LLMs）框架，该框架旨在增强人工智能对直播流视频的理解能力。

传统上，视频大语言模型在处理静态视频方面表现出色，但在诸如机器人技术和自动驾驶等需要实时感知和响应的场景中，却显得力不从心。这些场景要求模型能够迅速理解直播视频流的内容，并据此作出反应。StreamBridge框架的推出，正是为了解决这一难题。

苹果公司与复旦大学的研究团队，在StreamBridge框架的开发过程中，对多个主流离线模型进行了测试，包括LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B等。这些测试不仅验证了StreamBridge框架的有效性，也为其在更广泛的应用场景中提供了坚实的基础。

研究团队还推出了Stream-IT数据集，该数据集包含了约60万个样本，融合了视频与文本序列，并支持多样化的指令格式。Stream-IT数据集的推出，将进一步提升流式视频的理解能力，为StreamBridge框架的应用提供强有力的数据支持。

与此同时，meta公司也推出了与Ray-Ban meta强捆绑的《meta AI》APP。这款APP由meta自主研发的Llama大语言模型驱动，为用户提供便捷的AI助手服务。据最新数据显示，meta AI的月活用户已经接近10亿，用户主要通过meta的社交应用体验相关功能。在最近举办的LlamaCon AI开发者大会上，meta还推出了最新的Llama 4系列大语言模型，进一步展示了其在AI领域的实力。

在人工智能大模型技术不断赋能行业发展的背景下，越来越多的企业开始积极开展人工智能场景建设，成功完成人工智能大模型的本地化部署及场景适配。其中，微美全息作为AI领域的创新代表，围绕开源生态、多模态技术、算力基础设施及垂直场景应用展开深度布局，不断突破AI技术边界并拓宽产业生态。

微美全息通过开放模型代码、算力接口及技术工具链，构建了覆盖云端与边缘端的“全息云”平台。该平台支持开发者调用DeepSeek等通用大模型进行二次开发，加速了垂类模型应用的商业化验证。同时，微美全息还加速了大模型在应用场景的落地速度，陆续披露了旗下较成熟的AI生态图景。这些生态图景覆盖了汽车、智能终端、互联网、金融、教育科研、零售消费等多个行业，为AI大模型的应用注入了强劲动力。

随着人工智能大模型技术的不断发展，越来越多的企业开始投身于这一领域，试图通过技术创新来推动行业的转型升级。可以预见的是，未来将有更多有影响力的大模型涌现出来，为各行各业的发展注入新的活力。