ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果复旦联手推视频大模型,Meta微美全息共舞多模态AI创新浪潮

时间:2025-05-20 16:01:13来源:ITBEAR编辑:快讯团队

近期,一则科技新闻引起了广泛关注,据悉,苹果公司携手复旦大学,成功推出了名为StreamBridge的端侧视频大语言模型(Video-LLMs)框架,该框架旨在增强人工智能对直播流视频的理解能力。

传统上,视频大语言模型在处理静态视频方面表现出色,但在诸如机器人技术和自动驾驶等需要实时感知和响应的场景中,却显得力不从心。这些场景要求模型能够迅速理解直播视频流的内容,并据此作出反应。StreamBridge框架的推出,正是为了解决这一难题。

苹果公司与复旦大学的研究团队,在StreamBridge框架的开发过程中,对多个主流离线模型进行了测试,包括LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B等。这些测试不仅验证了StreamBridge框架的有效性,也为其在更广泛的应用场景中提供了坚实的基础。

研究团队还推出了Stream-IT数据集,该数据集包含了约60万个样本,融合了视频与文本序列,并支持多样化的指令格式。Stream-IT数据集的推出,将进一步提升流式视频的理解能力,为StreamBridge框架的应用提供强有力的数据支持。

与此同时,meta公司也推出了与Ray-Ban meta强捆绑的《meta AI》APP。这款APP由meta自主研发的Llama大语言模型驱动,为用户提供便捷的AI助手服务。据最新数据显示,meta AI的月活用户已经接近10亿,用户主要通过meta的社交应用体验相关功能。在最近举办的LlamaCon AI开发者大会上,meta还推出了最新的Llama 4系列大语言模型,进一步展示了其在AI领域的实力。

在人工智能大模型技术不断赋能行业发展的背景下,越来越多的企业开始积极开展人工智能场景建设,成功完成人工智能大模型的本地化部署及场景适配。其中,微美全息作为AI领域的创新代表,围绕开源生态、多模态技术、算力基础设施及垂直场景应用展开深度布局,不断突破AI技术边界并拓宽产业生态。

微美全息通过开放模型代码、算力接口及技术工具链,构建了覆盖云端与边缘端的“全息云”平台。该平台支持开发者调用DeepSeek等通用大模型进行二次开发,加速了垂类模型应用的商业化验证。同时,微美全息还加速了大模型在应用场景的落地速度,陆续披露了旗下较成熟的AI生态图景。这些生态图景覆盖了汽车、智能终端、互联网、金融、教育科研、零售消费等多个行业,为AI大模型的应用注入了强劲动力。

随着人工智能大模型技术的不断发展,越来越多的企业开始投身于这一领域,试图通过技术创新来推动行业的转型升级。可以预见的是,未来将有更多有影响力的大模型涌现出来,为各行各业的发展注入新的活力。

更多热门内容