京东视觉语言实时交互模型JoyAI-VL-Interaction将开源多场景评测表现亮眼-业界动态-ITBear科技资讯

京东研发团队即将推出一款名为JoyAI-VL-Interaction的视觉语言实时交互模型，该模型将多模态大模型的应用场景从传统的"一问一答"模式升级为"实时流式交互"，为需要AI持续参与的场景提供了新的解决方案。这一突破性进展在开源社区和海外AI技术领域引发了广泛关注。

根据技术报告显示，JoyAI-VL-Interaction在六类核心场景中展现了显著优势，包括监控预警、实时计数、实时翻译、时间感知、直播解说与引导以及长程记忆。通过与豆包、Gemini的App内视频通话助手进行人工评测对比，该模型在58个测试案例中表现出色：对豆包的总体胜率达到77.6%，对Gemini的胜率更高达87.9%。尤其在监控预警场景中，JoyAI-VL-Interaction实现了对两个基线模型的100%胜率。

这款模型的创新之处在于其能够处理连续的视觉语言数据流，而非传统的单轮交互。例如在直播解说场景中，它可以实时识别画面内容并生成精准解说；在工业监控场景中，能持续分析视频流并即时发出异常预警。技术团队表示，这种实时交互能力得益于模型对时空信息的深度理解，使其能够建立跨模态的长程记忆。

评测数据显示，在实时计数任务中，JoyAI-VL-Interaction的准确率比竞品高出15-20个百分点；在需要跨时间维度理解的场景中，其表现优势更为明显。研究团队特别指出，模型在处理长达数分钟的连续视频时，仍能保持上下文关联的准确性，这为复杂场景的AI应用开辟了新可能。目前该模型的技术文档已在专业社区公开，供开发者深入研究。

京东视觉语言实时交互模型JoyAI-VL-Interaction将开源 多场景评测表现亮眼

京东视觉语言实时交互模型JoyAI-VL-Interaction将开源多场景评测表现亮眼