ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

京东视觉语言实时交互模型JoyAI-VL-Interaction将开源 多场景评测表现亮眼

时间:2026-06-17 16:24:58来源:互联网编辑:快讯

京东研发团队即将推出一款名为JoyAI-VL-Interaction的视觉语言实时交互模型,该模型将多模态大模型的应用场景从传统的"一问一答"模式升级为"实时流式交互",为需要AI持续参与的场景提供了新的解决方案。这一突破性进展在开源社区和海外AI技术领域引发了广泛关注。

根据技术报告显示,JoyAI-VL-Interaction在六类核心场景中展现了显著优势,包括监控预警、实时计数、实时翻译、时间感知、直播解说与引导以及长程记忆。通过与豆包、Gemini的App内视频通话助手进行人工评测对比,该模型在58个测试案例中表现出色:对豆包的总体胜率达到77.6%,对Gemini的胜率更高达87.9%。尤其在监控预警场景中,JoyAI-VL-Interaction实现了对两个基线模型的100%胜率。

这款模型的创新之处在于其能够处理连续的视觉语言数据流,而非传统的单轮交互。例如在直播解说场景中,它可以实时识别画面内容并生成精准解说;在工业监控场景中,能持续分析视频流并即时发出异常预警。技术团队表示,这种实时交互能力得益于模型对时空信息的深度理解,使其能够建立跨模态的长程记忆。

评测数据显示,在实时计数任务中,JoyAI-VL-Interaction的准确率比竞品高出15-20个百分点;在需要跨时间维度理解的场景中,其表现优势更为明显。研究团队特别指出,模型在处理长达数分钟的连续视频时,仍能保持上下文关联的准确性,这为复杂场景的AI应用开辟了新可能。目前该模型的技术文档已在专业社区公开,供开发者深入研究。

更多热门内容
苹果Siri AI与谷歌Gemini深度较量:隐私本地化VS算力云端化的博弈之路
在本地私密数据的理解与执行上,Siri AI展现出压倒性优势。 此次实测揭示了个人计算未来的两条路径:苹果致力于构建安全、深度集成的本地系统协调器,将设备视为私密庇护所;谷歌则打磨普遍可访问的云端超级智能,…

2026-06-17

谷歌Android 17系统登场:多任务等升级亮相,AI新功能夏季起分批上线
与Android手机一样,Wear OS 7也将在今年夏季晚些时候获得新的Gemini Intelligence功能,包括Create My Widget(AI生成小组件)、多步骤应用自动化操作、全新设计的…

2026-06-17

谷歌Android 17正式版来袭:AI深度融合,多设备联动开启智能新体验
本次新版系统将率先搭载于谷歌自家 Pixel 系列设备,同步上线 Pixel 专属功能更新包,新增多项 AI相关功能,包括对最新人工智能模型的支持,如音乐生成模型 Lyria 3、多模态大模型 Gemini…

2026-06-17

百度搭子DuMate登陆苹果App Store,多端协同开启AI协作新体验
百度旗下AI协作应用DuMate正式完成全平台覆盖,其iOS版本近日在苹果App Store全面上线。此前该应用已通过安卓版本率先落地,此次iOS端的推出标志着用户可在主流移动操作系统上无缝使用AI协作服务,突破了设备类型对智能办公场景的限制。作为百度AI生态的核心入口之一,D

2026-06-17

阿里发布Qwen-Robot系列具身智能大模型 助力机器人“手脑脚”协同进化
VLA(Vision-Language-Action,视觉-语言-动作)模型是当前具身智能最核心基础模型之一,它将视觉感知、语言理解和动作决策融合,让机器人看得懂、能动手。 Qwen-RobotWorld…

2026-06-17

司庆日展现AI新进展,科大讯飞多领域布局角逐全球科技之巅
走过27年,科大讯飞正在把"能理解、会思考"延伸到"能干活、能感知"。在刚过去的司庆日,这家公司以几项实质进展,勾勒出其AI产业化纵深布局的完整轮廓。首先是工业具身智能的突破。其次是消费端AI眼镜的即将落地,…

2026-06-17

雷军15小时直播无疲惫感:热爱成动力,实干创业者值得深思与学习
#雷军称 15 小时直播没觉得辛苦 #直播结束后的专访内容刷屏全网,长达十五小时不间断超长直播带货,全程保持饱满状态,互动讲解、产品演示、福利发放全程在线,结束后采访被问及超长时长直播是否疲惫时,雷军直言完全…

2026-06-17