京东近日宣布正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction,并同步获得vLLM-Omni框架的初始原生支持。这一突破性成果标志着大模型应用从被动响应转向主动交互,开发者可基于该框架快速构建具备持续观察与实时决策能力的智能助手。
与传统模型依赖用户提问的被动模式不同,JoyAI-VL-Interaction通过持续分析视频流实现自主判断。例如在安防场景中,系统可主动识别异常行为并触发预警,无需等待人工指令;在直播解说场景中,能根据画面变化即时生成解说内容,响应延迟控制在毫秒级。这种主动交互能力源于模型内置的动态决策机制,使其能够区分需要即时响应的场景与可暂缓处理的情况。
该系统的另一核心创新在于多任务协同处理架构。当遇到复杂计算需求(如代码生成、逻辑推理)时,前台模型会智能委托后台大模型或专用Agent执行任务,期间保持对视频流的持续监控。任务完成后,系统能无缝衔接对话上下文,实现"观察-委托-反馈"的闭环交互。这种设计既保证了实时性,又突破了单模型处理能力的限制。
技术文档显示,JoyAI-VL-Interaction支持多模态输入输出,包括摄像头实时流、直播信号、监控视频等视频源,以及语音交互和可视化界面。其模块化设计允许开发者自由替换语音识别(ASR)、语音合成(TTS)、后台模型等组件,甚至可接入自定义业务系统。这种灵活性使其适用于安防监控、老年看护、电商导购、工业操作指导等20余个垂直领域。
在真实场景测试中,该模型展现出显著优势。对比豆包视频通话助手,在58个涉及实时响应的测试案例中取得77.6%的胜率;面对Gemini视频通话助手时,胜率更提升至87.9%。测试场景涵盖监控预警、实时计数、多语言翻译、时间感知等高要求任务,充分验证了模型在动态环境中的可靠性。
目前,京东已开放完整技术资源:代码库托管于GitHub平台,预训练模型及演示版本上传至Hugging Face社区,配套数据集也同步公开。开发者可通过以下链接获取完整开发套件:代码仓库(https://github.com/jd-opensource/JoyAI-VL-Interaction)、模型预览(https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview)、数据集(https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction)。