ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

京东全球首开源全栈实时视频视觉语言交互模型JoyAI-VL-Interaction 赋能多场景AI助手

时间:2026-06-22 21:42:50来源:快讯编辑:快讯

京东近日宣布正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction,并同步获得vLLM-Omni框架的day-0原生支持。这一突破性技术标志着大模型应用从传统的"问答式交互"向"主动感知型交互"迈出关键一步,开发者可基于该框架快速构建具备环境感知能力的智能助手。

该模型实现了三大核心技术创新:首先突破传统模型的被动响应模式,通过持续视频流分析实现自主决策,无需等待用户提问即可判断交互时机;其次在实时性方面取得突破,针对安防预警、实时翻译等场景,可在画面变化瞬间完成响应,彻底改变传统视频分析"事后处理"的局限;第三创新设计了智能体委托机制,当遇到复杂任务时,前台模型保持环境观察,后台模型同步处理代码生成、工具调用等任务,形成高效协作的"双脑"架构。

技术架构层面,该系统支持多模态输入输出,包括摄像头、直播流、监控视频等视频源,以及语音交互、可视化界面等交互方式。其模块化设计允许开发者自由替换ASR语音识别、TTS语音合成、后台模型等组件,甚至可接入自定义业务系统。这种高度灵活性使其既能用于学术研究,也可快速适配安防监控、老人看护、直播解说、电商导购等20余个垂直场景。

在真实场景测试中,该模型展现出显著优势。针对监控预警、实时计数、多语言翻译等58个流式交互场景的盲测显示,与豆包视频通话助手相比取得77.6%的胜率,较Gemini视频通话助手更达到87.9%的胜率。测试特别强化了视觉触发响应和实时性两个维度,验证了模型在动态环境中的可靠性和效率。

目前,京东已完整开源模型代码、训练框架及部署方案,并提供vLLM部署工具包。开发者可基于现有组件快速搭建个性化AI助手,例如将语音服务替换为科大讯飞方案,或接入自研的Agent系统。这种开放生态策略有望推动实时交互技术在更多领域的创新应用,特别是在需要人机协同的复杂场景中展现价值。

更多热门内容
小米18系列发布有新动态:Pro版先发标准版随后,背屏与AI按键成亮点
【太平洋科技】有爆料称,小米调整了小米18系列的发布顺序,今年9月将优先发布顶配小米18Pro,后续再上线小米18标准版,两款机型间隔不长,均会在今年春节前完成上市开售。 据数码博主“智慧皮卡丘”爆料,…

2026-06-22

小米18 Pro Max主摄新突破:2亿像素超大底搭配LOFIC HDR 3.0技术登场
这意味着,与前代小米 17 Pro Max 相比,像素拉到 2 亿,还支持更高动态范围。 不过 105dB也不能说就是在同尺寸无敌,横向看,同为 1/1.28 英寸的索尼 LYTIA L910 是 5000…

2026-06-22

120元捡漏骁龙845+10G内存双屏机!vivo NEX二手实测:划痕多但续航稳
像vivo NEX双屏版很容易出现主屏或副屏损坏的情况,我买的这台是副屏坏了,主屏正常。 我买的这台是主屏完好,开价155元,被我一刀砍到120元包邮(实付119.9是蹦出个0.1的支付优惠),承诺收货1小时…

2026-06-22

广州苹果手机应急寄存指南:选正规直营机构,看透明流程与全额赔付保障
押呗的验机工程师会拆开机器,用电流表读取主板在开机跳变、待机、快充全负载下的毫安值,一旦发现主板有轻微短路或漏电,哪怕表面功能全好,额度也会被理性下调。在押呗 的评估模型里,这属于“核心功能缺失”,机器会进…

2026-06-22

珞石机器人:全矩阵布局领航,从国内龙头迈向全球智能新势力
灼识咨询报告显示,2025年,按销量计,珞石多关节机器人在中国市场国内制造商中排名第三、全球制造商中排名第七;在柔性协作机器人和轻负载工业机器人领域,其更以47.0%和5.8%的市场份额双双登顶中国第一。 …

2026-06-22

XREAL AURA空间计算眼镜发布 开启沉浸式体验新纪元助力“浦东智造”
该产品基于Android XR平台打造,是XREAL与谷歌及高通技术公司合作推出的下一代空间计算眼镜。 XREAL计划进一步深耕上海,通过强化与本地上下游企业的技术协同,不仅实现“在上海、为全球”,更要助力上…

2026-06-22

小米YU7 GT纽北自动驾驶圈速破纪录:高性能配置与智能驾驶的完美融合
消息,小米汽车今日官宣,小米 YU7 GT 达成全球首个纽北自动驾驶圈速纪录,时间为 10 分 29 秒 483。官方现已公布小米 YU7 GT第一视角,感受全球首个纽北自动驾驶圈速纪录的诞生。 注意到,小…

2026-06-22