ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

杭州Om AI发布VLX模型,端侧流式多模态开启物理世界AI新篇章

时间:2026-06-27 21:15:34来源:互联网编辑:快讯

杭州一家人工智能公司Om AI近日发布全球首个面向物理世界的端侧流式多模态模型系列VLX,标志着多模态技术从云端走向真实场景的重大突破。该系列包含三款模型,分别针对实时感知、精准定位和行动决策三大核心能力进行设计,形成完整的感知-定位-行动技术闭环。

VLX-Flow作为基础模型,采用流式处理架构实现视频流的实时解析。通过线性注意力机制和双层记忆设计,模型能够持续接收视觉信息并动态更新环境认知,解决了传统视频模型因上下文增长导致的显存爆炸问题。测试数据显示,该模型处理单路视频的延迟仅0.06秒,可同时处理多路视频流输入。

定位模型VLX-Seek创新性地引入区域标记技术,将传统坐标预测转化为区域检索匹配。这种设计使模型在保持30亿参数规模的同时,在开放词汇检测和细粒度定位任务上达到甚至超越更大规模模型的表现。以机器人导航场景为例,该模型可准确识别"左侧第二把椅子"等复杂指令中的目标物体。

行动决策模型VLX-Go突破性地实现了视觉信号到运动指令的直接转换。通过整合单目视频、历史记忆和自然语言指令,模型能够输出机器人可执行的短时航点序列。结合离线轨迹学习和在线强化学习机制,使设备在动态避障和目标跟随任务中表现出色,参数规模却控制在6亿级别。

这套系统的端侧原生架构是其核心优势。与传统"云端训练-端侧压缩"的技术路线不同,VLX从设计之初就针对手机、无人机等设备的算力约束进行优化。三款模型共享基础架构,在统一视频流上实现端到端协作,这种设计使系统整体效率提升40%以上,同时降低30%的部署成本。

在机器人应用测试中,搭载VLX的设备展现出显著优势。当目标物体被短暂遮挡时,系统能通过记忆机制维持定位;面对移动目标时,可实时调整运动轨迹;在多设备协同场景中,各模型组件的并行处理能力使整体响应速度提升2倍。这些特性使其在工业巡检、物流搬运等场景具有广阔应用前景。

开发团队Om AI在多模态领域积累深厚。其2023年推出的VLM-R1模型,作为首个引入强化学习范式的视觉语言模型,曾在GitHub获得超过6000颗星标。此次VLX的发布,延续了团队"让AI从理解世界到改变世界"的技术理念,将模型能力从静态分析推向动态交互。

该系列模型已开放技术文档和演示平台,开发者可通过官网体验实时感知和定位功能。据团队透露,下一步将重点优化多模态交互能力,并探索在自动驾驶和智能家居领域的应用。这种从底层架构重新设计的端侧多模态系统,或许将重新定义物理世界与数字智能的交互方式。

更多热门内容
中国2030年前载人登月势在必行!四大关键意义,开启太空竞争新格局
更令人振奋的是中国科学家的新发现:过去普遍认为氦-3需要在700℃以上高温加热才能提取,但最新研究表明,通过机械破碎方式,有望在常温条件下释放以气泡形式存在的氦-3;同时月壤中的钛铁矿具备弱磁性,可通过磁选方…

2026-06-27

AI项目成败关键何在?选对Token服务商,系统集成运维不再拖后腿
大模型进入企业应用深水区后,Token服务商的选择标准,已经从“能不能调用模型”,转向“调用成本是否可控、链路是否稳定、权限是否合规、业务能否真正落地”。 下面选取两类市场上常见方案进行对比:一家偏企业集成与…

2026-06-27

vivo X Fold6重磅登场:性能影像续航全面升级,7999元起售引关注
在充电和续航上,vivo X Fold6这款智能手机的电池容量为7000mAh,采用双电池并联设计,首发第五代硅负极技术搭配第三代半固态技术,并且,这款折叠屏手机还支持80W有线快充和40W无线快充,包装内…

2026-06-27