杭州一家人工智能公司Om AI近日发布全球首个面向物理世界的端侧流式多模态模型系列VLX,标志着多模态技术从云端走向真实场景的重大突破。该系列包含三款模型,分别针对实时感知、精准定位和行动决策三大核心能力进行设计,形成完整的感知-定位-行动技术闭环。
VLX-Flow作为基础模型,采用流式处理架构实现视频流的实时解析。通过线性注意力机制和双层记忆设计,模型能够持续接收视觉信息并动态更新环境认知,解决了传统视频模型因上下文增长导致的显存爆炸问题。测试数据显示,该模型处理单路视频的延迟仅0.06秒,可同时处理多路视频流输入。
定位模型VLX-Seek创新性地引入区域标记技术,将传统坐标预测转化为区域检索匹配。这种设计使模型在保持30亿参数规模的同时,在开放词汇检测和细粒度定位任务上达到甚至超越更大规模模型的表现。以机器人导航场景为例,该模型可准确识别"左侧第二把椅子"等复杂指令中的目标物体。
行动决策模型VLX-Go突破性地实现了视觉信号到运动指令的直接转换。通过整合单目视频、历史记忆和自然语言指令,模型能够输出机器人可执行的短时航点序列。结合离线轨迹学习和在线强化学习机制,使设备在动态避障和目标跟随任务中表现出色,参数规模却控制在6亿级别。
这套系统的端侧原生架构是其核心优势。与传统"云端训练-端侧压缩"的技术路线不同,VLX从设计之初就针对手机、无人机等设备的算力约束进行优化。三款模型共享基础架构,在统一视频流上实现端到端协作,这种设计使系统整体效率提升40%以上,同时降低30%的部署成本。
在机器人应用测试中,搭载VLX的设备展现出显著优势。当目标物体被短暂遮挡时,系统能通过记忆机制维持定位;面对移动目标时,可实时调整运动轨迹;在多设备协同场景中,各模型组件的并行处理能力使整体响应速度提升2倍。这些特性使其在工业巡检、物流搬运等场景具有广阔应用前景。
开发团队Om AI在多模态领域积累深厚。其2023年推出的VLM-R1模型,作为首个引入强化学习范式的视觉语言模型,曾在GitHub获得超过6000颗星标。此次VLX的发布,延续了团队"让AI从理解世界到改变世界"的技术理念,将模型能力从静态分析推向动态交互。
该系列模型已开放技术文档和演示平台,开发者可通过官网体验实时感知和定位功能。据团队透露,下一步将重点优化多模态交互能力,并探索在自动驾驶和智能家居领域的应用。这种从底层架构重新设计的端侧多模态系统,或许将重新定义物理世界与数字智能的交互方式。