小米科技近期推出的MiMo-VL多模态人工智能模型,在多个技术领域内展现出了非凡的能力,成功接棒了先前的MiMo-7B模型。该模型在图像、视频以及语言理解等多模态任务上的表现,显著超越了同级别的标杆模型Qwen2.5-VL-7B。尤为在GUI Grounding这一特定任务上,MiMo-VL的表现甚至能够与专业模型相抗衡,预示着它在迎接智能体(Agent)时代方面已做好了充分准备。
在涉及多模态推理的挑战中,MiMo-VL-7B模型的表现尤为亮眼。尽管其参数规模仅为70亿,却在奥林匹克竞赛基准测试(OlympiadBench)以及多个数学竞赛(如MathVision和MathVerse)中,大幅领先参数规模达到其十倍的阿里模型Qwen-2.5-VL-72B和QVQ-72B-Preview。同时,它还超越了非开源的GPT-4o模型。在小米内部的大模型竞技场真实用户体验评估中,MiMo-VL-7B同样超越了GPT-4o,成为了开源模型中的领先者。
在实际应用场景中,MiMo-VL-7B展现出了卓越的复杂图像推理和问答能力。在涉及多达十几步的GUI操作中,该模型也表现出了不俗的潜力。例如,它能够帮助用户将小米SU7商品添加到心愿列表中,这一功能在实际应用中极具价值。MiMo-VL-7B之所以拥有如此全面的视觉感知能力,主要得益于其高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。
为了构建这一多模态模型,小米收集了涵盖图像-文本对、视频-文本对以及GUI操作序列等多种数据类型的高质量预训练数据,总量达到了2.4万亿个tokens。这些数据经过了严格的清洗和合成处理。在预训练过程中,小米还通过分阶段调整不同类型数据的比例,进一步强化了模型的长程多模态推理能力。混合在线强化学习算法融合了文本推理、多模态感知与推理以及人类反馈强化学习(RLHF)等多种反馈信号,并通过在线强化学习算法稳定加速训练过程,从而全方位提升了模型的推理、感知性能和用户体验。
更多关于MiMo-VL模型的信息,可以访问相关链接:https://huggingface.co/XiaomiMiMo。