在杭州举办的蚂蚁技术开放日上,蚂蚁集团宣布了一项重大技术突破——开源理解与生成统一多模态大模型Ming-lite-omni。这一创新模型将理解和生成功能集于一身,不仅能够同时处理这两项任务,还能独立运作,为用户提供前所未有的全模态交互体验。
据蚂蚁集团基础智能负责人西亭介绍,Ming-lite-omni具有三大显著创新点。首先,它首次将理解和生成模型整合进一个框架内,实现了前所未有的统一。其次,该模型支持全模态输入和输出,无论是音视频、图像还是文字,都能轻松应对。最后,Ming-lite-omni采用了MoE架构,保证了模型的强大交互性,没有添加任何额外的中间环节。
西亭进一步透露,团队致力于打造一个能够媲美GPT-4o的开源全模态模型。尽管GPT-4o是一个闭源模型,但蚂蚁团队设定了高标准,希望Ming-lite-omni能够接近其交互能力,并完全开源,供全球开发者使用。
在开放日活动上,阿里集团副总裁、全球顶尖AI科学家许主洪也发表了演讲。他指出,当前多模态大模型的一个重要发展趋势是使用统一的框架来处理理解和生成任务。这一领域仍处于初级阶段,需要更多的实践验证。Ming-lite-omni正是这一趋势下的代表性实践之一。
面对统一理解与生成的多模态大模型所带来的技术挑战,蚂蚁团队展现了强大的创新力。全模态交互的公开单模型在市场上非常罕见,而图像和语意的理解与生成统一模型更是寥寥无几,且效果难以平衡。Ming-lite-omni的出现,无疑为这一领域注入了新的活力。
蚂蚁集团之所以选择在此时开源Ming-lite-omni,西亭表示,这是受到业界开源精神的启发,旨在回馈社区。他强调,简洁而统一是技术之美,Ming-lite-omni正是将多模态的复杂性以更简洁的形式呈现。对于蚂蚁的AGI事业部来说,最好的AGI就是最好的产品,而用户选择一款模型的理由,正是其卓越的智能能力。
除了Ming-lite-omni,蚂蚁集团今年还开源了多款模型,包括Ling-lite-1.5语言大模型、推理模型Ring-lite-1.5和Ring-lite-linear。这些模型在各自领域都取得了显著成果,进一步提升了蚂蚁在AI领域的影响力。
在行业大模型方面,蚂蚁集团也取得了新进展。其AI健康管家即将上线新版本,通过高质量数据资源和专业标注团队的优化,将为用户提供更专业的健康服务。这一应用与卫健委合作开发,主打“AI就医助理”、“AI健康咨询”和“AI家庭医生顾问”三大功能,旨在成为用户的健康助理。
蚂蚁集团在527技术开放日上公布的一系列大模型新进展,不仅展示了其在AGI时代的创新实力,也体现了其将挑战转化为机遇的决心。通过不断追求智能能力的上限,蚂蚁AGI团队正在打造统一多模态的AGI产品,并加速开源步伐,联合社区力量共同推进大模型产业的发展。