国产大模型阶跃星辰：在全球最难LLM基准测试中夺冠！-人工智能-ITBear科技资讯

【ITBEAR】在近期公布的LLM基准测试项目LiveBench的官方榜单上，中国大模型“六小虎”成员之一——阶跃星辰的大语言模型step-2-16k-202411，以卓越表现夺得全球第五、国产第一的佳绩。这一成就不仅标志着中国AI技术的飞速进步，也彰显了阶跃星辰在AI领域的深厚底蕴。

▲LiveBench榜单总评分前15名

LiveBench项目，由Abacus.AI主导，并吸引了图灵奖得主、meta首席AI科学家杨立昆的参与，因其严格的评测标准和每月更新的题库，被誉为“最难糊弄的LLMs基准测试”。这一项目不仅要求大模型具备全面的能力，还强调测试的公正性和真实性，有效避免了测试集污染等问题。

阶跃星辰的step-2-16k-202411，在LiveBench的六类别任务中，尤其在指令跟随（IF Average）方面，以86.57的高分力压群雄，甚至超过了OpenAI的o1-preview-2024-09-12。这一成绩不仅体现了step-2-16k-202411在语言生成上的精准控制力，更展示了其强大的理解和遵循人类指令的能力。

▲LiveBench官网博客

阶跃星辰的step-2-16k-202411，是该公司自研的万亿参数MoE大语言模型。在设计过程中，阶跃星辰放弃了upcycle（向上复用）路径，选择了从头开始训练的艰难道路。通过部分专家共享参数、异构化专家设计等创新手段，阶跃星辰成功构建了Step-2 MoE架构，不仅提升了模型的性能，还确保了每个“专家模型”都能得到充分训练。

今年3月，Step-2预览版发布，成为国内首个由创业公司发布的万亿参数MoE大语言模型。随后，在7月的世界人工智能大会上，Step-2正式发布，其出色的数理逻辑、编程、世界知识、指令跟随等能力，全面逼近GPT-4，引发了业界的广泛关注。

阶跃星辰的Step系列模型，除了万亿MoE大语言模型Step-2外，还包括多模态理解大模型Step-1.5V、图像生成模型Step-1X等，形成了全面的模型矩阵。同时，阶跃星辰还推出了C端应用“跃问”和“冒泡鸭”，将AI技术应用于实际生活中，为用户提供了更加便捷、智能的服务。

阶跃星辰的成立时间虽短，但其在AI领域的深耕细作，使其在短时间内取得了显著的成果。此次在LiveBench榜单上的优异表现，不仅是对阶跃星辰技术实力的肯定，更是对中国AI产业发展的鼓舞。在全球AI赛场上，国产大模型正逐渐崭露头角，展现出强大的竞争力和发展潜力。