【ITBEAR】在近期公布的LLM基准测试项目LiveBench的官方榜单上,中国大模型“六小虎”成员之一——阶跃星辰的大语言模型step-2-16k-202411,以卓越表现夺得全球第五、国产第一的佳绩。这一成就不仅标志着中国AI技术的飞速进步,也彰显了阶跃星辰在AI领域的深厚底蕴。
▲LiveBench榜单总评分前15名
LiveBench项目,由Abacus.AI主导,并吸引了图灵奖得主、meta首席AI科学家杨立昆的参与,因其严格的评测标准和每月更新的题库,被誉为“最难糊弄的LLMs基准测试”。这一项目不仅要求大模型具备全面的能力,还强调测试的公正性和真实性,有效避免了测试集污染等问题。
阶跃星辰的step-2-16k-202411,在LiveBench的六类别任务中,尤其在指令跟随(IF Average)方面,以86.57的高分力压群雄,甚至超过了OpenAI的o1-preview-2024-09-12。这一成绩不仅体现了step-2-16k-202411在语言生成上的精准控制力,更展示了其强大的理解和遵循人类指令的能力。
▲LiveBench官网博客
阶跃星辰的step-2-16k-202411,是该公司自研的万亿参数MoE大语言模型。在设计过程中,阶跃星辰放弃了upcycle(向上复用)路径,选择了从头开始训练的艰难道路。通过部分专家共享参数、异构化专家设计等创新手段,阶跃星辰成功构建了Step-2 MoE架构,不仅提升了模型的性能,还确保了每个“专家模型”都能得到充分训练。
今年3月,Step-2预览版发布,成为国内首个由创业公司发布的万亿参数MoE大语言模型。随后,在7月的世界人工智能大会上,Step-2正式发布,其出色的数理逻辑、编程、世界知识、指令跟随等能力,全面逼近GPT-4,引发了业界的广泛关注。
阶跃星辰的Step系列模型,除了万亿MoE大语言模型Step-2外,还包括多模态理解大模型Step-1.5V、图像生成模型Step-1X等,形成了全面的模型矩阵。同时,阶跃星辰还推出了C端应用“跃问”和“冒泡鸭”,将AI技术应用于实际生活中,为用户提供了更加便捷、智能的服务。
阶跃星辰的成立时间虽短,但其在AI领域的深耕细作,使其在短时间内取得了显著的成果。此次在LiveBench榜单上的优异表现,不仅是对阶跃星辰技术实力的肯定,更是对中国AI产业发展的鼓舞。在全球AI赛场上,国产大模型正逐渐崭露头角,展现出强大的竞争力和发展潜力。