阿里通义千问Qwen CodeElo测试：o1-mini编程力超九成人类程序员-业界动态-ITBear科技资讯

近日，阿里巴巴旗下的通义千问Qwen团队推出了一个名为CodeElo的基准测试，该测试旨在通过Elo评级系统，对比大语言模型（LLM）与人类程序员的编程能力。

在AI应用场景中，大语言模型的一个关键应用是代码生成与补全。然而，在评估LLM编程能力的真实性方面，业界面临着诸多挑战。现有的基准测试，如LiveCodeBench和USACO，都存在明显的局限性，如缺乏健壮的私有测试用例、不支持专门的判断系统，以及执行环境不一致等问题。

CodeElo基准测试的核心优势在于其全面性、稳健性和标准化。在题目选择上，CodeElo涵盖了广泛的比赛分区、难度级别和算法标签，为LLM提供了全面的评估。在评估方法上，CodeElo利用CodeForces平台的特殊评估机制，确保了对代码准确性的判断，避免了误报等问题，并支持需要特殊评判机制的题目。在评级计算上，CodeElo采用Elo评级系统，根据问题的难度和解决方案的正确性对LLM进行评分，并对错误进行惩罚，从而激励高质量的解决方案。

在对30个开源LLM和3个专有LLM进行测试后，结果显示OpenAI的o1-mini模型表现最为出色，其Elo评分达到了1578，超过了90%的人类参与者。在开源模型中，QwQ-32B-Preview以1261分的成绩位居榜首。然而，这些模型在解决简单问题时仍然表现出一定的困难，通常排名在人类参与者的后20%左右。分析发现，这些模型在数学和实现等类别上表现出色，但在动态规划和树形算法方面存在明显的不足。

测试还发现，当使用C++进行编码时，LLM的表现更为出色，这与竞技程序员的偏好一致。这些结果不仅揭示了LLM在编程能力方面的优势，也指出了其需要改进的领域。通过CodeElo基准测试，我们可以更加清晰地了解LLM在编程竞赛中的表现，并为未来的研究和开发提供有益的参考。

随着技术的不断发展，LLM在编程领域的应用将会越来越广泛。CodeElo基准测试的推出，为评估LLM的编程能力提供了一个新的视角和工具。未来，我们可以期待更多类似的基准测试出现，以推动LLM在编程领域的不断进步和发展。

雄安新区将迎来国内首个商业空间飞行器总装生产线

2025-01-06

罗博特科资产重组遇阻，深交所暂缓审议其并购计划
2025-01-06

新年买iPhone 16系列就来京东 1月6日晚8点多重补贴至高2500元

临近过年，Apple产品也开启了年末促销优惠，吸引了不少消费者前来选购。京东年货节也再次加码优惠力度，带来至高1000元的惊喜券、限量可抢的1100元以旧换新券，还可再叠加至高400元的杭州消费券，补上加补至高优惠2500元还送12期免息。感兴趣的朋友只需打开京东APP，搜

2025-01-06

江苏捷科云：可视化平台助力制造企业智能化管理

江苏捷科云信息科技有限公司(以下简称“捷科”)是一家专注于云平台、云储存、云管理等产品领域的创新型企业，集研发、生产和销售于一体，致力于在网络技术领域打造尖端品牌。在推动制造业企业数字化转型的进程中，捷科通过其云架构不断开发各类服务解决方案，秉承“硬+

2025-01-06

Meta Quest Pro高端头显全球停售，曾降价至7336元仍难挽销量
2025-01-06