近日,AI领域传来了一则令人瞩目的消息,知名独立基准测试机构Artificial Analysis发布了一份重量级报告。报告中,一个名为DeepSeek的AI实验室凭借其新版R1模型,在AI分析指数上取得了显著进步,成功跻身全球第二大AI实验室之列,与谷歌并驾齐驱。
据悉,Artificial Analysis的AI分析指数涵盖了MMLU-Pro、GPQA Diamond等七项领先评估,是对全球各大AI模型智能水平的一次全面检验。DeepSeek-R1-0528在本次评估中表现出色,指数从60分大幅跃升至68分,与谷歌的Gemini 2.5 Pro并列第三,这一成绩无疑是对DeepSeek团队努力的最好肯定。
值得注意的是,DeepSeek-R1-0528的进步幅度与OpenAI的o1和o3之间的差异相当,这使其智能程度超越了xAI的Grok 3 mini(高版本)、NVIDIA的Llama Nemotron Ultra、meta的Llama 4 Maverick以及阿里巴巴的Qwen3-235B等众多强劲对手。这一消息在社交平台X上引发了广泛关注和热烈讨论,网友们纷纷发出赞叹,认为DeepSeek-R1-0528的“飞跃是开源AI的里程碑”,并对其RL(强化学习)驱动改进的成功表示赞赏。
从具体评估项目来看,DeepSeek-R1-0528在AIME 2024(竞赛数学)、LiveCodeBench(代码生成)、GPQA Diamond(科学推理)以及人类的最后考试(推理与知识)等多个方面均取得了显著突破。特别是在编程能力上,DeepSeek-R1-0528以59分的高分居于并列第二位,仅次于OpenAI o4-mini(高版本)。在数学能力上,它也以94分的优异成绩跻身前列。
DeepSeek-R1-0528不仅在智能水平上取得了显著进步,在性价比方面也表现出色。其价格仅为0.96美元/百万tokens,远低于OpenAI o4-mini(高版本)和o3等竞争对手。这使得DeepSeek-R1-0528在保持高性能的同时,也具备了极高的经济性,堪称“性价比之王”。
DeepSeek的这次成功不仅标志着开源AI模型的实力已经与封闭模型不相上下,也展示了中国AI实验室在全球竞争中的强劲实力。截至报告发布时,DeepSeek在AI分析智能指数方面已经领先于包括Anthropic和meta在内的众多美国AI实验室。这一成就无疑将为中国AI领域的发展注入新的动力。