中国人工智能领域迎来重大突破,DeepSeek-AI团队在《自然》杂志发表的开源模型DeepSeek-R1研究成果登上封面。该研究提出了一种通过纯强化学习提升大语言模型推理能力的新方法,显著减少了对人工标注数据的依赖。
与传统训练方式不同,DeepSeek-R1采用组相对策略优化算法,仅根据最终答案的正确性进行奖励,而非要求模型模仿人类推理路径。这种"粗放式"训练方法意外地激发了模型的自我反思、自我验证等高级行为。在数学测试中,该模型在美国数学邀请赛的准确率从15.6%跃升至86.7%,超越人类平均水平。
研究团队披露,DeepSeek-R1的推理成本仅为29.4万美元,加上基础模型训练的600万美元开销,整体成本远低于国外巨头动辄数千万美元的投入。这种低成本奇迹打破了AI领域"资金即壁垒"的固有认知,为行业提供了更具可持续性的发展路径。
DeepSeek-R1的成功背后,是创始人梁文锋长达十年的技术积累。这位1985年出生于广东湛江的工程师,2002年考入浙江大学电子信息工程专业,硕士阶段开始研究机器视觉。2008年毕业后,他将人工智能技术应用于量化交易领域,先后创办雅克比投资和幻方科技。2023年,他转向通用人工智能研发,创立DeepSeek并迅速推出V2、V3模型。
梁文锋的团队建设理念独具特色,核心岗位多由应届毕业生和年轻工程师组成。他坚信"能力为先",认为可以通过内部培养打造顶尖团队。这种理念与低成本研发策略相辅相成,使DeepSeek在性价比方面形成独特优势。
《自然》杂志评论称,DeepSeek的研究表明模型可以在没有人类推理示范的情况下,通过强化学习自主形成复杂思维模式。Hugging Face工程师Lewis Tunstall认为这项研究"开启了一场革命",其方法论正在被全球多个团队应用于改进现有大语言模型。
这项突破不仅证明了中国AI的技术实力,更展示了不依赖海量标注数据的创新路径。当行业还在进行"数据与算力军备竞赛"时,DeepSeek-R1已经为"算法与智慧创新竞赛"树立了新标杆,将AI发展的主动权交还给了科学创新本身。