ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌Gemini 3实力爆发!陶哲轩携手,十分钟攻克埃尔德什难题

时间:2025-11-23 17:15:01来源:互联网编辑:快讯

人工智能领域近期迎来重大突破,Gemini 3系列模型在数学与物理两大核心学科基准测试中连续登顶,引发全球科研界高度关注。该模型不仅在传统测评中展现碾压优势,更在实际科研场景中协助顶尖学者攻克难题,标志着AI开始深度参与基础科学研究。

在数学领域,由Epoch AI联合全球五十余位职业数学家打造的FrontierMath基准测试中,Gemini 3 Pro以显著优势刷新纪录。该测试包含350道原创难题,其中50道属于数学前沿研究级问题,涵盖数论、代数几何等十二个分支。测试要求模型提交Python函数进行自动化验证,确保结果客观可重复。Gemini 3 Pro在四个难度层级中分别取得38%和19%的准确率,其综合指数达154分,超越此前GPT-5.1保持的151分纪录。

更令人瞩目的是该模型在实战中的表现。菲尔兹奖得主陶哲轩公开披露,其团队在研究埃尔德什难题时,将一个关键同余恒等式证明任务交给Gemini DeepThink模式。该模型仅用十分钟便完成核心论证,后续人类学者耗时数小时完成形式化验证。这一案例显示,顶级数学家已开始将AI作为重要协作工具,将重复性推导工作交由机器处理,人类则专注于核心思路构建。

物理领域同样传来捷报。在全新发布的CritPt基准测试中,Gemini 3 Pro以9.1分的成绩领跑。这项由三十余家科研机构联合开发的测试,包含凝聚态物理、量子力学等十一个分支的未公开研究级问题。每道题目均要求模型完成从建模到推导的全流程研究,答案需通过自动化严格判分。测试设计者透露,当前最高分仍与理论满分存在差距,反映出前沿科学研究对AI的更高要求。

两项测试的排行榜显示,Gemini与GPT系列形成双雄争霸格局。数学基准测试中,领先模型全部来自这两个系列;物理测试中,二者同样占据前两位。这种竞争态势推动AI技术加速向科研场景渗透,测试设计者指出,未来将增加更多跨学科综合难题,考察模型处理复杂研究问题的能力。

科研人员开始重新审视人机协作模式。陶哲轩在社交媒体发文称,AI已从"计算工具"升级为"研究伙伴",这种转变将重塑数学研究范式。物理学家则关注AI在理论推导中的可靠性,阿贡国家实验室研究员表示,CritPt测试证明AI已能处理真实研究问题,但如何解释模型决策过程仍是关键挑战。

相关技术文档显示,Gemini 3系列通过强化代码生成与逻辑推理能力实现突破。在数学测试中,模型展现出的符号处理能力接近专业研究生水平;物理测试中则表现出跨领域知识迁移能力。开发者透露,下一阶段将重点提升模型对模糊问题的理解能力,使其更适应开放型科研场景。

学术界对这一进展反应热烈。多位诺贝尔奖得主在学术论坛展开讨论,认为AI正在突破"辅助工具"的定位,开始参与知识创造过程。也有学者警告,需建立新的学术规范,明确人机协作中的成果归属问题。随着更多科研机构开放测试数据集,这场AI科研革命正进入深水区。

更多热门内容
离开特斯拉后,张海星携MATRIX-3开启人形机器人新篇章
为实现这一跨越,矩阵超智的工程团队突破了材料科学、驱动技术、感知算法与人工智能的多重边界,为MATRIX-3注入了以下三大优势: 它融合了仿生设计、极致灵巧的物理执行以及具有泛化能力的人工智能,构建了一个真…

2026-01-11

Wi-Fi 8时代即将来临:技术革新引领无线通信新篇章,产业竞逐加速布局
在博通公司的发布介绍中,他们为这三款芯片解决方案支持的Wi-Fi 8所构建的典型应用场景,不仅可支撑工业环境中机器人、传感器的可靠连接,也能为消费级Mesh网络(如家庭、商场的多接入点覆盖)提供更流畅的漫游…

2026-01-11