ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

法国团队推出“推理核心”:为AI搭建逻辑基石,助力智能迈向新高度

时间:2025-10-10 04:35:00来源:互联网编辑:快讯

法国里尔大学、法国国家信息与自动化研究所、法国国家科学研究中心及里尔中央理工学院联合团队近日宣布,开发出一款名为“推理核心”(Reasoning Core)的AI训练环境,旨在系统性提升人工智能的符号推理能力。该研究成果已发表于学术平台arXiv,论文编号为arXiv:2509.18083v1,核心贡献者包括Valentin Lacombe、Valentin Quesnel和Damien Sileo。

传统AI训练依赖固定题库或简单游戏任务,存在两大缺陷:一是题目数量有限,模型易通过记忆答案而非真正理解完成训练;二是任务类型单一,难以覆盖现实场景中复杂的逻辑需求。研究团队形象地比喻,现有方法如同仅通过加减法训练学生,却期望其掌握微积分能力。为此,他们构建了一个可无限生成多样化挑战的“虚拟健身房”,通过动态调节任务难度,帮助AI系统掌握人类逻辑思维的基石技能。

“推理核心”的独特性体现在三方面:首先,其任务设计聚焦于PDDL规划、一阶逻辑、上下文无关文法解析等核心符号推理领域,这些能力被视为构建通用智能的基础;其次,系统配备连续型难度调节器,可精准控制问题复杂度,实现从初级到高级的无缝过渡;第三,集成定理证明器、规划引擎等专业验证工具,确保答案评估的客观性与权威性。实验显示,即使是最先进的GPT-5模型,在面对该环境生成的高难度任务时,正确率仍显著低于人类水平,验证了训练环境的有效性。

研究团队精选了18个训练任务,覆盖五大能力维度。规划类任务要求AI在随机生成的约束条件下制定行动序列,培养其动态决策能力;逻辑推理类任务涉及公理选择、证明重构等,强化严密论证技巧;自然语言推理任务将形式逻辑转化为自然语言问题,提升语言与逻辑的衔接能力;数学计算类任务包含方程求解、序列归纳等,训练符号操作与模式识别;因果推理类任务基于贝叶斯网络,区分相关性、因果性及干预效果。每个任务均通过上下文无关文法生成,确保问题结构可控且具有扩展性。

技术实现上,该系统采用创新的数据生成流水线,支持离线并行处理,可快速产出大量高质量训练样本。难度控制机制通过映射连续参数至具体生成规则实现,对离散变量采用概率舍入法,避免难度跳跃。外部工具集成确保验证过程严格可靠,例如使用Vampire定理证明器验证逻辑任务,符号代数系统检查方程求解结果。数据质量保障模块自动过滤无效问题,控制数值范围,防止训练偏差。

初步评估采用零样本测试,GPT-5在简单模式(难度0)和困难模式(难度5)下的表现差异显著。结果显示,模型在集合操作、基础算术等任务中表现相对较好,但在PDDL规划、定理证明等复杂任务中正确率不足30%。这表明当前AI模型更擅长统计模式匹配,而非严格的逻辑推导。难度调节的有效性得到验证,困难模式下模型性能平均下降42%,为自适应课程学习提供了技术基础。

与传统训练方法相比,“推理核心”代表了一种范式转变:从被动依赖海量数据转向主动构建能力体系。其开源特性允许全球研究者共同完善系统,可能推动AI评估标准革新——通过动态调节难度,更精准测量模型的真实推理水平。基于符号推理的训练或能提升AI的可解释性,为医疗、金融等高风险领域的应用提供安全保障。

尽管已取得突破,研究团队指出,未来需扩展任务覆盖范围,纳入时间推理、空间推理等更多认知维度;优化自适应难度调节机制,实现实时个性化训练;完善部分正确答案的评分体系,提升训练效率。该成果为AI推理能力的发展提供了新路径,预示着下一代智能系统或将具备更接近人类的逻辑思维能力。

更多热门内容
百年科学接力:12位诺奖得主铺就AI之路,从神经元到ChatGPT的智慧传承
1906年,两位科学家在诺贝尔奖台上“互怼”:高尔基认为神经系统是一张连续的网,卡哈尔坚称它由独立的神经元组成。几十年后,电子显微镜证实卡哈尔正确——AI的神经网络算法,自此有了第一块拼图。这场科学马拉松,整…

2025-10-10

阿里通义千问迈出新步伐:组建团队探索智能体从虚拟走向物理世界
10月9日,据《科创板日报》报道,阿里通义千问大模型负责人林俊旸在社交媒体上发文表示,已建立机器人和具身智能的小型团队。 在2025年9月底举办的云栖大会上,通义大模型实现“七连发”,在模型智能水平、Age…

2025-10-10

AI落地“最后一公里”难?阿里云4R标准服务为企业架起通途
一号位们雄心勃勃,技术团队加班加点,投入不菲,几个月后的汇报会上,却常常是尴尬的沉默:"模型是跑通了,但准确率只有70%","系统能用,但业务部门说不实用"。 杭州,云栖大会,中小企业AI应用规模化发展论坛、…

2025-10-10

英伟达20亿美元注资马斯克xAI,黄仁勋直言错过更多投资机会很遗憾
8日当天,黄仁勋在接受外媒采访时强调,从CPU计算向由GPU驱动的生成式AI计算的转变“才刚刚开始”,新一代AI公司包括OpenAI、Anthropic和xAI。英伟达还计划逐步向OpenAI投资1000亿…

2025-10-10

四川农商联合银行:借大模型之力,开启智能问数赋能业务新征程
在此过程中,积累的关键经验在于:坚实的数据底座是前提,我行多年数据治理与中台建设为项目成功奠定了基础;场景驱动与业务深度融合是关键,确保技术方案能真正解决业务痛点并创造价值;坚定国产化技术路线不仅保障了项目自…

2025-10-10

蚂蚁Ling-1T开源引关注,中美AI大模型加速竞逐,全球AI投资创新高
OpenAI发布AI视频模型Sora2,并在开发者大会上公布GPT-5 Pro、ChatGPT框架Apps SDK等,引发全球关注; DeepSeek则发布DeepSeek-V3.2-Exp,全面适配国产…

2025-10-10

阿里Qwen再发力!通义千问技术负责人林俊旸亲自带队组建具身智能小分队
如果说以往的大模型是在“理解”世界,那具身智能的目标,就是让模型能够“参与”世界——从林俊旸的推文里不难看出,Qwen已经开始着手把多模态模型推向具身智能的新阶段。 在9月举办的2025年云栖大会上,阿里…

2025-10-10

全球首个AI劳动力市场MuleRun:让智能体成为可交易商品,构建交易新生态
OpenAI 已有大量用户,品牌影响力、模型基础设施和ChatGPT生态都不是初生的MuleRun可以比拟的,当OpenAI等拥有底层模型能力的大厂也开始支持第三方应用,上面的应用或Agent 可直接获得可…

2025-10-10