ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Meta 甩出“白盒手术刀”:CoT-Verifier 把 AI 推理失误钉在归因图上

时间:2025-11-29 20:53:08来源:CHINAZ编辑:快讯

meta AI 实验室今天把 Llama3.1改造成推理“X 光机”——新模型 CoT-Verifier 正式登陆 Hugging Face,专门剖开链式思维(CoT)每一步的“电路轨迹”,让错误不再躲在黑箱里。

传统验证只看输出对不对,meta 换了个视角:先给模型跑一次前向,再把每一步的归因图(attribution graph)抽出来。团队发现,正确与错误推理的图结构差异极大,就像两条形状完全不同的电路板。用轻量级分类器在这些“图特征”上训练,错误步骤的预测准确率直接飙到 SOTA,且不同任务(数学、逻辑、常识)各自有独特的“故障图谱”,说明推理失败并非随机噪声,而是可量化、可分类的计算模式。

更关键的是,归因图不仅能“诊断”,还能“动刀”。meta 在实验里对高可疑节点做定向消融或权重偏移,成功把 Llama3.1在 MATH 数据集上的准确率再提4.2个百分点,而无需重新训练主干。换句话说,CoT-Verifier 把推理纠错从“事后复盘”变成“术中导航”。

模型已开源,脚本一键复现。开发者只需把待验证的 CoT 路径喂给 Verifier,就能拿到每一步的“结构异常分”,并定位最可能出错的上游节点。meta 在论文结尾放话:下一步把同样的图干预思路搬到代码生成、多模态推理,让“白盒手术”成为 LLM 的新标配。

更多热门内容
魏奉思院士:打造“卫星大脑” 开启中国智能航天新纪元
魏奉思说,当前航天领域还处于数字化、智能化发展的初期阶段,中国如果率先建立以智能航天、卫星大脑为核心的数字空间大脑体系,就有望能自主应对地球空间、日地空间、太阳系空间中遇到的各种航天环境和航天系统问题,开启…

2026-06-07

星链卫星频坠落与东方红一号稳飞行,背后原因究竟是什么?
看到这一个情况,可能有一些网友好奇,为什么星链卫星在第二年就开始坠落地球了,而东方红一号卫星却飞行了几十年都不会坠落地球,未来还会进行环绕地球飞行很长时间都不会重返地球呢? 既然星链卫星会因为空气阻力而出…

2026-06-07

苹果调整XR研发路线:削减Vision Pro投入,专注AI智能眼镜布局
【太平洋科技】分析师郭明錤发帖透露,苹果已调整XR硬件研发路线,后续产品规划仅保留两款智能眼镜,该战略调整已由苹果下一任CEO约翰·特努斯(JohnTernus)敲定。 郭明錤认为,缩减Vision P…

2026-06-07

苹果调整XR硬件研发路线:缩减Vision Pro投入,转向AI智能眼镜布局
【太平洋科技】分析师郭明錤发帖透露,苹果已调整XR硬件研发路线,后续产品规划仅保留两款智能眼镜,该战略调整已由苹果下一任CEO约翰·特努斯(JohnTernus)敲定。 郭明錤认为,缩减Vision P…

2026-06-07