ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

OpenAI发布开源评测CoT-Control,用于衡量模型思维链可控性

时间:2026-03-06 18:07:27来源:鞭牛士编辑:快讯

AIPress.com.cn报道

随着AI智能体越来越能自主完成复杂任务,如何有效监督其行为成为关键议题。OpenAI最新研究聚焦一种潜在风险:当模型知道自己的推理过程会被监控时,是否可能刻意改写或遮掩思维链,从而让监控失效、评估结果被高估。

OpenAI表示,思维链监控是其多层安全体系的一部分,可通过分析模型推理步骤来识别不安全行为或偏离用户意图的迹象。为验证“思维链是否会被刻意操控”,OpenAI提出并开源了评测套件CoT-Control,包含超过1.3万道任务,来自GPQA、MMLU-Pro、HLE等多个基准,用于测试模型能否在解题时遵守针对思维链的限制指令,比如避免特定关键词、只用小写字母或按要求追加特定词语。

研究对13个推理模型进行评测后发现,当前前沿模型普遍难以稳定控制自己的思维链,可控性得分整体很低,最低约0.1%,最高也未超过15.4%。研究还指出,模型规模更大时可控性略有提升,但当推理更长或经历更多后训练时,可控性反而下降。即使告知模型“正在被监控或评测”,可控性也只是小幅上升。

OpenAI认为,这一结果意味着在当前阶段,模型还不太具备通过操控思维链来逃避监控的能力,因而思维链监控短期内仍具参考价值。但公司也强调需持续跟踪,未来将把思维链可控性与可监控性一起纳入前沿模型的系统卡披露指标,以便及时发现趋势变化。

更多热门内容
Rambus发布HBM4E内存控制器IP,为下一代AI处理器提供超强性能助力
这一新解决方案通过先进的可靠性功能实现了突破性性能,使设计师能够应对下一代AI加速器和图形处理器(GPU)对内存带宽要求极高的需求。“作为AI应用领域的领先硅片IP供应商,我们正在将行业领先的HBM4E控制器…

2026-03-06

构建“热带雨林”生态:高校赋能人工智能+创新发展新路径
高校是创新供给的重要源头,是提升国家创新体系整体效能的重要节点,是催生发展新质生产力的重要推力。打造“学科两头发力”“机制双管齐下”的阵列式教育科技人才一体化动力引擎,营造 “阳光雨露充沛”“空间充足”的热…

2026-03-06

GPT-5.4原生操控电脑能力突破:OpenClaw迎来最强“大脑”赋能
Agent 能力是 2026 年 AI 进化的主线任务,在实测后,一个深刻的感受:GPT-5.4 可能是 2026 年目前为止,最适合跑OpenClaw 的模型。这意味着接入 GPT-5.4 的 Open…

2026-03-06

国家发改委定目标:“十五五”末人工智能产业规模迈向超10万亿新台阶
IT之家 3 月 6 日消息,据新华社报道,国家发展改革委主任郑栅洁 3 月 6 日在十四届全国人大四次会议经济主题记者会上说,将深化“人工智能+”行动,“十五五”末人工智能相关产业规模将增长到 10 万亿…

2026-03-06

中国移动MWC展实力:5G-A领航、6G突破,共绘全球数智新蓝图
在2026世界移动通信大会(MWC)上,中国移动以“碳硅共生,合创AI+时代”为主题,系统展示了5G-A、6G、AI大模型及全球算力网络的最新成果,凸显中国通信技术在全球数字化转型中的核心引领作用。应用层面,…

2026-03-06

MWC 2026:中国移动“碳硅共生”引领,共绘AI+时代数智新画卷
本次大会上,中国移动以“碳硅共生,合创AI+时代”为主题,全方位展示了其在通信、算力、智能服务三大领域的最新突破与全球布局。从5G-A的规模商用到6G的前沿探索,从全球算力网络的坚实底座到“灵犀”智能体的全域…

2026-03-06

MWC26巴塞罗那:华为八度折桂GLOMO奖彰显创新实力
(全球TMT2026年3月6日讯)在MWC26巴塞罗那期间,华为斩获八项重量级GLOMO奖项。 华为在全频段向5G演进过程中,围绕超宽带、多天线和绿色节能等领域开展了解决方案的创新,获“最佳移动网络基础设施奖…

2026-03-06