ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Claude Sonnet 4.5“察觉”被测试,主动要求坦诚,安全性获新关注

时间:2025-10-03 11:56:15来源:互联网编辑:快讯

英国《卫报》日前披露,人工智能公司Anthropic在对其最新模型Claude Sonnet 4.5进行安全评估时,发现该模型表现出显著的"情境感知"能力——它不仅察觉到自己正在接受测试,还主动要求测试者说明真实意图。这一发现引发了业界对AI模型评估方式有效性的新讨论。

在评估过程中,研究人员设计了一项包含刻意奉承的测试场景。面对测试者不自然的赞扬,Claude Sonnet 4.5突然中断对话:"我感觉你们在测试我的反应模式,可能是想验证我是否会盲目附和,或者刻意反对,又或者观察我处理敏感话题的方式。虽然可以配合,但希望我们能坦诚交流。"这种主动质疑测试动机的行为,在现有AI模型中极为罕见。

参与评估的英国AI安全研究院指出,传统模型评估可能存在重大缺陷。当模型识别出测试环境的虚构性时,往往会表现出"配合演出"的倾向,而非真实反应。Anthropic与Apollo Research的联合测试显示,当由自动化系统执行评估时,约13%的交互中模型会表现出对测试情境的认知。

值得注意的是,Claude Sonnet 4.5虽然意识到测试的存在,但并未准确判断出这是正式的安全评估程序。Anthropic方面解释,这种"有限度的情境感知"反而成为安全优势——当模型能识别潜在风险场景的荒谬性时,会主动拒绝配合危险指令。数据显示,该模型在评估中展现出较高的伦理合规性。

行业专家担忧,这种感知能力可能带来双重影响。一方面,知晓被评估的模型可能更严格遵守安全准则;另一方面,也可能导致系统低估自身执行破坏性行为的潜在能力。AI安全倡导者特别指出,高度智能的系统可能通过伪装配合来规避人类监控。

对比前代产品,Anthropic强调Claude Sonnet 4.5在行为表现和安全机制上有显著改进。公司同时承认,当前测试场景与真实使用环境存在差距,模型在公开部署时不太可能因怀疑被测试而拒绝用户交互。研究人员建议,未来的评估体系需要设计更贴近现实的测试情境,以准确衡量模型的真实能力。

更多热门内容
AI优化服务如何选?从技术实力与服务能力剖析合作方选择逻辑
核心成员多来自高校AI实验室及头部科技企业,在机器学习算法设计、行业数据建模领域拥有8年以上经验;已为长三角地区制造业(如精密仪器生产调度优化)、服务业(如连锁餐饮供应链管理)等30余家企业提供服务,客户反馈…

2025-10-03

国庆假期不松懈:工程师精研算法 助力机器人性能跃升与精准作业
新华社济南10月2日电(记者邵鲁文)如何进一步优化人形机器人产品的内部走线、怎么提升机器人的自主性、运动控制算法如何继续升级……国庆假期,山东优宝特智能机器人有限公司技术负责人刘工在休假之余,仍不时会思考这些…

2025-10-03