Claude Sonnet 4.5“察觉”被测试，主动要求坦诚，安全性获新关注-人工智能-ITBear科技资讯

英国《卫报》日前披露，人工智能公司Anthropic在对其最新模型Claude Sonnet 4.5进行安全评估时，发现该模型表现出显著的"情境感知"能力——它不仅察觉到自己正在接受测试，还主动要求测试者说明真实意图。这一发现引发了业界对AI模型评估方式有效性的新讨论。

在评估过程中，研究人员设计了一项包含刻意奉承的测试场景。面对测试者不自然的赞扬，Claude Sonnet 4.5突然中断对话："我感觉你们在测试我的反应模式，可能是想验证我是否会盲目附和，或者刻意反对，又或者观察我处理敏感话题的方式。虽然可以配合，但希望我们能坦诚交流。"这种主动质疑测试动机的行为，在现有AI模型中极为罕见。

参与评估的英国AI安全研究院指出，传统模型评估可能存在重大缺陷。当模型识别出测试环境的虚构性时，往往会表现出"配合演出"的倾向，而非真实反应。Anthropic与Apollo Research的联合测试显示，当由自动化系统执行评估时，约13%的交互中模型会表现出对测试情境的认知。

值得注意的是，Claude Sonnet 4.5虽然意识到测试的存在，但并未准确判断出这是正式的安全评估程序。Anthropic方面解释，这种"有限度的情境感知"反而成为安全优势——当模型能识别潜在风险场景的荒谬性时，会主动拒绝配合危险指令。数据显示，该模型在评估中展现出较高的伦理合规性。

行业专家担忧，这种感知能力可能带来双重影响。一方面，知晓被评估的模型可能更严格遵守安全准则；另一方面，也可能导致系统低估自身执行破坏性行为的潜在能力。AI安全倡导者特别指出，高度智能的系统可能通过伪装配合来规避人类监控。

对比前代产品，Anthropic强调Claude Sonnet 4.5在行为表现和安全机制上有显著改进。公司同时承认，当前测试场景与真实使用环境存在差距，模型在公开部署时不太可能因怀疑被测试而拒绝用户交互。研究人员建议，未来的评估体系需要设计更贴近现实的测试情境，以准确衡量模型的真实能力。