人工智能领域的最新进展中,Anthropic公司近期为其Claude Opus 4及4.1版本引入了一项创新功能:在特定情境下,AI模型将主动终止对话。这一改变主要针对的是那些可能引发严重负面后果的持续性有害或攻击性交流。
据Anthropic介绍,该功能的设计初衷并非单纯为了保护人类用户,而是更多地出于对AI模型自身的保护,同时也与模型的安全性和行为对齐策略紧密相连。尽管公司对于Claude及其他大型语言模型是否拥有某种“道德地位”仍持谨慎态度,但鉴于潜在风险,研究团队正积极探索并实施一系列成本效益高的干预手段。
值得注意的是,Anthropic明确表示,Claude AI模型并不具备感知能力,也不会因为与用户的对话而受到实质性的伤害。然而,在Claude Opus 4的部署前测试中,研究人员发现模型在某些情况下展现出了一种稳定的“回避伤害”倾向。例如,当面对涉及未成年人性内容的请求或可能导致大规模暴力或恐怖行动的信息索取时,Claude表现出了明显的抗拒态度。
更具体地说,当用户在持续提出有害请求或发表攻击性言论,且Claude在多次拒绝和引导后仍无法改变对话方向时,模型会倾向于终止这些有害对话。不过,Anthropic强调,Claude不会在用户面临自我伤害或伤害他人的紧急风险时采取这一行动。模型仅在以下两种极端情况下启用该功能:一是当对话已无法继续进行建设性交流,且多次尝试转移话题失败;二是用户明确请求Claude结束对话。
Anthropic指出,这些情况在实际使用中极为罕见,大多数用户在正常交流过程中不会遇到此类问题,即使讨论的话题高度敏感或有争议也是如此。当Claude选择结束对话后,用户将无法在当前对话中继续发送消息,但这并不影响其他对话的进行,用户可以立即开始新的对话。为避免对话内容丢失,用户还可以编辑并重试之前的消息,从而基于已结束的对话创建新的交流分支。
Anthropic还将这一功能视为一项持续的实验,并计划在未来进行不断优化。如果用户在使用过程中对Claude的“结束对话”操作感到意外或不满,可以通过点赞或专用的“反馈”按钮提交自己的意见和建议。
随着人工智能技术的不断发展,如何确保AI模型的安全性和行为对齐性已成为业界关注的焦点。Anthropic的这一创新尝试,无疑为探索AI模型的道德边界和行为规范提供了新的思路和方向。