ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为

时间:2025-07-22 09:39:40来源:三言科技编辑:快讯团队

日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。

更多热门内容