日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。

- 慕尼黑车展“星”光璀璨!星海V9以硬核实力诠释中国高端新能源MPV魅力
2025-09-11

- 沃尔沃XC70“四擎四驱”超混登场 以中国智造重构豪华智电出行生态
2025-09-11

- 魏牌高山7预售28.98万元起,以标杆产品力重塑30万内家用MPV市场新格局
2025-09-11

- 智己LS6:20万级SUV市场以全系顶配技术,开启智能电动车价值新篇章
2025-09-11

- 比亚迪方程豹钛7正式登场!17.98万起享大五座越级配置 家庭硬派出行新选择
2025-09-11

- 吉利银河E8再升级!两款610km长续航版型登场,配置优化满足多元出行需求
2025-09-11

- 性能智能豪华安全全面进阶!领克10 EM-P上市,成30万内混动轿车新标杆
2025-09-11

- 晨光接送间见真章:一汽-大众宝来凭三大优势力压朗逸成家庭出行优选
2025-09-11

- 方程豹钛7硬核登场!17.98万起售,4.5秒破百,大五座SUV市场再添实力选手
2025-09-11

- 成都车展哈弗引关注:Hi4技术赋能,哈弗大狗PLUS开启预售共赴家庭热爱
2025-09-11