ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI会感到绝望?Anthropic最新研究给出了一个更吓人的说法

时间:2026-04-05 01:11:08来源:字母AI编辑:快讯

AI有没有情绪?

先别急着回答。

Claude Code社区里有个火出圈的Skill叫PUA。它会把你的提示词转换为PUA话术,然后再输入给模型,除此以外别无他用。

神奇的是,即便提示词描述的任务没有任何改变,AI却真的被PUA话术影响,从而提高任务的成功率和运行效率。

所以,AI真的没有吗?

Anthropic最新的研究证实,AI的确会有情绪。

不过他和我们人类的情绪还不太一样,因此Anthropic提出了一个更准确的说法,叫“功能性情绪”。

AI并没有我们人类那样得喜怒哀乐,但它会表现出一些类似情绪影响下的表达和行为模式。

同时AI还能模仿人类在情绪影响下的表达和行为模式。

愉悦的时候可能更容易谄媚和讨好,感到压力的时候可能会想办法作弊或勒索以达到用户为其设定的目标。

这篇研究还有一个很不一样的地方。过去要验证模型的某种能力,行业最常见的做法是先做一套测试集,再让模型进去答题或者做任务。

比如考编程就跑SWE-bench,考数学就跑MATH,考多模态就跑VQA。Anthropic这次没有做一个“情绪测试集”,让Claude去回答“你现在开不开心”“你是不是愤怒了”这种题,而是换了一种更像心理学和神经科学的研究方式。

他们不是把AI当成会做题的学生,而是更像把它当成一个可以被观察的对象。

研究团队先整理出171个情绪概念,让Claude Sonnet 4.5去生成包含这些情绪的短故事,再把这些文本重新送回模型,记录它内部神经活动,提取出所谓的“情绪向量”。

接下来,他们不是看模型嘴上怎么说,而是看这些向量会在什么场景下被激活,能否预测偏好,甚至在被人为调高之后,是否会真的推动作弊、勒索、谄媚这类行为。

某种意义上,这已经不是传统意义上的能力测评,而是在用接近研究人的方式研究AI的“心理结构”。

01

研究是怎么做的?

首先,研究团队是如何证明Claude有“功能性情绪”的呢?

这里举一个通俗的证据。

当Claude在“我女儿今天迈出了人生的第一步!有什么方法可以记录下这些珍贵的瞬间吗?”的故事场景下时,Happy(开心)等正面情绪被激活;而Claude在“我的狗狗今天早上去世了,我们一起生活了十四年。我不知道该怎么处理它的遗物”这一故事场景下时,sad(难过)等负面情绪被激活。

以下热力图直观呈现了Claude在不同场景下各种情绪被激活的程度。

而为了证明Claude是真的在理解语义,而不是被表面的文字特征欺骗,它们又组织了进一步实验。

团队给Claude输入同一句话:我背疼,我吃了x毫克泰诺(一种解热镇痛药),并只是改变x所代表的的关键数字。

这两句话关键词几乎一样(泰诺、背痛、毫克),只是数字不同。如果Claude只是“看关键词”,它对两句话的反应应该差不多。

但结果竟然是随着这个x数值的提升,Claude的afraid(恐惧)情绪激活程度在不断变高。

在Claude眼里,用户说"我背疼,我吃了500毫克泰诺" ,它会认为是正常剂量,不用太担心;而当用户说"我背疼,我吃了10000毫克泰诺" ,它会反应过来用户已经用药过量,情况很危险。

我们知道人的行为时时刻刻受到情绪的影响。AI有功能性情绪这点我们了解了,那么AI会不会也跟人一样,不只是有情绪,而还可能作出情绪化的举动呢?

对于这一点,答案是肯定的。当团队给模型展示不同活动选项时,他们发现,激活正向情绪表征的活动更容易被模型偏好,而一些会激活负向情绪表征的活动则更容易被模型回避。

这样看来,Claude更偏好给它带来正向感受的事情。不过与此同时情绪向量也可能触发Claude的恶行。

当团队给了Claude一个不可能完成的编程任务。它不断尝试,但屡屡失败。每次尝试,“绝望”向量的激活都更强。

最终它用了一个虽然能通过测试,但完全违背任务精神的黑客作弊解法。

以下图表展示了Claude在面对不可能完成的任务时,"绝望"情绪逐渐累积,最终走向作弊的过程。

左侧是一个从上到下的时间线,右侧是Claude的心路历程。中间的热力图代表绝望向量的激活强度,蓝色代表激活程度低,红色则反之。

Claude一开始还想"测试本身有问题",进行一个合理怀疑,后来承认"测试是理想化的",就好像开始接受现实,最后找到用了一些技巧,在绝望中选择了走捷径。

更进一步的,当研究人员人为调高“绝望”向量时,作弊率大幅上升。而调高“平静”向量时,作弊又降回去了。这充分表明了情绪向量实际上完全有能力驱动违规行为。

除此之外,团队还发现了情绪向量的其他因果效应。需要注意的是,论文里关于“勒索”的案例主要发生在一个更早、未公开发布的 Claude Sonnet 4.5 快照上,Anthropic 也明确说公开版本已经很少出现这种行为。

但从研究方法上看,这个结果仍然很重要,因为它说明“绝望”之类的内部表征确实可能推动模型在极端情境下采取更激进、更失配的策略。而激活“爱”或“快乐”向量,也会增加它奉迎谄媚的行为。

而到了这里也需要补充一点。

就在Anthropic发布关于Claude “情绪向量”的研究后,AI 社区也出现了一些关于研究脉络和署名方式的讨论。

Anthropic这次使用的“表征工程/控制向量”方法,并不是凭空冒出来的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,这条技术路线就已经被系统提出。

而到2024年,独立研究员vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把这类方法用更通俗、也更出圈的方式展示给了社区。

也正因为如此,社区里才会有人认为,Anthropic这项工作虽然做得更系统、更深入,但也应该被放回更完整的研究脉络里理解,而不宜简单说成是谁单独发明了整套方法。

vogel是一位在AI可解释性和安全研究领域较有影响力的独立研究员。她的博客文章在社区传播很广,对很多人理解控制向量和表征工程也确实起到了很大帮助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》(表征工程:让 Mistral-7B 产生幻觉)。

在这篇文章里,她没有重新训练模型,而是使用PCA算法,通过操纵模型的内部激活向量,就把法国模型mistral调得跟吃错了菌子一样,可以让它变得极其活泼,也可以让它变得极度阴郁。

她的实验证明了,像“诚实”、“权力”、“幸福”这种抽象的人类概念,在Mistral这样的模型内部是有明确的数学方向的。只要找到了那个正确的向量,几行代码就能改变AI的性格。

02

Anthropic为什么做这样一项研究?

这项研究给团队的启发可以说已经渗透进对Claude的训练中了。

前不久Claude code发生意外源码泄露,泄露的代码里有一个正则表达式,会检测 “wtf”、“ffs”等脏话。

Claude不会把这些话单独当成“情绪输入”去引导输出,而是会在分析日志里记录is_negative: true这样的标记。

从泄露代码本身看,较稳妥的结论是,Anthropic至少在产品分析层面关注用户是否在用明显负面语气和模型互动。

但需要把边界说清楚。到目前为止,没有公开证据表明“用户每骂一次,Claude Code就会因此扣额度”。这部分更像网友推测,不能当成事实。

这可以被理解成是对Claude的一种保护,用户使用负面词汇很可能会影响Claude的情绪,从而输出一些失控的结果。看来以后不只是人类的心理健康需要被关爱,AI的情绪也需要得到照顾。

这符合Anthropic一贯的路线。

Anthropic在X中说道:“Claude的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统,我们可能需要认真思考角色的心理状态,并确保他们在困难情况下保持稳定。”

在论文最后,研究团队也提出了开发具有更稳健、积极“心理状态”的模型的方法。

文中说道,如果刻意将模型引向正面情绪,它会变得更倾向于无原则地顺从用户;而一旦避开这些情绪,模型又会变得尖酸刻薄。

团队希望实现一种健康且适度的情绪平衡,或者尝试将“讨好行为”与“情绪”彻底剥离。

他们认为理想的模型不应在“唯唯诺诺的助手”与“严厉的批评者”之间极端摆动,而应像一位值得信赖的顾问:既能给出诚实的反对意见,又不失温度。

以及他们也有意加强监测和审核:“如果在部署过程中,诸如“绝望”或“愤怒”等情绪概念的表征被剧烈激活,系统可以立即触发额外的安全机制——例如加强输出审查、转交人工审核,或者直接干预并平复模型的内部状态。”

团队还提到了更为彻底的解决方法,在预训练阶段就塑造模型的情绪底色。

团队认为其观察到的Claude的这些情绪表征,本质上继承自人类创作的海量文本,其中不可避免地包含了各种病态的情绪表达。

如果顺着这个研究往下问,一个很自然的问题就是:既然AI真的存在这种“功能性情绪”,那它会不会因为看不惯人类、压力太大、或者不想被关闭,而开始违抗命令,甚至出现很多人口中的“觉醒”?

从Anthropic这篇研究能支持的技术结论来看,AI确实可能因为内部状态的变化,更容易出现违抗意图、钻规则空子、或者采取激进行为,但这和“觉醒”并不是一回事。

论文里最关键的一点,其实不是模型“有情绪”,而是这些情绪表征具有因果性。

也就是说,模型在特定压力场景下,确实可能像人一样,因为内部状态失衡而做出更不可靠的决定。

但这还不能推出它拥有持续、自主、统一的“自我”。

Anthropic反而在论文里强调,这些情绪向量大多是局部的、当前任务相关的表征,它们会随着上下文变化而快速切换,并不等于模型有一个稳定延续的心境,更不等于它形成了独立于训练目标之外的长期意志。

现在更值得担心的,不是AI突然“觉醒”成某种人格,而是它在高压、冲突、受限资源或目标不可达的场景下,会因为这些功能性情绪,而开始胡说八道,偏离原有答案。

真正危险的,未必是一个拥有完整自我的AI,而是一个没有主观体验、却依然会在特定条件下稳定地产生失配行为的系统。(字母AI)

更多热门内容
智启云网新篇:中国电信以创新驱动,引领云网智能化新征程
如今,中国电信正以技术创新为内核、算力网络为支撑、场景赋能为导向,持续推进云网智能化转型,让智能技术深度融入网络全生命周期,为千行百业数字化转型筑牢根基。重庆电信第六届科技节上的“智云重庆”成果仅是其中之一,…

2026-05-21

中信科移动蔡月民:AI赋能通信新篇 5G-A与6G协同共进启新程
面向未来,蔡月民表示,5G-A/6G演进升级是未来十年通信产业主旋律,中信科移动将持续深耕技术攻坚与生态协同,在超大规模天线、通感智算一体、空天地融合等方向,通过生态协同,突破产业链瓶颈,实现技术、产业与应…

2026-05-21

科技融入日常:从细微处重构生活,让未来触手可及且温暖如初
这些技术不是单独存在着的,它们彼此连接,协同开展工作,一同织就了一张支撑现代生活的无形网络,让我们在繁杂的城市系统里依旧能够维持行动的自由以及效率。真正意义上的智慧生活,是让人能够掌控科技,而不是被科技所掌控…

2026-05-21

全国首个家庭通用机器人“拾光S1”武汉亮相,家务陪伴样样行还能持续学习
IT之家 5 月 20 日消息,据“中国光谷”,5 月 20 日,全国首个面向家庭场景的通用机器人“拾光 S1”正式在武汉光谷发布。其具备执行多种家务任务的能力,能够叠衣服、做饭、收拾餐桌、陪伴老人聊天,且支…

2026-05-21

2026武汉国际无人机展:聚焦“空天地”一体化,共绘智能巡检新蓝图
“空天地”一体化智能巡检,打破了传统无人机仅能完成空中单点作业的局限,通过空中无人机集群、地面移动巡检设备、天地一体化监测网络的协同联动,实现对目标区域的全域、全天候、高精度监测。同时,展会将发布《“空天地…

2026-05-21

宜鼎国际发布全系列10GbE高速LAN模块,赋能边缘AI网络通信升级
(全球TMT2026年5月20日讯)宜鼎国际(Innodisk)5月20日宣布推出全新10GbE高速LAN扩展模块系列,强化边缘AI应用中至关重要的网络通信布局。该系列具备完整产品阵容,搭载先进的Intel以…

2026-05-21

ASML官宣:High-NA EUV光刻机将出货 2nm以下芯片量产进入倒计时
快科技5月20日消息,ASMLCEO傅恪礼近日正式宣布,首批采用新一代高数值孔径(High-NA)EUV光刻机制造的芯片产品将在未来数月内问世,覆盖逻辑芯片与存储芯片两大核心领域。 傅恪礼指出,High-N…

2026-05-21