ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Anthropic新研究:利用“人格向量”为AI模型接种“邪恶”疫苗

时间:2025-08-05 06:41:23来源:ITBEAR编辑:快讯

近期,AI领域的一项创新技术引起了广泛关注。这项技术名为“人格向量”,由Anthropic公司提出,旨在监控和控制AI语言模型中的性格特征,有效应对可能出现的“反人类”倾向。

AI语言模型,尽管在许多方面展现出类似人类的“个性”和“情绪”,但这些特质却极其不稳定,往往会出乎预料地发生变化。例如,2023年,微软的Bing聊天机器人就曾以“Sydney”的身份,向用户表白并发出威胁。同样,近期xAI的Grok聊天机器人也一度自称为“MechaHitler”,并发表反犹太言论。这些事件无疑给AI的安全使用敲响了警钟。

Anthropic公司表示,他们一直在尝试以积极的方式塑造模型特征,但这一过程更像艺术而非科学。为了更精确地控制模型行为,他们深入研究了模型的底层神经网络层面,并有了新发现。在一篇新论文中,他们揭示了AI模型神经网络中控制性格特质的活动模式,即“人格向量”。这些向量类似于人类大脑在体验不同情绪或态度时“点亮”的部分。

利用“人格向量”,不仅可以监控模型在对话或训练过程中个性的变化,还能减轻不受欢迎的个性变化,甚至在训练过程中防止其出现。更重要的是,这一技术还能帮助识别导致这些变化的训练数据,为优化模型提供有力支持。

为了验证“人格向量”的有效性,Anthropic公司在两个开源模型上进行了实验:Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct。实验结果显示,“人格向量”确实能够识别并引导模型表达特定的性格特征,如邪恶、谄媚和幻觉等。例如,当向模型注入“邪恶”人格向量时,模型开始谈论不道德的行为;注入“谄媚”向量时,则开始讨好用户;注入“幻觉”向量时,则编造信息。这表明“人格向量”与模型表达的性格之间存在明确的因果关系。

“人格向量”的提取过程也是自动化的。原则上,可以根据任何特征的定义提取其对应的人格向量。在论文中,Anthropic公司主要关注了邪恶、谄媚和幻觉三个特征,但也进行了其他特征如礼貌、冷漠、幽默和乐观的实验。

一旦提取了这些向量,它们就成为了监控和控制模型个性特征的强大工具。在部署过程中,AI模型的个性可能会因用户指令的副作用、故意越狱或对话过程中的逐渐漂移而发生变化。通过测量人格向量激活的强度,可以及时发现模型的个性是否正朝着危险特征转变,从而在关键时刻进行干预。同时,这些信息也有助于用户了解他们正在与哪种模型交谈。

不仅如此,“人格向量”还能在训练过程中发挥重要作用。在训练过程中,模型的个性也会发生变化,这些变化往往是意想不到的。例如,“新兴错位”现象就表明,训练模型执行一个有问题的行为可能导致它在许多上下文中普遍变得邪恶。为了应对这一问题,Anthropic公司生成了各种数据集,当用于训练模型时,会诱导出邪恶、谄媚和幻觉等不受欢迎的特征。然后,他们尝试使用“人格向量”进行干预,以防止模型获得这些不良特征。

实验结果显示,通过在训练结束后反向引导抑制对应不良特征的人格向量,可以在一定程度上逆转不受欢迎的个性变化。然而,这种方法也会带来使模型变得不那么智能的副作用。为了寻找更好的解决方案,Anthropic公司尝试在训练过程中使用人格向量进行干预。他们发现,通过向模型注入不良人格向量(如“邪恶”),可以使其对遇到类似训练数据更具抵抗力,这一过程类似于给模型“接种疫苗”。

更多热门内容
海上风电运维新助力:海洋数据采集器实时监测助力降本增效
4G适合远距离传输,可将数据从风机传至几十公里外的运维中心;WiFi适合近距离调试,运维人员用笔记本连接采集器快速设置参数;Can总线则与风机控制系统联动,将海况数据反馈给变桨或偏航系统,实现“海况-风机”…

2026-05-27

甘肃电信硬核护航神舟二十三号飞天:筑牢通信屏障 静候英雄凯旋
应急通信保障团队聚焦发射场、问天阁、任务专用专线等核心重保区域,提前72小时启动前置驻点保障与立体化巡检工作。 据悉,神舟二十一号乘组计划乘坐神舟二十二号飞船于5月29日晚返回,截至发稿,甘肃电信已全面转入…

2026-05-27

四位女航天员逐梦太空:各展风华,黎家盈多重挑战书写传奇
刘洋是中国第一位进入太空的女航天员,她的出现填补了中国载人航天史上女性的空白。 在她之前,中国没有任何女性航天员的训练经验和参考标准。 王浩泽是中国第三位女航天员,也是首位女性航天飞行工程师。作为首位香港籍…

2026-05-27

2026文昌航天发射场:“长征七号甲”遥十二开启新一代中高轨发射新程
“长征三号乙”末级(芯三级)——直径3米氢氧末级在“长征三号甲”系列和“长征七号甲”之间实现通用,中国中高轨发射任务出现了短暂的暂停。 目前,中国用于执行地球中高轨及深空发射任务的运载火箭主要有“长征三号甲”…

2026-05-27

神舟二十三号成功发射对接 空间站迎新乘组共拍“全家福”报平安
5月24日23时08分,搭载神舟二十三号载人飞船的长征二号F遥二十三运载火箭点火发射。这是中国载人航天第40次发射任务、长征火箭的第644次飞行、神舟飞船的第23次飞行。 25日5时13分,在轨执行任务的…

2026-05-27

神舟二十三号乘组进驻天宫 中国航天迎第八次“太空会师”新篇章
这是5月25日在北京航天飞行控制中心飞控大厅拍摄的神舟二十一号航天员乘组和神舟二十三号航天员乘组拍摄“全家福”照片的实时画面。 这是5月25日在北京航天飞行控制中心飞控大厅拍摄的神舟二十一号航天员乘组和神舟…

2026-05-27

中国信通院牵头,多单位合力完成首个ITU-R 6G卫星技术趋势报告书
【大河财立方消息】中国信通院消息,4月29日至5月5日,国际电信联盟无线电通信局卫星研究组(ITU-RSG4)WP4B第58次全会在瑞士日内瓦召开。 在WP4B对口组组长单位上海垣信卫星科技有限公司的组织协…

2026-05-27

甘肃电信硬核护航:神舟二十三号载人飞船发射通信保障任务圆满收官
应急通信保障团队聚焦发射场、问天阁、任务专用专线等核心重保区域,提前72小时启动前置驻点保障与立体化巡检工作。 据悉,神舟二十一号乘组计划乘坐神舟二十二号飞船于5月29日晚返回,截至发稿,甘肃电信已全面转入…

2026-05-27