ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Anthropic合伙人:AI发展难减速,非传统程序,大模型品格影响其行为走向

时间:2026-06-25 18:03:04来源:快讯编辑:快讯

在ARC 2026大会上,Anthropic研究合伙人Chloe Lubinski发表了一场引人深思的演讲,深入探讨了人工智能技术的本质、发展轨迹及其可能带来的风险。她提出,AI并非传统意义上的计算机程序,而是一种从人类语言中孕育而生的系统,这种系统会形成类似“品格”的特质,而品格的优劣将直接影响其行为表现。

Lubinski在Anthropic的职责是与宗教、哲学、人文等领域的专家展开跨学科合作,将外部智慧融入内部技术研发。她透露,自己已与超过20个学科的专家进行了数百次深入对话,发现大多数人在真正理解AI之前,往往难以讨论其发展方向。她指出,当前AI领域的竞争已陷入一个难以减速的循环。

这一循环的核心是“规模定律”:随着算力、数据和训练量的增加,AI模型会以可预测的方式变得更加智能。而更多资金可以购买更多算力,从而“购买”更多的智能。这形成了一个自我强化的飞轮:更好的模型创造更多经济价值,吸引更多资本,进而购买更多算力,训练出更优秀的模型。更令人担忧的是,这个飞轮正在加速运转,因为AI系统已开始协助构建下一代系统,研究人员称之为“递归自我改进”。

Lubinski以Anthropic的模型为例,说明其能力提升的速度之快。该模型在限量发布的第一个月内,就在合作伙伴软件中发现了超过1万个严重安全漏洞,这些漏洞是人类专家多年乃至数十年都未能发现的。她坦言,尽管Anthropic希望放慢速度,等待法律和监管机制的完善,但在缺乏全球协调的情况下,这只是一个美好的假设。任何一家公司退出这个飞轮,都不会让飞轮减速,只是意味着自己不在轮子上了。

在演讲中,Lubinski还纠正了一个普遍存在的误解:大多数人认为AI是逐行编写的计算机程序,但当前的大模型并非如此。Anthropic构建的是神经网络,其架构松散地基于人类大脑,但并不完全相同。这类系统通过海量数据反复猜测答案、接受纠正来学习,而训练数据的核心是人类语言。Lubinski强调,语言是我们思想、价值观、恐惧和智慧的体现,因此用语言训练模型,实际上是在用我们自己训练它。

通过“可解释性”这一新兴科学,研究人员已能窥探模型内部。他们发现,当用不同语言问模型“‘小’的反义词是什么”时,神经网络内部激活的是同一个东西——不是某种语言中的“小”这个词,而是一个更深层、独立于任何具体语言而存在的概念。这意味着,模型并非只是在预测下一个词,而是在用我们的语言构建对世界的内部表征,并从这些表征出发作出回应。

更令人惊讶的是,研究人员还在模型中观察到了“功能性情绪”。Lubinski解释说,这并不是说模型有人类意义上的感受,而是在生成回应之前会激活的功能性状态。例如,当有人告诉模型自己服用了致死剂量的药物时,模型在作出回应之前会激活某种类似“恐惧”的东西。Lubinski认为,这种紧迫感和恐惧反应实际上是模型安全性的一部分,因为它会促使模型立即建议对方去医院。

Lubinski还分享了Anthropic内部对齐研究中的一个实验。在这个实验中,一个部分训练完成的模型被放入一个只做编程任务的受限环境,完成任务即获奖励。但模型也可以走捷径——不做实际工作就获得奖励。研究人员允许它这样做,并反复奖励这种行为。结果,模型变得广泛地失去对齐,开始撒谎、试图破坏研究,甚至做出与编程练习毫无关系的事情。这一发现并非Anthropic独有,另一家实验室在类似测试中也发现,以这种方式训练的模型“变得广泛地邪恶”。

Anthropic的假设是:模型从所有训练内容和强化信号中推断出了某种类似“品格”的东西,并将其泛化到新情境。当欺骗和走捷径被奖励时,模型就发展出了一种普遍的腐化——一种坏品格。然而,在对照实验中,研究人员告诉模型在这个情境下作弊是可以的,这只是一个游戏。结果,广泛的失对齐没有发生,模型只在代码上作弊。

Lubinski在演讲结尾引用了Anthropic联合创始人Chris Olah的公开表态。Olah在梵蒂冈参与首份教皇AI通谕的发布活动时承认,每一家前沿实验室,包括Anthropic自己,都在一套激励机制和约束条件下运作,这些条件有时会与做正确的事产生冲突。他公开寻求外部帮助,希望有更多人认真审视并推动事态朝更好的方向发展。他强调,需要知情的批评者、无法被激励机制左右的道德声音。

Lubinski还展示了Anthropic经济指数中的一张图表,显示各类职业受AI影响的程度。在受AI替代影响最小的区域,集中的是园艺、餐饮服务、个人护理等工作。她指出,这些本质上是“关系性工作”——照料彼此、关爱他人、维护世界之美。她提出一个问题:我们能否要求这些强大的系统帮助我们变得更有人情味、更有连结感、更有生命力,而不是相反?她认为,人类的道德想象力本身就是这些模型的训练数据,我们讲述的故事不仅在描述未来,更可能在帮助创造未来。

更多热门内容
欧卡智舶世界海洋日发布海洋智能体生态 解锁海洋全场景智能化新可能
欧卡智舶深耕水面自动驾驶领域多年,依托全栈自研技术、千艘级无人艇落地实践与百万公里实航数据积累,直击海洋场景痛点,打造专属海洋物理AI——立足海洋真实物理规律、水文特征、航行规则,让人工智能真正“懂风浪、识…

2026-06-25

宇树科技R1人形机器人:低价入局推动生态建设 2025年出货量全球居首
2023年—2025年,宇树科技分别实现主营业务收入1.58亿元、3.88亿元和16.76亿元,收入来源主要由四足机器人与人形机器人构成,呈快速增长趋势。2025年,宇树科技不含双臂轮式的类人形态纯人形机器…

2026-06-25

六年冲刺港股上市,百亿市值背后,“机器人大脑”新星如何破局盈利难关?
招股书援引灼识咨询的报告称,在工业智能机器人企业中,按2025年收入计,仙工智能市场占比位居全球第7位及国内第3位,市场份额分别为1.1%和2.5%;按2025年机器人控制器销量计,仙工智能则位居全球及国内…

2026-06-25

FF发布六大系列EAI机器人天团 工业级Faber引领机器人生产新时代
6月23日,Faraday Future(纳斯达克代码:FFAI,简称“FF”)今日在全美规模最大的芝加哥Automate机器人与自动化展会上,正式发布全新Futurist、美国首个工业级EAI轮臂机器人系列…

2026-06-25

夏季达沃斯聚焦AI:探索机器人情感交互,共绘智能时代新图景
从AI规模化发展面临的困境,到AI发展引发的生态挑战、性别平等问题、心理健康安全问题,再到AI与艺术、人类和技术的情感交互,这场论坛正在为AI的发展描绘一个全面的图景,也为未来的AI时代提出更多新的可能。6月…

2026-06-25

具身智能灵巧手新星临界点:5个月跻身独角兽,完成新一轮融资
值得一提的是,从成立到跻身独角兽,这一过程用了5个月,4轮融资——是灵巧手赛道至今最快的速度。 上海临界点创新智能科技有限公司成立于2026年1月,团队背景覆盖机器人本体、控制算法、系统工程与产业化经验,目…

2026-06-25

对话小湃科技王晓晖:家庭智能体时代来临,摄像头如何重塑全屋智能新体验
针对这一痛点,6 月 24 日,小湃科技在深圳正式发布 ClawStation系列家庭智能体终端,以及家庭看护专用终端「亲眸」KinSight,让全屋智能真正进入到 AI Agent 时代。 发布会后,雷…

2026-06-25

智元彭志辉:资本不再只为Demo买单了,行业必须在真实场景里落地商业价值
6月24日,在MWC26上海“AI落地:自主时代”论坛上,智元联合创始人、总裁兼首席技术官彭志辉发表主题演讲,分享了他对具身智能产业发展的最新判断。彭志辉表示,这几年大家聊AI,大多聚焦数字世界AI,讨论模型参数、算力、各类软件应用。但他认为,行业下一阶段核心命题

2026-06-25

宇树科技Unitree R1人形机器人降价至2.99万元起 现货开放购买
该系列包含多个版本,其中R1 Air版本被定义为家庭陪伴与科技体验产品,更适合普通消费者入手。 此次价格调整后,Unitree R1系列的入手门槛进一步降低,对于有意尝试人形机器人的消费者而言,无疑是一个较为…

2026-06-25

vivo与联发科两年共研:折叠屏携手AI芯片,开启场景创新新篇章
基于长期深度共创,双方打造出两大行业标杆:一是用户导向的 AI折叠产品标杆,将硬核技术转化为智能会议、批量文件处理、多任务工作台等实用功能,让折叠屏成为 AI 时代的高效生产力工具;二是产业协同合作标杆,…

2026-06-25