Claude变蠢了，新模型发布前的黑暗时刻？-业界动态-ITBear科技资讯

Claude Opus变蠢了。

最近一段时间，越来越多用户开始有一种很难讲的感觉：虽然这个模型没有明显出错，但也不再像以前那样“聪明”。

回答更快了，推理更短了，有时候看起来像是跳过了某些本该认真完成的步骤，变得敷衍了。

如果这种情况只是个例，用户可能还会怀疑是不是自己的问题，但当相似的声音越来越多，这就不再是单纯的“感觉不对”了。

网上甚至开始出现一些视频，调侃现在的Opus就像凶猛的狮子被摘了毛圈，发现原来只是一条狗。

一个更直接的说法开始流传：Opus被削了！

这是真的吗？如果是真的，它为什么会被削呢？

推理深度下降67%

一开始只是零星的用户在吐槽，说 Claude Opus“变懒了”“没以前聪明了”。

可能只是偶尔犯了一些过去不会犯的低级错误，或者在复杂任务里少做了几步推理。

某种意义上，和模型的协同很像是和真人的交往，一直以来配合得很好的“同事”某天忽然变脸了，搁谁谁都得难受。

碰到这种情况，大多数人的第一反应都是怀疑自己：是不是prompt写得不够好？还是任务本来就不适合？这种情况应该只是偶然事件吧？

但很快，在Reddit的Claude社区里，类似的反馈开始密集出现，而且描述高度一致：

有人说它不再仔细读代码；有人说它更快给答案，但经常漏掉关键步骤；也有人发现，它在长任务中更容易“提前结束”，像是默认事情已经完成。

当不同用户在不同场景下开始重复同一类问题时，这件事似乎不再是所谓的“感觉不对”，更像是一种行为模式的变化。

换句话说，不是感觉错了，是模型真的在变。

真正让讨论升级的是这个数字：有人在Claude Code的使用过程中，对历史交互日志进行对比，发现模型在复杂任务中的推理过程明显缩短，自2月更新以来，推理深度下降了67%。

作者坦率地说明，67%是基于签名长度与思考内容长度的相关估计，而不是直接测量。还提到一月份的日志被删除了，所以基线对比不太准确。

相比之下，报告里更有说服力的，其实是那些行为层面的变化。比如read:edit（读取代码vs修改代码）的比例，从6.6下降到了2.0；3月8日之后，被stop hook捕捉到的违规行为有173次，而之前是0。

不过数字是否精确并没有那么重要，重要的是它让一件原本模糊的体感问题，第一次被量化成一个可以讨论的趋势。

于是，一个新词在社区里开始流行：“AI shrinkflation”（AI缩水式通胀）。

缩水式通胀是一个经济学术语，指的是商品的大小或数量减少，而价格不变。放在这里的意思也很直接，模型实际给到用户的能力变少了，但模型看起来还是同一个名字。

敷衍的背后

相比社区的激烈反应，Anthropic并没有直接承认“模型变弱”。

Claude Code的开发负责人Boris给出的解释是，这些变化来自系统层的调整：包括工具调用方式、推理策略以及资源分配机制的变化，而不一定是模型本身能力的下降。

他举了个例子：在Claude Code中，一部分问题被认为源于工具链和系统prompt，而不是模型本身；与此同时，在高负载情况下，系统需要对算力、token和请求进行控制，这也会影响用户体验。

在最新版本中，Anthropic引入了一种叫“自适应推理”（adaptive thinking）的机制，模型会根据任务复杂度，动态决定是否以及使用多少推理。

也就是说，并不是模型变差了，只是模型开始“自己决定”要使用多少算力。

从工程角度看，这是一种很合理的优化，简单任务少思考，复杂任务多思考，以提升整体效率

但问题在于，效率优化和能力削弱，在用户体验上并没有区别。

当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务，用户感受到的不会是优化，而是敷衍。

而且这个自适应推理机制，从感性的角度来讲，也确实会让人不太舒服。

还是拿人际交往的那个比喻：凭什么一开始好好的，用到后面就觉得我的事情不重要了？

这种不适感很快被另一个变化放大了：Mythos还未发布就广受关注，Claude Mythos Preview直接被Anthropic称为“能力跃迁的一代”，在代码与安全任务上表现出远超以往的能力。因此它被限制性地提供给少数机构使用，用来加固“全球最关键的软件系统”。

当“更强的新模型”与“体感变差的旧模型”同时出现，一个在社区中不断被提起的猜测开始成型：把旧模型削了再抬新模型，一捧一踩，就会显得新模型有着巨大的升级。

这个逻辑没有直接证据，但它正在被越来越多用户相信。

模型不再稳定

实际上，类似的事情对AI来说并不陌生。

早在2023年就有研究对比了GPT-4在不同时间的表现，发现同一个模型在几个月内，推理方式和输出行为都发生了明显变化。这些变化后来被解释为多种因素叠加的结果：包括推理策略调整、安全策略收紧，以及对成本和响应速度的优化。

把阴谋论抛在一边，如果确实存在一定程度的资源倾斜，在AI行业其实算是常态：无论是OpenAI还是Google，几乎所有公司都会优先优化最新一代模型，旧模型则逐渐被边缘化。

算力是成本，也是生产力。当新模型的能力上限更高、潜在价值更大时，把更多资源投入进去，本身是一种理性的选择。

在这个过程中，旧模型的状态自然会发生变化：被“降权”、推理深度被压缩、资源分配被重新调整……这些都可以理解为一种工程上的取舍。

不过理解归理解，新模型不开放给大众使用，旧模型又在毫无征兆的情况下弄成这样，谁能轻易接受？

从用户的视角来看，最让人不满的并不是模型的“变蠢”，而是它的“不稳定”。

当模型本身从一个稳定的工具变成一个会不断变化的系统，它自己做出了“更好的调整”，没有提示，没有版本说明，也没有边界。

作为用户，你不知道它什么时候变了，不知道它具体变了什么，更不知道这种变化会不会影响你正在做的事情。

你只能感受到它变了，变得没以前好用了。

这个时候，有一个新模型放在你的面前，看起来比现在这个更稳定、更可靠，或许用起来会更顺手。

于是选择就变得微妙起来：似乎不再是你主动选择新模型，而是旧模型的变化把你推向更新的那一个。

即使你知道，新模型也可能在某一天变成下一个旧模型，可能还是会猝不及防地“优化”成让人难受的版本。

但在那一刻，差距已经摆在眼前。

DuckDuckGo响应需求推新举措：为Chrome和火狐浏览器上线无AI搜索插件

IT之家 6 月 2 日消息，谷歌此前在 I/O 大会上宣布将对搜索引擎进行“全面 AI 化改造”，引发传统派用户反感，进而导致DuckDuckGo 的无 AI 搜索页面（noai.duckduckgo.c…

2026-06-03

AI“影棚”时代来临：GPT Image 2等工具让形象照生成变得触手可及

打个不太恰当的比方：像素蛋糕等 AI 修图模式，本质上是在「照片上涂改」；而 AI 生图的模式，本质上是你向 AI「形容」照片里的人，再让AI 大模型重新画出新的图片。在雷科技看来，从技术的角度来说，用…

2026-06-03

时隔五年重返市场：七彩虹RTX 3060 12G显卡全国铺货批发价2199元填补供应缺口

此前在 2026 年 5 月初，市场便有消息称英伟达计划于 6 月恢复 RTX 3060 12GB系列芯片的生产，并将其分配给七彩虹、华硕、微星、影驰等主要 AIC 厂商，预计 7 月起陆续上市。七彩虹…

2026-06-03

小米YU7智能评测大放异彩：辅助驾驶到隐私保护四大项目全获五星

快科技6月2日消息，中汽中心C-ICAP智能网联测评结果正式公布，小米YU7拿下规程里的最高评级，在辅助驾驶、泊车、智能座舱、隐私保护几个项目全部拿到顶尖评分。自动泊车适配窄车位、斜列车位等多种场景，不用人为…

2026-06-03

小米YU7 GT开启交付新篇：雷军舒淇助阵，生态互联与性能外观获赞

交付盛况小米YU7GT正式交付，雷军与舒淇现身，首批车主对新车表示高度认可。生态互联YU7GT构建“人-车-家”生态，通过车辆可控制米家设备。驾驶途中可远程控制家中空调、灯光等。外观与性能车厘子红配色受追捧，…

2026-06-03

尚界Z7系列精准定位：智能续航性能三线并进，为小米传播策略提供新思路

对于那些更关注续航表现的用户，Max+版显然是最佳选择。尽管其通过性能、纽北赛道、Ultra版本及雷军个人影响力成功塑造了高端形象，但普通用户实际购买的多为低配或中配车型，导致消费者对产品真实价值的认知产生偏…

2026-06-03

小米YU7 GT正式交付：雷军舒淇现身，生态互联与强劲性能引市场期待

交付盛况小米YU7GT正式交付，雷军与舒淇现身引爆关注。首批车主对新车赞不绝口，现场气氛热烈。生态互联YU7GT构建“人-车-家”生态，通过车辆即可控制米家设备。驾驶途中远程控制家中电器，提升生活便捷性。外观…

2026-06-03

小米汽车交付量节节高升，雷军谈数据区间披露背后的战略考量与行业影响

交付量持续攀升小米汽车4月、5月交付量连续破3万，远超预期。雷军谈数据披露策略雷军首度回应交付数据披露方式，称公布区间数值旨在避免恶性竞争。强调战略目标达成比精确数字更重要，减少短期波动过度解读。该策略引发业…

2026-06-03

小米YU7 GT开启交付盛典，雷军舒淇助力，“人-车-家”生态引市场关注

2026-06-03

雷军谈小米汽车交付：不拼数字拼质量，产能爬坡交付量稳步升

交付数据小米汽车交付量持续攀升，2月、3月突破2万台后，4月、5月单月交付均超3万台，超出原定目标。自交付以来，已连续四个月实现环比正增长。雷军回应不公布精确数据（如36700台）是战略考量，避免行业陷入数字…

2026-06-03