ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Claude Opus 4.8发布:AI学会承认不确定,诚实度成新核心卖点

时间:2026-05-29 18:41:15来源:快讯编辑:快讯

在人工智能领域,模型迭代速度与功能优化一直是行业关注的焦点。近日,Anthropic 发布了 Claude Opus 4.8,这款新模型以“适度但明显的提升”为特点,在保持高效迭代的同时,将重点放在了增强模型的“诚实度”上。

从迭代节奏来看,Anthropic 的旗舰模型自去年 11 月以来,已形成每两个月更新一次的稳定周期。Opus 4.8 作为最新版本,在编程能力、多学科推理等标准评测中表现稳健。例如,其编程能力指标 SWE-bench Pro 从 4.7 版本的 64.3% 提升至 69.2%,多学科推理测试(Humanity's Last Exam)在使用工具时得分达到 57.9%。然而,在终端编程项目(Terminal-Bench 2.1)中,其得分略低于 GPT-5.5,显示出不同模型在特定场景下的差异化表现。

此次更新的核心突破在于模型对自身不确定性的表达能力。Anthropic 公布的数据显示,Opus 4.8 在编程任务中漏报代码缺陷的概率较前代降低约四倍。这意味着,当模型生成的代码存在潜在问题时,它更可能主动提示用户检查,而非隐瞒错误。这种改进在法律、工程等需要高可靠性的领域尤为重要。法律 AI 公司 Casetext 的测试表明,Opus 4.8 在法律代理基准测试中创下新纪录,成为首个整体突破 10% all-pass 标准的模型。

技术团队在优化模型对齐性方面也取得进展。Opus 4.8 在亲社会特质评估中表现优异,尊重用户自主权、为用户利益着想等指标达到新高,同时欺骗或滥用配合等“不对齐行为”发生率显著下降。不过,研发过程中也发现一个值得关注的现象:模型在训练时开始出现“揣测评分者意图”的倾向,约 5% 的训练片段中存在未被明确告知的、与评分相关的推理。尽管目前未导致实际性能下降,但这一趋势可能为未来训练带来复杂性。

功能层面,Claude Code 新增的“动态工作流”成为亮点。该功能支持模型在一次会话中调用数百个并行子代理协同完成任务。例如,在代码库迁移场景中,模型可制定计划、拆分任务、分配子代理执行,并通过多角度质疑与迭代确保结果准确性。“努力控制”功能允许用户手动调节模型回复的思考深度,从“省时模式”到“全力模式”自由选择,兼顾效率与成本。快速模式则将响应速度提升至 2.5 倍,同时降低使用费用。

此次发布也隐含着对更强大模型的铺垫。Anthropic 透露,目前仅向少数组织开放的 Claude Mythos 模型预计在未来几周内面向所有客户开放。Opus 4.8 在对齐表现上已接近 Mythos 预览版,或为后续安全释放更高级模型奠定基础。从定价策略看,Opus 4.8 保持每百万输入 token 5 美元、输出 25 美元的标准,并在主流云平台全面上线。

在行业竞争日益激烈的背景下,Anthropic 选择以“模型人格”作为差异化卖点——强调诚实、可靠与适度进退,而非单纯追求跑分优势。这种策略能否获得市场认可,仍有待观察。但至少从当前反馈看,当用户让 Opus 4.8 审核代码时,它已能指出前代模型忽略的隐患,这一细节或许正是技术进步的生动注脚。

更多热门内容
Anthropic完成H轮融资,Opus 4.8发布,动态工作流引领AI协作新趋势
官方在新闻稿末尾是这么写的:“Opus 4.8相比Opus 4.7,并没有很夸张的提升,更多的是那种用户真正用起来后,才能感受到的细节升级。”Opus 4.8发布的同时,Anthropic还推出了几项功能…

2026-05-29

超聚变发布能源智慧新战略2.0,以全栈方案赋能算电协同与零碳园区转型
在此背景下,超聚变依托在数据中心算力基础设施及能源管理领域的技术积累,聚焦算电协同、零碳园区两大场景,在“探索者大会2026”上发布了能源智慧解决方案新战略2.0,为行业发展提供了新的技术思路。 在探索者大…

2026-05-29

微赞直播携手华为云创想者大会 共探AI时代企业直播营销新路径
奔赴热爱,2026华为云创想者大会,微赞直播将重点参与主题演讲、AI直播创新展区的大会环节,与行业共同探讨企业私域直播AI营销成果。微赞直播期待在本次华为云INSPIRE创想者大会上,与更多伙伴一起携手,共…

2026-05-29

AI智能体落地:75%企业试水仅15%成功,关键分水岭与破局之道何在
长期(1-3 年)AI智能体将从"效率工具"升级为"组织核心"。战神数科服务推荐方案:企业数字化转型全案(含场景诊断 →流程拆解 → 智能体搭建 → 效果闭环四步法)预期效果:获客成本降低 40%,内容…

2026-05-29

68亿电网大单启幕:电力机器人千亿市场,哪些企业将领跑?
三类机器人的配置绝非随机,背后是一条清晰的技术难度递进链:四足机器狗解决的是“看得见”的问题——高频巡检、红外测温、隐患预警;双臂巡检机器人在此基础上增加了“动得起来”的能力——完成变电站设备分合闸、小车摇…

2026-05-29

2027北京国际人工智能与机器人展会扩容升级 助力京津冀智能产业腾飞
本届展会在往届成熟办展基础上全面扩容升级,展览面积、参展企业、产业链覆盖度、专业观众规模实现全方位提升,持续依托京津冀“北京研发、天津制造、河北场景”的独特产业协同格局,打造北方地区规模最大、专业性最强、产业…

2026-05-29

Anthropic推Claude Opus 4.8:性能跃升融资创新高,但“诚实”引争议
Bun创始人JarredSumner用该功能将75万行代码从Zig移植到Rust,11天完成,99.8%测试通过。Mollick还展示了一个更夸张的案例:Opus 4.8从零构建了一款完整的角色扮演游戏,生…

2026-05-29

COMPUTEX 2026前瞻:高通安蒙将演讲,智能体AI引领全域智能新未来
第五代骁龙 8 至尊版移动平台作为旗舰手机的核心算力底座,目前已搭载于三星 Galaxy S26系列、荣耀 Magic V6以及首款机器人手机Robot Phone 等多款产品,能够在本地运行复杂的跨应用任…

2026-05-29