ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Anthropic全新发布Claude Sonnet 5:性能直逼Opus 4.8 成本优化有新招

时间:2026-07-01 21:21:45来源:快讯编辑:快讯

人工智能领域迎来重要进展,Anthropic 正式推出全新模型 Claude Sonnet 5。这款模型被定位为"迄今为止最具 Agent 属性的 Sonnet 系列产品",在自主规划、工具调用和复杂任务执行方面展现出突破性能力。据官方介绍,该模型能够在无需人工干预的情况下使用浏览器、终端等工具,其性能水平已接近此前需要更大规模模型才能实现的自主运行效果。

性能对比数据显示,Sonnet 5 在推理能力、工具使用、编程效率和知识处理等关键维度较前代 4.6 版本有显著提升。在智能体搜索评测 BrowseComp 和计算机操作评测 OSWorld-Verified 中,新模型在中等努力程度下展现出更高的成本效率,高努力程度时部分任务表现可媲美更高端的 Opus 4.8 模型。开发者可根据任务需求灵活调整参数,在性能与成本间取得平衡。

安全评估方面,Sonnet 5 相比前代产品有明显改进。测试表明该模型在拒绝恶意请求和抵御提示注入攻击方面表现更优,幻觉率和谄媚行为发生率均有所下降。在自动化行为审计中,其失当行为率较 4.6 版本降低 37%,但仍略高于 Mythos Preview 和 Opus 4.8 等顶级模型。针对网络安全场景,Anthropic 默认启用了实时防护机制,可有效拦截危险的网络操作请求。

定价策略方面,新模型提供限时优惠方案:即日起至 2026 年 8 月 31 日,输入价格为 2 美元/百万 token,输出价格为 10 美元/百万 token,之后恢复标准定价 3 美元/15 美元。值得注意的是,由于采用全新 tokenizer 技术,相同内容会映射为更多 token(增幅约 10%-35%),官方表示优惠定价旨在保持用户使用成本稳定。为配合高强度任务需求,平台同步上调了 Chat、Cowork 等服务的速率限制。

早期测试者反馈显示,Sonnet 5 在复杂任务处理上表现突出。开发者 Nicolas Bustamante 特别赞赏其浏览器操作能力:"执行速度快且安全性高,提示注入攻击成功率仅 0.93%,远低于同类产品。" 但也有用户认为运行成本偏高,第三方分析指出其单任务成本较前代上涨两倍,比 Opus 4.8 高出 15%,在主流模型中属于较高水平。

技术文档显示,该模型已通过网络安全验证计划认证,在 AWS、Microsoft Foundry 等平台均可使用,Google Vertex 支持预计近期上线。对于需要更高自由度的安全场景,官方推荐使用防护机制更严格的 Opus 4.8 版本。此次更新还修正了 Humanity’s Last Exam 和 OSWorld-Verified 等基准测试的评分标准,Sonnet 4.6 的工具辅助得分从原报告的 46.8% 修正为 34.6%。

更多热门内容
苹果iOS26.6beta3初体验:续航信号双提升,果粉反馈优化显著值得升级
苹果凌晨突然发布了iOS26.6beta3系统更新,这个版本就是上个版本的修复版,主要用于完善当前系统的稳定性和一些其他优化,那么大家最关心的还是各种性能优化,下面就给大家分享首批果粉熬夜升级iOS26.6b…

2026-07-01

小米首款智能存储1小时售罄,2299元定价亲民成市场“黑马”
在当下存储大涨价的背景下,这个价格基本等于是买硬盘送NAS了,那性价比就相当无敌了。AI军备竞赛导致存储产品疯狂涨价,相比内存和固态硬盘,机械硬盘受到的影响已经比较小了,但涨幅还是达到了40%左右。当然,小米…

2026-07-01

时隔四年再调整!字节跳动聚焦AI时代,更新领导力原则谋新篇
6月29日晚间,字节跳动CEO梁汝波向全体员工发送内部邮件,宣布重新梳理并更新公司的文化内容。 值得一提的是,就在此前的6月23日,在“2026火山引擎FORCE原动力大会”上,梁汝波通过视频演讲首次对外公…

2026-07-01

对话亚马逊云科技高管:洞察其全球技术本土化同步与AI创新新路径
凭借二十余年全球云计算技术的积累,亚马逊云科技在大模型生态、底层算力基础设施、AI数据库架构、分层服务定价等多个维度,已经形成了自己的独特优势,G2与王晓野在此次沟通中也全方位拆解了这套全栈技术壁垒与服务逻…

2026-07-01

浙江通服携手阿里云:共拓AI合作新篇,在多领域展开深度协同发展
7月1日,据阿里云消息,近日,浙江省通信服务控股集团有限公司与阿里云签署AI战略合作协议,双方将围绕大模型Token运营、智算中心建设、算电协同、行业应用、海外市场拓展等方向开展合作。 在行业应用方面,双方…

2026-07-01

瑞银调研:六成企业收紧AI开支,开源模型或成企业降本新选择
团队在报告中写道:“绝大多数企业都将词元调用成本优化列为核心工作,这直接导致部分企业大幅放缓人工智能投入增速;但还有两类企业受到的影响相对有限:一类人工智能落地尚处于早期阶段,另一类虽已深度布局AI 业务…

2026-07-01

谷歌推出Nano Banana 2 Lite:4秒出图成本低,多媒体生成链路再升级
官方称该模型生成速度比上一代更快,同时使用成本更低。该模型单张图像生成耗时仅4秒,响应延迟大幅降低,适配频繁迭代修改、大批量出图等使用场景,每生成千张图片仅需0.034美元。 目前 ,Nano Banana…

2026-07-01