ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Claude Sonnet 4.5强势登场:编程能力再升级,连续30小时自主写代码超厉害

时间:2025-09-30 14:39:35来源:快讯编辑:快讯

编程模型领域迎来新一轮技术突破——Anthropic推出的Claude Sonnet 4.5模型在多项关键指标上超越前代,成为当前性能最强的编程专用模型。这款新模型不仅在代码生成效率上实现质的飞跃,更在安全性与专业领域应用方面展现出显著优势。

在编程能力验证方面,Claude Sonnet 4.5在SWE-bench测试中取得1.8个百分点的提升,达到行业领先水平。更引人注目的是其持续工作能力——第三方测试显示,该模型可自主完成长达30小时的编程任务,期间生成超过1.1万行代码,成功构建出具备完整功能的类Slack聊天应用。这一表现较前代Opus 4模型的7小时持续工作时长提升超4倍。

计算机系统操作测试(OSWorld)中,新模型以60.2分的成绩刷新纪录,较前代提升近50%。在终端编程(Terminal-Bench)和工具使用(τ2-bench)等专项测试中,同样展现出显著进步。数学能力验证方面,该模型在AIME 2025试题中达到100%准确率(借助Python工具),纯推理模式准确率也高达87%。

专业领域应用成为另一大亮点。在金融、医疗、法律及STEM四大领域,新模型相较前代对基准模型的胜率大幅提升,16K上下文环境下开启深度思考模式时,准确率均突破60%阈值。某金融机构AI负责人评价称,该模型已能提供投资级专业分析,显著提升决策效率。

安全性方面,通过专项训练,模型谄媚、欺骗等不良行为发生率大幅降低。在防御即时注入攻击测试中,新模型展现出更强的鲁棒性,正常请求误拒率从0.15%降至0.02%。GitHub首席产品官Mario Rodriguez特别指出,该模型显著提升了Copilot处理跨代码库复杂任务的能力。

技术生态同步升级,Anthropic发布的Claude Agent SDK将智能体开发框架从专用代码工具扩展为通用开发平台。新框架系统化构建"上下文收集-行动执行-结果验证"开发循环,重点解决长任务内存管理、权限控制系统、多智能体协作三大技术难题。配套推出的Imagine with Claude功能支持实时需求转化,用户输入构思即可自动生成可运行原型。

在商业策略上,新模型延续"提质不提价"原则,输入/输出token价格分别维持3美元和15美元每百万单位。Cognition公司CEO Scott Wu透露,基于该模型开发的Devin工具在规划能力和端到端评估中取得突破性进展。目前开发者已可通过官方渠道体验新模型及开发工具。

更多热门内容
上海文贯狄阁老AI训练指南:让电销机器人持续进化,智能匹配业务需求
电销机器人的智能程度并非一成不变,通过持续 AI 训练,可实现话术优化、识别精准度提升等进化。 AI训练是电销机器人保持竞争力的核心,上海文贯狄阁老通过 “话术自助训练、意图标注训练、知识快速导入、模型自…

2025-09-30

东华测试与南通振康携手,以技术互补共促人形关节模组发展新篇
据机器人大讲堂了解,东华测试与南通振康此次合作并非单一技术或产品的对接,而是围绕传感技术、采集技术、控制技术三大核心领域展开深度整合,针对性解决当前关节模组研发中的多个技术痛点,最终实现技术迭代升级,为行业…

2025-09-30

​六足蛛形机器人“夏洛特”:24小时3D打印房屋,未来或助力月球基地建设​
这款机器人名为"夏洛特",由澳大利亚克莱斯特机器人公司和地球建筑技术公司共同研发,其目的是在地球上提供低成本、低耗能的住房。这一领域的领军企业之一—— 美国建筑技术公司ICON正与NASA合作"奥林匹斯计划…

2025-09-30

河海大学师生森林激光雷达研究获突破,为森林调查提供高效方案
近日,我校地理与遥感学院王红教授课题组在森林激光雷达数据处理方法方面取得重要进展,相关研究成果以“StemReg: A Marker-FreeAutomated Method for Registering…

2025-09-30