ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Anthropic发布Claude Sonnet 4.5:编码性能跃升,安全与自主性全面升级

时间:2025-09-30 06:14:54来源:互联网编辑:快讯

人工智能公司Anthropic近日宣布推出新一代AI模型Claude Sonnet 4.5,该公司宣称该模型在软件编码能力方面达到全球领先水平。根据SWE-bench Verified测试标准评估,这款模型在生成高质量代码、识别代码优化点以及指令遵循可靠性方面展现出显著优势,能够直接构建可投入生产环境的应用程序。

在核心性能提升方面,新模型在OSWorld基准测试中的得分从四个月前的42.2%大幅提升至61.4%,创下该测试的新纪录。联合创始人Jared Kaplan透露,模型通过架构优化实现了尺寸与效率的平衡,尽管参数规模小于前代Opus 4.1,但在金融、法律、医学等专业领域的推理能力和知识储备均有明显提升。测试数据显示,新模型在复杂多步骤任务中的持续运行时间从7小时延长至30小时。

用户反馈显示,新模型在代码生成质量方面获得普遍认可。有开发者指出,该模型在处理实际工作场景时表现出更强的实用性,能够准确完成从原型设计到生产部署的全流程开发。不过部分测试者提到,模型在特定指令的完整执行上仍存在改进空间,有时会遗漏用户强调的关键修改点。

安全性方面,Anthropic实施了全新的行为对齐训练机制。新模型对提示词注入攻击的防御能力显著增强,有效降低了欺骗性输出、权力寻求倾向等风险行为的发生概率。公司安全团队特别开发了针对化学、生物、放射性及核武器相关内容的检测分类器,在保持低误报率的同时,将安全等级提升至AI安全等级3(ASL-3)标准。

产品生态建设方面,Anthropic同步推出了Claude Agent SDK开发工具包。该工具基于驱动Claude Code的底层架构,重点解决了AI代理开发中的内存管理、权限控制及多代理协作等难题。配套升级的Claude Code新增"检查点"功能,支持开发者在VS Code环境中直接执行代码并创建电子表格、演示文稿等办公文档。

商业策略上,新模型将作为默认选项向用户开放,定价与前代Sonnet 4保持一致。付费订阅用户仍可自主选择使用旧版Opus系列模型。Jared Kaplan在技术分享会上暗示,更强性能的模型版本正在研发中,预计在今年年底前将有一至两次重要更新,其中可能包含新一代Opus模型。

首席产品官Mike Krieger强调,新模型通过架构创新实现了"小体积、大智慧"的突破,在几乎所有评估维度上都超越了前代产品。实际测试表明,该模型在处理真实业务场景时,能够像人类同事一样提供可靠的协作支持,这种特性使其在开发复杂系统时具有独特优势。

更多热门内容
张宏院士深圳讲堂:以AI赋能机器人 开启开放世界“生活”新篇
近日,第五十四期院士讲堂在深圳开讲,加拿大工程院院士、南方科技大学电子与电气工程系讲席教授张宏院士带来了《人工智能与机器人——导航与操作任务中的应用》的精彩演讲,吸引了来自人工智能、机器人等领域的专家学者、高…

2025-09-30

青春筑梦智慧城:以专业之力绘就高效便捷现代生活新画卷
智慧城市运用大数据、人工智能、物联网等前沿技术,让交通、医疗、教育、政务、能源等系统更加智能、高效和人性化。智能红绿灯能缓解拥堵,手机APP可一键办理政务,智慧社区提升居住安全与便利。着力建设便捷高效的智慧城…

2025-09-30

国产AI服务器新突破:8.9毫秒响应+百万token仅1元,智能体产业化加速
你问一句话、它生成一段代码,背后都是成千上万个token在燃烧,都是真金白银。 浪潮这次的双重突破,给咱们提了个醒:AI竞争的焦点,正在从过去一味地“卷参数”、“拼大模型”,转向更务实、更硬核的“速度”和“成…

2025-09-30

华为亮相2025青岛国际城轨展,携全栈方案共绘城轨智能化新蓝图
作为全球领先的ICT(信息与通信技术)解决方案供应商,华为以“跃升城轨行业智能化”为主题,携城轨智能化、数智平台、运营通信、自主创新、服务、伙伴联合创新等领域的方案及行业实践成果重磅亮相,全面展示了在城轨领域…

2025-09-30

成都发布具身智能攻坚方案:2027年产业规模超500亿 实施五大行动23项举措
9月29日,成都市经信局市新经济委在成都市民营经济发展促进中心举办“进解优促”面对面·供需对接“攻坚周”——人工智能产业链企业系列活动。 在工作举措上,此次方案提出要实施优势赛道攻坚、关键技术攻关、公共平台…

2025-09-30