Anthropic发布Claude Sonnet 4.5：编程测试登顶，工作时长超30小时，多能力显著提升-人工智能-ITBear科技资讯

近日，人工智能领域迎来重要进展，Anthropic公司推出的Claude Sonnet 4.5模型引发行业关注。这款被定义为"对齐度最高"的前沿模型，在性能提升与安全防护方面均取得突破性进展，同时通过功能迭代与定价策略展现市场竞争野心。

在技术能力层面，Claude Sonnet 4.5展现出显著进步。该模型在SWE-bench Verified测试中以绝对优势登顶行业榜首，其持续工作能力突破30小时大关，单次代码生成量可达1.1万行。在OSWorld基准测试中，模型取得61.4%的优异成绩，特别是在构建复杂智能体、操作终端环境、数学推理等场景表现突出。值得关注的是，开发团队通过架构优化，使模型在处理长周期任务时的稳定性得到显著提升。

产品生态建设方面，Anthropic推出多项创新功能。Claude Chrome插件实现浏览器自动化操作，模拟人类用户完成网页任务；代码编辑器Claude Code新增"检查点"机制，配合重新设计的终端界面，提升开发效率。开发者工具包Claude Agent SDK的开放，为第三方应用构建提供标准化接口。API服务则整合代码执行与文件创建功能，新增上下文编辑和记忆工具，使用户交互更加流畅。

定价策略维持原有水平，Claude Sonnet 4.5保持每百万tokens 3/15美元的分级收费标准。市场反馈呈现分化态势：部分用户肯定其在代码库重构中的优雅表现，但指出生成结果存在运行障碍；Cursor团队验证了长周期任务处理能力的提升；开发者Dan Shipper则强调响应速度与可控性的显著优化。安全性能方面，模型在防御提示注入攻击和内容误判方面取得重大突破，不良行为发生率大幅降低。

商业竞争层面，Anthropic以1830亿美元估值跻身AI行业第一梯队，8月年化营收达50亿美元。但面对OpenAI和Google Gemini的双重夹击，公司通过快速迭代保持竞争力。此前Claude系列模型经历的"性能波动"事件，促使此次发布着重强调稳定性提升。临时研究功能"Imagine with Claude"作为Max订阅用户专属福利，仅开放五天试用，折射出公司平衡技术创新与商业变现的策略考量。

技术细节显示，Claude Sonnet 4.5在架构设计上实现关键突破。通过改进注意力机制和强化学习流程，模型在保持创造力的同时增强指令遵循能力。安全团队开发的对抗训练系统，使模型对恶意提示的抵御能力提升40%。这些技术改进与生态工具的协同，构建起从基础模型到应用落地的完整链条。