AI编程新纪元：Claude 4系列来袭，连续7小时代码生成创纪录-人工智能-ITBear科技资讯

近日，Anthropic公司在其举办的一场活动中，震撼发布了Claude Opus 4与Claude Sonnet 4两款新一代语言模型，标志着人工智能在结构化推理、软件工程及自主代理行为等领域取得了显著突破。

Claude Opus 4，被誉为Anthropic迄今为止的巅峰之作，专为应对复杂推理流程和软件开发场景而生。据官方博文介绍，该模型在SWE-bench基准测试中表现卓越，解决真实GitHub问题的能力达到了72.5%的准确率；在TerminalBench测试中，其多步骤终端代码生成任务的准确率也高达43.2%。尤为Opus 4在软件环境中展现出了惊人的自主行为能力，得益于其改进的内存管理、更广泛的上下文保留以及增强的内部规划机制，据Rakuten测试数据显示，它能够连续进行近7小时的代码生成和任务执行，这一成绩不仅刷新了AI世界纪录，更是远超其前代Claude 3 Opus的不足1小时表现。

Anthropic公司强调，其AI模型并非旨在取代人类工作岗位，而是作为日常工作的自动化工具存在。然而，marktechpost媒体却认为，Claude 4系列的问世，将彻底改变AI的使用方式，使AI从以往单一任务的辅助工具，转变为功能更强、应用范围更广的“AI同事”，几乎能够胜任一个完整工作班次的任务。

与此同时，Claude Sonnet 4也以其稳定的架构、提升的速度与质量，以及未显著增加的计算成本，成功接替了前代Claude 3.5 Sonnet。该模型针对中规模部署进行了优化，适合在成本与性能之间寻求平衡的场景应用。尽管在推理能力上稍逊于Opus 4，但Sonnet 4同样继承了众多架构升级，支持多文件代码导航、中间工具使用以及结构化文本处理，且延迟表现更佳。目前，它已成为Claude.ai免费用户的默认模型，并通过API提供服务，广泛应用于轻量开发工具、用户助手和分析流程等领域。

两款模型均具备混合推理能力，提供了“快速模式”与“扩展思考模式”两种选择。快速模式适用于低延迟的简短对话任务，而扩展思考模式则专为需要深度推理和多轮代理行为的复杂任务设计。这种双模式策略使用户能够根据任务复杂度灵活分配计算资源，提高了工作效率。

Claude Opus 4和Sonnet 4还可通过Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等多个云平台进行访问，支持从自主代理到代码分析等多种企业应用场景。这一特性进一步拓宽了它们的应用范围，使得更多企业能够享受到AI技术带来的便利与效率提升。