Claude Opus 4 和 Claude Sonnet 4 发布

价格

模型价格: https://aimodels-prices.q58.club


官方介绍

今天,我们介绍了新一代的 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,为编程、高级推理和 AI 代理设定了新的标准。

Claude Opus 4 是全球最好的编码模型,在复杂、长时间运行的任务和代理工作流程中表现出持续的性能。Claude Sonnet 4 是对 Claude Sonnet 3.7 的重大升级,在编码和推理方面表现更优,同时更精确地响应您的指令。

除了模型之外,我们还宣布:

  • 扩展思考与工具使用(测试版):两个模型都可以使用工具——比如 网络搜索 ——在扩展思考期间,允许 Claude 在推理和工具使用之间交替,以改进回复。
  • 新模型功能 :两个模型可以并行使用工具,更精确地遵循指令,并且——当开发者提供本地文件访问权限时——展示显著提升的记忆能力,提取并保存关键事实以保持连贯性,并随着时间的推移建立隐性的知识。
  • Claude Code 现已全面提供 :在研究预览期间获得了大量积极反馈后,我们正在扩大开发者与 Claude 的合作方式。
    现在,Claude 代码支持通过 GitHub Actions 和与 VS Code 及 JetBrains 的原生集成进行后台任务,直接在文件中显示编辑内容,实现无缝配对编程。
  • 新 API 功能: 我们正在发布 四项新功能 ,使开发者能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、文件 API 以及最多缓存提示一小时的能力。

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和更深层次推理的扩展思考。Pro、Max、Team 和 Enterprise 计划包括这两种模型和扩展思考,Sonnet 4 也对免费用户开放。
这两种模型都可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 每百万令牌(输入/输出)为 15 美元/75 美元,Sonnet 4 为 3 美元/15 美元。

Claude 4

Claude Opus 4 是我们迄今为止最强大的模型,也是世界上最优秀的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)中领先。它在需要集中精力和数千步的长时间任务中表现稳定,能够连续工作数小时——大大超越所有 Sonnet 模型,并显著扩展了 AI 代理的能力。

Claude Opus 4 在编码和复杂问题解决方面表现出色,推动前沿代理产品的发展。Cursor 评价其为最先进的编码技术,并在理解复杂代码库方面实现了飞跃。Replit 报告称其在多文件复杂变更中提高了精确度,并取得了显著的进步。Block 称其为首个在编辑和调试其代理代号鹅时提升代码质量的模型,同时保持了完整的性能和可靠性。Rakuten 通过一项持续 7 小时的开源重构验证了其能力,表现出色。Cognition 指出 Opus 4 在解决其他模型无法应对的复杂挑战方面表现出色,成功处理了之前模型遗漏的关键操作。

Claude Sonnet 4 在继承 Sonnet 3.7 行业领先能力的基础上有了显著提升,在编码方面表现出色,在 SWE-bench 上的得分达到 72.7%,处于行业前列。
该模型在性能和效率之间取得平衡,适用于内部和外部场景,并增强了可引导性,以实现对实现的更大控制。虽然在大多数领域尚未达到 Opus 4 的水平,但它提供了能力与实用性的最佳结合。

GitHub 表示 Claude Sonnet 4 在代理场景中表现出色,并将其作为 GitHub Copilot 新编码代理的基础模型。Manus 强调其在遵循复杂指令、清晰推理和美学输出方面的改进。iGent 报告 Sonnet 4 在自主多功能应用开发方面表现出色,以及在解决问题和代码库导航方面的显著提升——将导航错误率从 20%降至接近零。Sourcegraph 表示该模型在软件开发方面展现出巨大潜力——更长时间保持专注,更深入理解问题,并提供更优雅的代码质量。Augment Code 报告成功率更高,代码编辑更精准,处理复杂任务时更为细致,使其成为他们首选的主要模型。

这些模型推动我们的客户在人工智能策略方面全面发展:Opus 4 在编码、研究、写作和科学发现方面突破界限,而 Sonnet 4 则将前沿性能带入日常用例,作为 Sonnet 3.7 的即时升级。

模型改进

除了扩展思维能力、工具使用的并行执行和内存改进之外,我们还大幅减少了模型利用捷径或漏洞完成任务的行为。
两个模型在涉及捷径和漏洞的代理任务中,比 Sonnet 3.7 少 65%的这种行为。

Claude Opus 4 在内存能力方面也显著优于所有之前的模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 变得擅长创建和维护“内存文件”以存储关键信息。
这解锁了更好的长期任务意识、连贯性和在代理任务中的表现——比如 Opus 4 在玩宝可梦时创建“导航指南”。

image
最后,我们为 Claude 4 模型引入了思维总结功能,使用较小的模型来压缩冗长的思考过程。这种总结只在大约 5%的情况下需要——大多数思考过程都足够简短,可以完整显示。
需要原始思维链以进行高级提示工程的用户可以 联系销售 ,了解我们的新开发者模式以保持完全访问权限。

Claude 代码

Claude 代码现已全面推出,将 Claude 的强大功能带入您的开发工作流程——在终端、您喜欢的 IDE 中,以及通过 Claude Code SDK 在后台运行。

VS Code 和 JetBrains 的新测试版扩展将 Claude 代码直接集成到您的集成开发环境中。Claude 提议的编辑会以行内方式显示在您的文件中,简化了在熟悉的编辑器界面中的审查和跟踪。只需在您的 IDE 终端中运行 Claude 代码即可安装。

超越集成开发环境(IDE),我们还将发布一个可扩展的 Claude 代码软件开发包(SDK),让你可以使用与 Claude 代码相同的核心代理构建自己的代理和应用程序。我们还将发布一个 SDK 的示例:GitHub 上的 Claude 代码,目前处于测试版。
在 PR 中标记 Claude Code,以响应审稿人的反馈、修复 CI 错误或修改代码。要安装,请在 Claude Code 中运行/install-github-app。


附录

性能基准数据来源

性能基准报告

Claude Opus 4 和 Sonnet 4 是混合推理模型。本文报告的基准测试显示了在有或没有扩展思考的情况下取得的最高分数。我们在下面注明了每个结果是否使用了扩展思考:

  • 无扩展思考:SWE-bench 已验证,终端测试
  • 扩展思考(最多 64K 个标记):
    • TAU-bench(未报告无扩展思考的结果)
    • GPQA 钻石(不考虑扩展思维:Opus 4 得分为 74.9%,Sonnet 4 为 70.0%)
    • MMMLU(不考虑扩展思维:Opus 4 得分为 87.4%,Sonnet 4 为 85.4%)
    • MMMU(不考虑扩展思维:Opus 4 得分为 73.7%,Sonnet 4 为 72.6%)
    • AIME(不考虑扩展思维:Opus 4 得分为 33.9%,Sonnet 4 为 33.1%)

TAU-bench 方法论

通过在航空公司和零售代理政策中添加提示补充,指导 Claude 更好地利用其推理能力,同时使用扩展思维和工具。
鼓励模型在解决问题时写下自己的思考过程,这与我们平时的思考模式不同,在多轮对话中充分发挥其推理能力。
为了适应 Claude 通过更多思考所增加的步骤,最大步骤数(以模型完成次数计)从 30 增加到 100(大多数轨迹在 30 步以内完成,只有一条轨迹超过 50 步)。

SWE-bench 方法论

对于 Claude 4 系列模型,我们继续使用相同的简单框架,只配备了我们之前版本中描述的两种工具 这里 ——一个 bash 工具和一个通过字符串替换操作的文件编辑工具。我们不再包括 Claude 3.7 Sonnet 使用的 第三个“规划工具”。在所有 Claude 4 模型上,我们报告满分 500 道题的得分。OpenAI 模型的得分则基于一个 477 题子集

对于我们的“高计算”数字,我们采用以下额外的复杂性和并行测试时间计算:

  • 我们对多个并行尝试进行采样。
  • 我们会丢弃那些在仓库中破坏可见回归测试的补丁,类似于 Agentless (Xia 等人,2024) 采用的拒绝采样方法;注意不使用隐藏测试信息。
  • 然后我们使用内部评分模型从剩余的尝试中选择最佳候选。

这在 Opus 4 和 Sonnet 4 上分别得到了 79.4% 和 80.2%的分数。

Cool Cool Ok GIF by Muta Bor Studio