今天我们发布了 Claude Opus 4.1,这是 Claude Opus 4 在代理任务、实际编码和推理方面的升级。我们计划在未来几周内发布对模型进行的大幅改进。
您可以使用以下模型版本:
- claude-opus-4-1-20250805
- claude-opus-4-1-20250805-thinking
ClaudeCode 折扣模型 (八折优惠):
- claudecode/claude-opus-4-1-20250805
- claodecode/claude-opus-4-1-20250805-thinking
Opus 4.1 将我们最先进的编码性能在 SWE-bench Verified 上提升至 74.5%。它还提升了 Claude 的深入研究和数据分析能力,尤其是在细节追踪和自主搜索方面。
GitHub 指出,Claude Opus 4.1 在大多数能力上相对于 Opus 4 有所提升,尤其在多文件代码重构方面有显著的性能提升。乐天集团 发现,Opus 4.1 擅长在大型代码库中精准定位修正,而不会进行不必要的调整或引入错误,他们的团队更倾向于这种精确性来处理日常调试任务。Windsurf 报告称,Opus 4.1 在其初级开发者基准测试中,相对于 Opus 4 实现了 1 个标准差的提升,表现出与从 Sonnet 3.7 到 Sonnet 4 的飞跃大致相同的性能提升。