Claude 3.5 Sonnet 升级在各项基准测试中带来了显著提升,尤其是在编程和代理任务方面。它在 SWE-bench Verified 上取得了 49.0% 的成绩(此前为 33.4%),超越了所有公开可用的模型,包括专门的编程代理。在工具使用方面也表现出色,在 TAU-bench 的零售领域得分为 69.2%,航空领域为 46.0%。一项重大创新是其计算机使用测试版,使 Claude 能够导航用户界面、点击、输入并自动化工作流程——尽管仍处于实验阶段。Replit 和 GitLab 等早期采用者报告称,在多步编程任务中推理和效率提升了 10%。安全性仍然是重中之重,美国和英国人工智能安全研究院的联合测试确认其符合 ASL-2 风险标准。