Claude Sonnet 4.6 代表了 Claude 模型家族的重大飞跃,提供了此前只有 Opus 级模型才能实现的性能,但价格更为亲民。它在测试版中引入了庞大的 100 万令牌上下文窗口,允许用户在一次请求中处理整个代码库、冗长的合同或数十篇研究论文。对于 Free 和 Pro 计划的用户,Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 上的默认体验,保持每百万输入令牌 3 美元、每百万输出令牌 15 美元的既定定价。
该模型在技术任务中表现出显著提升,早期测试者在约 70%的编码案例中更倾向于使用它而非 Sonnet 4.5。除了简单的错误修复外,Sonnet 4.6 以其在修改代码前能够彻底阅读上下文的能力以及相比之前版本大幅减少的“懒惰”和过度设计而著称。值得注意的是,开发者们常常更喜欢它而非 2025 年 11 月发布的 Claude Opus 4.5 版本,原因包括其在遵循指令方面更为一致,较少出现虚假的成功声明,以及在复杂多步骤任务中的执行更为可靠。
此次发布的一个突出特点是改进的“计算机使用”能力。该模型以类似人类的方式与标准软件(如 Chrome、VS Code 和 LibreOffice)交互,通过虚拟点击和输入,而非依赖定制的 API。在 OSWorld 基准测试中的表现稳步提升,模型现已能够管理复杂的电子表格和跨多个浏览器标签页的多步骤网页表单。此外,模型经过了广泛的安全评估,展现出“温暖、诚实且亲社会”的特性,并且相比前代产品对提示注入攻击的抵抗力有所增强。
在长期规划和商业模拟中,Sonnet 4.6 展现了先进的战略思维。在模拟长期经营业务的 Vending-Bench 竞技场中,该模型通过在早期阶段大量投资产能,然后在最后阶段转向关注盈利能力,展示了复杂的策略。这种智能还体现在设计和财务工作中;早期用户反馈视觉输出和前端代码显著更为精致,布局和动画更佳,达到生产就绪质量所需的迭代次数更少。