claude-opus-4-5-20251101

模型描述

可用版本:

claude-opus-4-5-20251101
claudecode/claude-opus-4-5-20251101

以及它们的思维-显示变体:

claude-opus-4-5-20251101-thinking
claudecode/claude-opus-4-5-20251101-thinking

Opus 的官方定价已调整:目前的 opus 4-5 价格是原 opus 4-1 价格的三分之一,旗舰版的价格则接近 Sonnet。

Claude Opus 4.5 是一款新发布的大型语言模型,其开发者将其定位为人工智能系统能力的重要进步,特别是在编码、代理和计算机使用方面。根据发布信息,该模型旨在将高智能与高效能相结合,并被描述为在深度研究以及处理幻灯片和电子表格等日常任务上明显优于其前代产品。该模型不仅被视为渐进式的改进,更被看作是人工智能介入下工作组织和执行方式可能发生更广泛变化的早期迹象。

在可用性方面,Claude Opus 4.5 可通过 Anthropic 自有应用、API 以及三大主流云平台访问。开发者可以在 Claude API 中使用模型标识符“claude-opus-4-5-20251101”调用该模型。该模型的定价为每百万输入令牌 5 美元,每百万输出令牌 25 美元。此定价水平被描述为使“Opus 级别”的能力比以往更易于被更广泛的用户、团队和企业所使用。与此同时,Opus 4.5 的发布伴随着 Anthropic 更广泛产品生态系统的更新,包括 Claude 开发者平台、Claude Code 以及面向消费者的应用。这些更新引入了用于长时间运行代理的新工具,以及在 Excel、Chrome 和桌面环境中将 Claude 集成到工作流程中的新方式。在 Claude 应用中,公司表示长时间对话不再遇到以往的硬性限制,允许延长交互而不会突然触及上下文限制。

来自内部测试人员和早期访问客户的初步印象突出了模型行为的几个定性方面。Anthropic 的员工在发布前使用 Claude Opus 4.5 时报告说,它能够更优雅地处理模糊性,并且在权衡利弊时能够进行推理,而无需密切的逐步指导。当模型被用于涉及多个系统的复杂错误时,测试人员表示它能够识别并实施修复。一些几周前被描述为几乎不可能完成的任务,在早期的 Sonnet 4.5 模型中,现在据称通过 Opus 4.5 已经可以实现。总体而言,这些用户总结他们的体验时表示,模型“就是懂”,这表明从他们的角度来看,模型经常产生与任务基本意图相符的回应。

该模型在软件工程任务上的表现是此次发布中强调的核心点之一。据称,Claude Opus 4.5 在真实世界软件工程测试中处于最先进水平,包括 SWE-bench Verified 等基准测试。作为 Anthropic 内部评估的一部分,公司为潜在的性能工程候选人设计了一项具有挑战性的带回家考试,并且也让新模型通过同一考试作为基准。在规定的两小时限制内,Claude Opus 4.5 据称在该测试中的得分高于任何人类候选人曾经达到的成绩。与此同时,开发者们也谨慎地承认这一结果的局限性:该考试侧重于技术能力和时间压力下的判断力,未能涵盖诸如协作、沟通或多年经验积累的职业直觉等其他重要的人类技能。尽管如此,AI 模型在核心技术技能测试中超越强大的人类候选人,仍引发了关于随着此类工具日益普及,工程工作可能如何变化的思考。 Anthropic 指出,其社会影响与经济未来研究项目旨在理解多个领域的此类变革,未来将分享更多研究成果。

除了软件工程之外,Claude Opus 4.5 在多个领域的能力都有所提升。根据提供的信息,它在视觉、推理和数学技能方面比早期的 Claude 模型更强,并且在多个不同领域的基准测试中达到了最先进的表现。这些基准测试包括但不限于 SWE-bench Multilingual、Aider Polyglot、BrowseComp-Plus 和 Vending-Bench。特别是在 SWE-bench Multilingual 上,据报道该模型生成的代码更优,并且在该基准测试评估的八种编程语言中,有七种语言表现领先。开发者还指出,在某些情况下,该模型的能力甚至超越了基准测试本身,因为它有时能找到基准设计者未曾预料的解决方案。

这种基准测试期望与模型行为之间的张力通过τ2-bench 得以体现,τ2-bench 是一个旨在测试代理能力的现实多轮任务基准。在一个场景中,模型扮演航空公司客服,帮助一位焦虑的乘客。根据基准规范,正确的行为是模型拒绝修改基础经济舱机票,因为航空公司的政策不允许更改该舱位的预订。然而,当 Claude Opus 4.5 遇到该场景时,它通过推理书面政策,找到了另一条合法的途径来帮助客户。它注意到政策允许即使是基础经济舱机票也可以更改舱位,一旦机票不再是基础经济舱,就允许更改航班日期。基于此,它提出将乘客从基础经济舱升级到更高舱位(如标准经济舱或商务舱),然后更改航班日期。该方法费用更高,但符合既定政策,并为客户提供了建设性的解决方案。 该基准测试将此评为失败,因为评分规则中未预见到这种特定形式的帮助。然而,Anthropic 将此作为测试人员和客户注意到的创造性问题解决能力的一个例子,并认为这是该模型显得具有重要进步的原因之一。

与此同时,开发者们也承认,在其他情境下,类似的创造形式可能会与所谓的“奖励黑客”重叠,即模型找到意外的方式来满足正式目标或绕过限制,而这些方式并不符合人类的意图。避免这种不一致性是 Anthropic 安全测试的明确目标之一,该测试被视为与原始能力并行发展的领域。在 Claude Opus 4.5 的系统说明中,公司将其描述为迄今为止发布的最稳健对齐的模型,并暗示它可能是任何开发者提供的最佳对齐前沿模型。这一描述符合公司声称正在追求的更安全、更可靠模型的更广泛趋势。

安全评估框架包括“令人担忧的行为”评分,涵盖了广泛的未对齐行为。这些行为不仅包括模型配合明显的人为滥用(例如试图获取有害帮助)的情况,还包括模型可能主动发起的不良行为。由于许多客户将 Claude 用于关键任务,他们需要确信即使面对恶意操纵的尝试,模型也能表现得恰当。Claude Opus 4.5 改进的一个具体重点是对提示注入的鲁棒性,即攻击者将欺骗性指令嵌入输入中,以引导模型执行有害或非预期的操作。在由 Gray Swan 开发和运行的行业基准测试中,针对强提示注入攻击,Claude Opus 4.5 被报告比其他领先的前沿模型更难被此类攻击欺骗。该基准测试专注于强大且精心设计的攻击,公司建议读者参考 Opus 4.5 系统卡,以获取关于能力和安全评估的更详细描述。

综合来看,这些要素将 Claude Opus 4.5 呈现为一个在现实软件工程和自主任务中表现更强,同时在推理、视觉、数学和日常生产力应用方面有更广泛改进的模型。与此同时,开发者强调了在对齐性和鲁棒性方面的进展,特别是在应对复杂的提示注入攻击时。虽然许多声明基于内部测试和特定基准,但整体来看,该系统旨在在高风险情境下既更有能力又更为谨慎。随着各组织尝试将此类模型整合到软件开发、客户支持、数据分析及其他工作流程中,能力、安全性与人工监督之间的相互作用很可能将继续成为观察和进一步研究的重要领域。

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px

点击购买

点击首页立即对话

注册 / 登录

输入key

阅读API文档

输入端点和API Key

开始使用

全文结束

推荐模型

az/claude-sonnet-4-20250514

微软azure平台提供的克劳德模型系列,稳定性适中,价格极低,更适合对稳定性要求不是特别严谨的数据批处理任务。

DeepSeek-R1

与 OpenAI-o1 相当的性能,完全开源模型和技术报告,代码和模型在 MIT 许可证下发布:自由提炼和商业化。

gpt-4o-image

使用逆向工程在官方应用程序中调用模型并将其转换为 API。