gemini-2.5-pro-preview-06-05

模型描述

Google 发布 Gemini 2.5 Pro 增强预览版,性能大幅提升

注意:本模型支持开启思考模式(添加-thinking后缀)和联网模式(添加#search后缀)。

示例:如模型代号为abc,则思考模型为abc-thinking,联网模型为abc#search。

Google 宣布推出其 Gemini 2.5 Pro 模型的升级预览版,版本号为 06-05,这标志着其在之前版本的基础上取得了重大进步。此次最新更新目前处于预览模式,预计将在未来几周内全面上市。

gemini2.5pro

关键性能提升

新的 Gemini 2.5 Pro 06-05 版本建立在**上个月发布的 I/O 版 (05-06)** 奠定的基础上,该版本首次引入了编码改进。最新版本在编码能力方面持续表现出色,在包括 AIDER Polyglot 在内的各种基准测试中均展现出卓越性能。

除了编码,该模型在学术和推理任务方面也取得了显著进步。谷歌报告称,06-05 版本在“GPQA 和 Humanity’s Last Exam (HLE) 上提供了顶级性能”,这两个极具挑战性的基准专门用于评估模型在数学、科学、知识理解和逻辑推理方面的能力。

竞争性能指标

升级后的模型在竞争性评估中表现出令人瞩目的成果。在 LMArena 上,Gemini 2.5 Pro 06-05 的 Elo 分数增加了 24 分,达到 1470 分。更值得注意的是,该模型在 WebDevArena 上的 Elo 分数跃升了 35 分,目前以 1443 分领先。

gemini2.5pro-2

处理用户反馈

谷歌积极回应了用户对之前模型更新的反馈。一些用户曾报告称,与早期 03-25 模型相比,最新版本在编码之外的领域性能有所下降。该公司在 06-05 版本中通过改进“风格和结构”解决了这些问题,使模型能够生成更具创意且格式更好的响应。

可用性和实施

Gemini 2.5 Pro 升级版目前仍处于预览阶段,正通过多个渠道推出。开发者可通过 Google AI Studio 和 Vertex AI 平台上的 Gemini API 访问该模型。此次更新包括通过思维预算(thinking budgets)实现的成本和延迟控制功能,该功能此前已随 2.5 Flash 模型推出。

消费者用户也可以通过 Gemini 应用体验增强模型,该应用在开发者版本发布的同时也获得了 2.5 Pro 预览升级。

谷歌表示,该升级模型的稳定通用版本将在大约两周内发布,届时将从目前的预览状态转为全面投产。

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px

点击购买

点击首页立即对话

注册 / 登录

输入key

阅读API文档

输入端点和API Key

开始使用

全文结束

推荐模型

o3-pro

o 系列模型通过强化学习进行训练,使其在回答问题前进行思考并执行复杂的推理。o3-pro 模型使用更多计算资源进行更深入的思考,并提供始终如一的更优答案。o3-pro 仅在 Responses API 中可用,以便在响应 API 请求之前支持多轮模型交互,以及未来其他高级 API 功能。由于 o3-pro 旨在解决难题,某些请求可能需要几分钟才能完成。为避免超时,请尝试使用后台模式。

gemini-2.5-flash-lite-preview-06-17

一个针对成本效益和低延迟进行了优化的 Gemini 2.5 Flash 模型。

claude-sonnet-4-20250514-thinking

全面介绍 Anthropic 新发布的 Claude 4 模型——Opus 4 和 Sonnet 4,重点突出其功能、性能基准、应用场景、定价及可用性。本报告总结了各模型之间的主要差异,并讨论了它们与 GitHub Copilot 等主流平台的集成,强调了其在编程、高级推理和伦理 AI 响应方面的优势。