gemini-2.5-pro-preview-06-05

模型描述

Google 发布 Gemini 2.5 Pro 增强预览版,性能大幅提升

注意:本模型支持开启思考模式(添加-thinking后缀)和联网模式(添加#search后缀)。

示例:如模型代号为abc,则思考模型为abc-thinking,联网模型为abc#search。

Google 宣布推出其 Gemini 2.5 Pro 模型的升级预览版,版本号为 06-05,这标志着其在之前版本的基础上取得了重大进步。此次最新更新目前处于预览模式,预计将在未来几周内全面上市。

gemini2.5pro

关键性能提升

新的 Gemini 2.5 Pro 06-05 版本建立在**上个月发布的 I/O 版 (05-06)** 奠定的基础上,该版本首次引入了编码改进。最新版本在编码能力方面持续表现出色,在包括 AIDER Polyglot 在内的各种基准测试中均展现出卓越性能。

除了编码,该模型在学术和推理任务方面也取得了显著进步。谷歌报告称,06-05 版本在“GPQA 和 Humanity’s Last Exam (HLE) 上提供了顶级性能”,这两个极具挑战性的基准专门用于评估模型在数学、科学、知识理解和逻辑推理方面的能力。

竞争性能指标

升级后的模型在竞争性评估中表现出令人瞩目的成果。在 LMArena 上,Gemini 2.5 Pro 06-05 的 Elo 分数增加了 24 分,达到 1470 分。更值得注意的是,该模型在 WebDevArena 上的 Elo 分数跃升了 35 分,目前以 1443 分领先。

gemini2.5pro-2

处理用户反馈

谷歌积极回应了用户对之前模型更新的反馈。一些用户曾报告称,与早期 03-25 模型相比,最新版本在编码之外的领域性能有所下降。该公司在 06-05 版本中通过改进“风格和结构”解决了这些问题,使模型能够生成更具创意且格式更好的响应。

可用性和实施

Gemini 2.5 Pro 升级版目前仍处于预览阶段,正通过多个渠道推出。开发者可通过 Google AI Studio 和 Vertex AI 平台上的 Gemini API 访问该模型。此次更新包括通过思维预算(thinking budgets)实现的成本和延迟控制功能,该功能此前已随 2.5 Flash 模型推出。

消费者用户也可以通过 Gemini 应用体验增强模型,该应用在开发者版本发布的同时也获得了 2.5 Pro 预览升级。

谷歌表示,该升级模型的稳定通用版本将在大约两周内发布,届时将从目前的预览状态转为全面投产。

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px
全文结束

推荐模型

claude-3-5-sonnet-20241022-rev

使用逆向工程在官方应用程序中调用模型并将其转换为 API。

gemini-2.5-pro-preview-06-05

谷歌发布了 Gemini 2.5 Pro (06-05) 的升级预览版,显著提升了编码性能、数学推理和响应格式,同时解决了之前的性能问题。

DeepSeek-R1-all

与 OpenAI-o1 相当的性能,完全开源模型和技术报告,代码和模型在 MIT 许可证下发布:自由提炼和商业化。