Google 发布 Gemini 2.5 Pro 增强预览版,性能大幅提升
注意:本模型支持开启思考模式(添加-thinking后缀)和联网模式(添加#search后缀)。
示例:如模型代号为abc,则思考模型为abc-thinking,联网模型为abc#search。
Google 宣布推出其 Gemini 2.5 Pro 模型的升级预览版,版本号为 06-05,这标志着其在之前版本的基础上取得了重大进步。此次最新更新目前处于预览模式,预计将在未来几周内全面上市。
关键性能提升
新的 Gemini 2.5 Pro 06-05 版本建立在**上个月发布的 I/O 版 (05-06)** 奠定的基础上,该版本首次引入了编码改进。最新版本在编码能力方面持续表现出色,在包括 AIDER Polyglot 在内的各种基准测试中均展现出卓越性能。
除了编码,该模型在学术和推理任务方面也取得了显著进步。谷歌报告称,06-05 版本在“GPQA 和 Humanity’s Last Exam (HLE) 上提供了顶级性能”,这两个极具挑战性的基准专门用于评估模型在数学、科学、知识理解和逻辑推理方面的能力。
竞争性能指标
升级后的模型在竞争性评估中表现出令人瞩目的成果。在 LMArena 上,Gemini 2.5 Pro 06-05 的 Elo 分数增加了 24 分,达到 1470 分。更值得注意的是,该模型在 WebDevArena 上的 Elo 分数跃升了 35 分,目前以 1443 分领先。
处理用户反馈
谷歌积极回应了用户对之前模型更新的反馈。一些用户曾报告称,与早期 03-25 模型相比,最新版本在编码之外的领域性能有所下降。该公司在 06-05 版本中通过改进“风格和结构”解决了这些问题,使模型能够生成更具创意且格式更好的响应。
可用性和实施
Gemini 2.5 Pro 升级版目前仍处于预览阶段,正通过多个渠道推出。开发者可通过 Google AI Studio 和 Vertex AI 平台上的 Gemini API 访问该模型。此次更新包括通过思维预算(thinking budgets)实现的成本和延迟控制功能,该功能此前已随 2.5 Flash 模型推出。
消费者用户也可以通过 Gemini 应用体验增强模型,该应用在开发者版本发布的同时也获得了 2.5 Pro 预览升级。
谷歌表示,该升级模型的稳定通用版本将在大约两周内发布,届时将从目前的预览状态转为全面投产。