Gemini 2.5 Pro:谷歌用于复杂任务和编码的高级 AI 模型
注意:本模型支持开启思考模式(添加-thinking后缀)和联网模式(添加#search后缀)。
示例:如模型代号为abc,则思考模型为abc-thinking,联网模型为abc#search。
谷歌已宣布全面推出 Gemini 2.5 Pro,并将其定位为迄今为止最先进的 AI 模型。该模型专门设计用于擅长编码任务和处理高度复杂的提示,这代表着谷歌 AI 能力的一个重要进步。
核心功能与特性
增强的性能和推理能力
Gemini 2.5 Pro 在关键的数学和科学基准测试中展现出最先进的性能。该模型融入了增强的推理能力,使其能够以更高的准确性和更深入的分析能力解决复杂问题。
高级编码能力
该模型的一个突出特点是其编程能力。Gemini 2.5 Pro 可以轻松生成用于网页开发任务的代码,并在各种编码基准测试中表现出色。该模型擅长根据简单的提示创建交互式动画、游戏、可视化内容和复杂模拟。
多模态理解
该模型原生支持多模态,能够理解和处理涵盖文本、音频、图像和视频等多种格式的输入。这种全面的输入能力使其用途广泛,适用于广泛的应用场景。
扩展上下文窗口
Gemini 2.5 Pro 拥有 100 万个 token 的上下文窗口,使用户能够探索庞大的数据集,并在极长的对话或文档中保持上下文。
原生音频功能 (预览)
一个值得注意的预览功能是该模型的原生音频功能,它允许进行更具表现力的对话互动。主要方面包括:
- 自然对话:高质量音频输出,具有适当的表达力和韵律,以低延迟交付,实现流畅对话
- 多语言支持:使用相同的语音在 24 种语言之间无缝切换
- 风格控制:自然语言提示可以调整表达风格,包括口音和各种语调
- 工具集成:对话期间的函数调用能力,以实现实时信息访问
- 语境感知:系统能够将相关语音从背景噪音和环境对话中区分出来
深度思考增强
谷歌正在为 Gemini 2.5 Pro 推出一种名为“Deep Think”的增强推理模式。这项功能利用推理领域的尖端研究,包括并行思维技术,以在复杂任务上提供改进的性能。
基准性能
根据谷歌的测试,Gemini 2.5 Pro 在常见基准测试中以显著优势在各个类别中领先:
- 数学:AIME 2025 88.0% (单次尝试)
- 科学:在 GPQA diamond 上获得 86.4%(单次尝试)
- 代码生成:LiveCodeBench 上的 69.0%
- 视觉推理:MMMU 上 82.0%(单次尝试)
- 视频理解:在 VideoMMMU 上达到 83.6%
- 事实性:SimpleQA 达到 54.0%,FACTS grounding 达到 87.8%
Gemini 2.5 Pro 代表谷歌当前旗舰 AI 模型,旨在处理最严苛的编码和推理任务。凭借其多模态能力、扩展的上下文窗口和高级推理功能,它将自身定位为用于各种领域的复杂 AI 应用的全面解决方案。