gemini-2.5-flash-preview-05-20

该模型分为两个版本。默认情况下，使用“nothinking”版本，但你可以添加“-thinking”后缀以启用模型的推理过程。

无思考：gemini-2.5-flash-preview-05-20 或 gemini-2.5-flash-preview-05-20-nothinking

思考：gemini-2.5-flash-preview-05-20-thinking

介绍

2025 年 4 月，Google 通过 Google AI Studio 和 Vertex AI 推出了 Gemini 2.5 Flash（模型代码：gemini-2.5-flash-preview-05-20）的早期预览版，作为 Gemini 2.0 Flash 的升级版和高效继任者。该模型专为高容量、实时应用而设计，结合了低延迟和低成本，同时具备更强的推理能力、多模态能力以及创新的“思维预算”控制。在 2025 年 Google I/O 大会上，Gemini 2.5 Flash 进入了更广泛的预览阶段，标志着其已准备好更大规模的生产应用。

主要功能

混合推理架构与“思维预算”控制
- 首个完全实现混合推理的 Gemini 模型。
- “思考预算”允许开发者控制推理深度（0–24,576 个标记）。
- 开发者可以为每个任务启用或禁用深度推理，以平衡质量、速度和成本。
- 预推理（“预思考”）将复杂任务分解并验证事实，以获得准确且合乎逻辑的输出。
- 自动调整根据查询复杂性优化资源使用。
高级多模态功能
- 支持文本、图像、音频和视频作为输入（目前主要输出为文本）。
- 本地音频输出： 在 I/O 2025 上发布；API 级别控制语调、口音和说话风格（例如，讲故事）。
- 情感检测： 响应用户情感，并忽略背景杂音，实现具备上下文感知的交互。
高效性能与低成本
- 位于“帕累托前沿”，在成本与性能平衡方面表现出色。
- 在推理、多模态任务、代码生成和长上下文处理方面有显著提升。
- 相比之前的模型，令牌使用量减少了 20–30%。
- Supports up to 2 million tokens in context window, ideal for large documents or complex tasks.
增强的安全性与工具集成
- 针对间接提示注入的高级防护。
- 用于实时数据和代码执行的本地工具调用（Google 搜索、API 调用、Python 解释器）。
画布功能支持
- 集成了 Google Canvas 交互功能，用于生成网页、测验、信息图等，简化文档/代码工作流程优化。

基准性能

Gemini 2.5 Flash 展示了强劲的基准测试分数（默认采样，单次传递）：

基准测试	分数/表现
人类的最后一次考试（不使用工具）	12.1%
GPQA 钻石科学	78.3%
AIME 2025 数学	78.0%
LMArena 硬提示	Second only to Gemini 2.5 Pro; near top-tier ability

这些结果显示，在小型/高效规模下具有接近顶级模型的能力，并且投资价值很高。

实际应用

客户服务： 实时、准确地处理查询和自然对话。
文档解析与摘要： 处理长文档或多文档输入，以提取关键信息并生成实时摘要。
虚拟助手： 智能助手处理语音、文本和基于图像的指令。
教育： 基于 Canvas 生成的交互式学习应用（例如，测验、个性化的基于 YouTube 的课程）。
开发者工具： 通过 Google AI Studio 和 Vertex AI 进行代码转换、前端开发和复杂编程。

技术创新与路线图

混合架构和可控的推理能力为开发者提供了无与伦比的灵活性。
计划于 2025 年 6 月初实现生产就绪的全面可用性。
未来的方向包括：
- Project Mariner：增强的代理/计算机使用能力
- 更深入的研究：公共/私有（PDF、图片）内容的整合；Gmail/Drive 集成
- 支持 140 多种文本/图像输入语言，24 种音频输出语言

限制与注意事项

截至 2025 年 5 月 20 日，仍处于预览阶段；详细的技术/安全报告尚未发布。
主要以文本输出；图像/视频输出尚不可用。
某些功能（例如深度研究工具）仍处于试验阶段。

访问与快速入门

可用于：

Google AI Studio： 适用于在思维预算和多模态输入方面进行实验的开发者
Vertex AI： 企业级部署/定制
Gemini App：终端用户体验，包括画布和多模态输入

请参考 Google 的开发者文档和 Gemini Cookbook 以获取更多指导。

结论

Gemini 2.5 Flash（gemini-2.5-flash-preview-05-20）是谷歌于 2025 年推出的高性能、低成本、对开发者友好的 AI 基础模型，具备混合推理、可控性能和深度多模态能力。无论是在客户服务、文档分析、教育还是编程领域，它都提供了极具吸引力的价值主张——随着能力的扩展，有望进一步巩固谷歌在竞争激烈的 AI 领域的领导地位。

参考文献：