介绍
2025 年 4 月,Google 通过 Google AI Studio 和 Vertex AI 推出了 Gemini 2.5 Flash(模型代码:gemini-2.5-flash-preview-05-20)的早期预览版,作为 Gemini 2.0 Flash 的升级版和高效继任者。该模型专为高容量、实时应用而设计,结合了低延迟和低成本,同时具备更强的推理能力、多模态能力以及创新的“思维预算”控制。在 2025 年 Google I/O 大会上,Gemini 2.5 Flash 进入了更广泛的预览阶段,标志着其已准备好更大规模的生产应用。
主要功能
-
混合推理架构与“思维预算”控制
- 首个完全实现混合推理的 Gemini 模型。
- “思考预算”允许开发者控制推理深度(0–24,576 个标记)。
- 开发者可以为每个任务启用或禁用深度推理,以平衡质量、速度和成本。
- 预推理(“预思考”)将复杂任务分解并验证事实,以获得准确且合乎逻辑的输出。
- 自动调整根据查询复杂性优化资源使用。
-
高级多模态功能
- 支持文本、图像、音频和视频作为输入(目前主要输出为文本)。
- 本地音频输出: 在 I/O 2025 上发布;API 级别控制语调、口音和说话风格(例如,讲故事)。
- 情感检测: 响应用户情感,并忽略背景杂音,实现具备上下文感知的交互。
-
高效性能与低成本
- 位于“帕累托前沿”,在成本与性能平衡方面表现出色。
- 在推理、多模态任务、代码生成和长上下文处理方面有显著提升。
- 相比之前的模型,令牌使用量减少了 20–30%。
- Supports up to 2 million tokens in context window, ideal for large documents or complex tasks.
-
增强的安全性与工具集成
- 针对间接提示注入的高级防护。
- 用于实时数据和代码执行的本地工具调用(Google 搜索、API 调用、Python 解释器)。
-
画布功能支持
- 集成了 Google Canvas 交互功能,用于生成网页、测验、信息图等,简化文档/代码工作流程优化。
基准性能
Gemini 2.5 Flash 展示了强劲的基准测试分数(默认采样,单次传递):
基准测试 | 分数/表现 |
---|---|
人类的最后一次考试(不使用工具) | 12.1% |
GPQA 钻石科学 | 78.3% |
AIME 2025 数学 | 78.0% |
LMArena 硬提示 | Second only to Gemini 2.5 Pro; near top-tier ability |
这些结果显示,在小型/高效规模下具有接近顶级模型的能力,并且投资价值很高。
实际应用
- 客户服务: 实时、准确地处理查询和自然对话。
- 文档解析与摘要: 处理长文档或多文档输入,以提取关键信息并生成实时摘要。
- 虚拟助手: 智能助手处理语音、文本和基于图像的指令。
- 教育: 基于 Canvas 生成的交互式学习应用(例如,测验、个性化的基于 YouTube 的课程)。
- 开发者工具: 通过 Google AI Studio 和 Vertex AI 进行代码转换、前端开发和复杂编程。
技术创新与路线图
- 混合架构和可控的推理能力为开发者提供了无与伦比的灵活性。
- 计划于 2025 年 6 月初实现生产就绪的全面可用性。
- 未来的方向包括:
- Project Mariner:增强的代理/计算机使用能力
- 更深入的研究:公共/私有(PDF、图片)内容的整合;Gmail/Drive 集成
- 支持 140 多种文本/图像输入语言,24 种音频输出语言
限制与注意事项
- 截至 2025 年 5 月 20 日,仍处于预览阶段;详细的技术/安全报告尚未发布。
- 主要以文本输出;图像/视频输出尚不可用。
- 某些功能(例如深度研究工具)仍处于试验阶段。
访问与快速入门
可用于:
- Google AI Studio: 适用于在思维预算和多模态输入方面进行实验的开发者
- Vertex AI: 企业级部署/定制
- Gemini App:终端用户体验,包括画布和多模态输入
请参考 Google 的开发者文档和 Gemini Cookbook 以获取更多指导。
结论
Gemini 2.5 Flash(gemini-2.5-flash-preview-05-20)是谷歌于 2025 年推出的高性能、低成本、对开发者友好的 AI 基础模型,具备混合推理、可控性能和深度多模态能力。无论是在客户服务、文档分析、教育还是编程领域,它都提供了极具吸引力的价值主张——随着能力的扩展,有望进一步巩固谷歌在竞争激烈的 AI 领域的领导地位。
参考文献: