gemini-2.5-flash-preview-05-20

模型描述

介绍

2025 年 4 月,Google 通过 Google AI Studio 和 Vertex AI 推出了 Gemini 2.5 Flash(模型代码:gemini-2.5-flash-preview-05-20)的早期预览版,作为 Gemini 2.0 Flash 的升级版和高效继任者。该模型专为高容量、实时应用而设计,结合了低延迟和低成本,同时具备更强的推理能力、多模态能力以及创新的“思维预算”控制。在 2025 年 Google I/O 大会上,Gemini 2.5 Flash 进入了更广泛的预览阶段,标志着其已准备好更大规模的生产应用。

主要功能

  1. 混合推理架构与“思维预算”控制

    • 首个完全实现混合推理的 Gemini 模型。
    • “思考预算”允许开发者控制推理深度(0–24,576 个标记)。
    • 开发者可以为每个任务启用或禁用深度推理,以平衡质量、速度和成本。
    • 预推理(“预思考”)将复杂任务分解并验证事实,以获得准确且合乎逻辑的输出。
    • 自动调整根据查询复杂性优化资源使用。
  2. 高级多模态功能

    • 支持文本、图像、音频和视频作为输入(目前主要输出为文本)。
    • 本地音频输出: 在 I/O 2025 上发布;API 级别控制语调、口音和说话风格(例如,讲故事)。
    • 情感检测: 响应用户情感,并忽略背景杂音,实现具备上下文感知的交互。
  3. 高效性能与低成本

    • 位于“帕累托前沿”,在成本与性能平衡方面表现出色。
    • 在推理、多模态任务、代码生成和长上下文处理方面有显著提升。
    • 相比之前的模型,令牌使用量减少了 20–30%。
    • Supports up to 2 million tokens in context window, ideal for large documents or complex tasks.
  4. 增强的安全性与工具集成

    • 针对间接提示注入的高级防护。
    • 用于实时数据和代码执行的本地工具调用(Google 搜索、API 调用、Python 解释器)。
  5. 画布功能支持

    • 集成了 Google Canvas 交互功能,用于生成网页、测验、信息图等,简化文档/代码工作流程优化。

基准性能

Gemini 2.5 Flash 展示了强劲的基准测试分数(默认采样,单次传递):

基准测试 分数/表现
人类的最后一次考试(不使用工具) 12.1%
GPQA 钻石科学 78.3%
AIME 2025 数学 78.0%
LMArena 硬提示 Second only to Gemini 2.5 Pro; near top-tier ability

这些结果显示,在小型/高效规模下具有接近顶级模型的能力,并且投资价值很高。

实际应用

  • 客户服务: 实时、准确地处理查询和自然对话。
  • 文档解析与摘要: 处理长文档或多文档输入,以提取关键信息并生成实时摘要。
  • 虚拟助手: 智能助手处理语音、文本和基于图像的指令。
  • 教育: 基于 Canvas 生成的交互式学习应用(例如,测验、个性化的基于 YouTube 的课程)。
  • 开发者工具: 通过 Google AI Studio 和 Vertex AI 进行代码转换、前端开发和复杂编程。

技术创新与路线图

  • 混合架构和可控的推理能力为开发者提供了无与伦比的灵活性。
  • 计划于 2025 年 6 月初实现生产就绪的全面可用性。
  • 未来的方向包括:
    • Project Mariner:增强的代理/计算机使用能力
    • 更深入的研究:公共/私有(PDF、图片)内容的整合;Gmail/Drive 集成
    • 支持 140 多种文本/图像输入语言,24 种音频输出语言

限制与注意事项

  • 截至 2025 年 5 月 20 日,仍处于预览阶段;详细的技术/安全报告尚未发布。
  • 主要以文本输出;图像/视频输出尚不可用。
  • 某些功能(例如深度研究工具)仍处于试验阶段。

访问与快速入门

可用于:

  • Google AI Studio: 适用于在思维预算和多模态输入方面进行实验的开发者
  • Vertex AI: 企业级部署/定制
  • Gemini App:终端用户体验,包括画布和多模态输入

请参考 Google 的开发者文档和 Gemini Cookbook 以获取更多指导。

结论

Gemini 2.5 Flash(gemini-2.5-flash-preview-05-20)是谷歌于 2025 年推出的高性能、低成本、对开发者友好的 AI 基础模型,具备混合推理、可控性能和深度多模态能力。无论是在客户服务、文档分析、教育还是编程领域,它都提供了极具吸引力的价值主张——随着能力的扩展,有望进一步巩固谷歌在竞争激烈的 AI 领域的领导地位。


参考文献:

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px
全文结束

推荐模型

gemini-2.5-flash-preview-04-17

Gemini-2.5-Flash-Preview-04-17 是一个大型语言模型,支持文本、图像、视频和音频输入,具有先进的输出和代码执行能力以及高令牌限制。

claude-opus-4-20250514

全面介绍 Anthropic 新发布的 Claude 4 模型——Opus 4 和 Sonnet 4,重点突出其功能、性能基准、应用场景、定价及可用性。本报告总结了各模型之间的主要差异,并讨论了它们与 GitHub Copilot 等主流平台的集成,强调了其在编程、高级推理和伦理 AI 响应方面的优势。

gpt-4.1-nano

GPT-4.1 nano 是最快、最具性价比的 GPT-4.1 模型。