Gemini 2.5 Flash:谷歌的高效多模态 AI 主力
注意:本模型支持开启思考模式(添加-thinking后缀)和联网模式(添加#search后缀)。
示例:如模型代号为abc,则思考模型为abc-thinking,联网模型为abc#search。
谷歌已宣布全面推出 Gemini 2.5 Flash,并将其定位为他们最高效、最强大的主力模型,专为速度和成本效益而设计。这一新模型代表着谷歌 AI 产品的一项重大进展,它结合了多模态能力,并在各项基准测试中提升了性能。
核心功能与设计
Gemini 2.5 Flash 被设计为一款多功能模型,针对日常任务进行了优化,包括摘要、聊天应用、数据提取和字幕生成。该模型具有一个“思考预算”机制,允许用户控制模型应用推理的程度,从而根据具体的用例需求在延迟和计算成本之间实现平衡。
该模型的一个突出特点是其原生的多模态理解能力,能够处理文本、音频、图像和视频格式的输入。这种全面的输入能力辅以令人印象深刻的 100 万个 token 上下文窗口,使用户能够处理海量数据集并保持广泛的对话上下文。
原生音频创新
Gemini 2.5 Flash 中一项尤其值得关注的进展是其原生的音频输出能力,目前处于预览阶段。这项功能通过捕捉人类语音的细微差别,实现了更具表现力的对话交互。该系统支持在 24 种语言之间无缝切换,同时保持一致的语音特征。
音频功能包括自然对话能力,具有卓越的质量和恰当的表达力,并以低延迟交付,以实现流畅的对话。用户可以使用自然语言提示来控制交付风格,包括口音适应以及各种语调和表情。该系统还在对话过程中集成了工具使用和函数调用,整合了实时信息和自定义开发工具。
音频系统展现出精密的对话语境感知能力,经过训练能够区分并过滤掉背景语音、环境对话以及其他不相关的音频输入。
性能基准
根据谷歌的基准数据,Gemini 2.5 Flash 在多个评估类别中展现出有竞争力的性能:
推理与知识:该模型在“人类的终极考试”中取得了 11.0%的成绩,超越了包括 Gemini 2.0 Flash (5.1%)和 Claude Sonnet 3.7 (8.9%)在内的多个竞争对手。
科学理解:在 GPQA diamond 单次尝试任务中,该模型得分 82.8%,显示出强大的科学推理能力。
数学:该模型在 AIME 2025 单次尝试问题上取得了 72.0% 的成绩,这表明其具备扎实的数学问题解决能力。
代码生成:在 LiveCodeBench v5 上获得 63.9% 的分数,该模型展现出合格的编程能力。
视觉推理:该模型在 MMMU 单次尝试任务中得分 79.7%,表明其具有强大的多模态理解能力。
长上下文处理:Gemini 2.5 Flash 在 MRCR v2 128k 平均评估中取得了 74.0% 的成绩,在 1M 逐点评估中取得了 32.0% 的成绩,这展示了其处理广泛上下文的能力。
技术规格
Gemini 2.5 Flash 支持多种输入格式,包括文本、图像、视频、音频和 PDF 文件,同时目前仅提供文本输出(原生音频功能正在预览中)。该模型的知识截止日期为 2025 年 1 月,并包含全面的工具使用能力,例如函数调用、结构化输出、搜索集成和代码执行。
可用性与集成
该模型可通过多个 Google 平台访问,包括 Gemini 应用、Google AI Studio、Gemini API、Live API 和 Vertex AI,为开发者和用户提供多种集成选项,以满足他们的具体需求和技术要求。
Gemini 2.5 Flash 代表了谷歌在创建高效、多模态 AI 系统方面的战略重点,这些系统兼顾了性能和成本效益,特别适用于那些需要快速响应时间以及跨越不同数据类型和使用场景的广泛能力覆盖的应用。