Gemini 嵌入模型在许多关键维度上(包括代码、多语言和检索)实现了SOTA(最先进)性能。
Gemini Embedding 是一种先进的模型,它利用 Gemini 架构为多种语言的文本和代码生成高度通用化的嵌入,专为检索、分类和聚类等任务而设计。
Gemini 嵌入模型简介
Gemini Embedding 是一个最先进的嵌入模型,旨在利用谷歌 Gemini 大型语言模型的能力。它为涵盖 100 多种语言和各种文本模态(包括代码)的文本生成高度通用化的密集向量表示。这些嵌入可以预先计算,并应用于广泛的下游任务,例如分类、语义相似性、聚类、排名和信息检索。
模型架构
模型的架构旨在创建输入的整体性表示。这一过程首先从一个预先存在的 Gemini 模型初始化嵌入模型,这使其能够利用 Gemini 参数中已包含的庞大知识。
技术流程主要包括三个步骤:
- 输入文本序列由一个具有双向注意力的 Transformer 处理,从而生成一个 token 级别的嵌入序列。
- 然后应用均值池化策略。这涉及沿着序列轴对 token 嵌入进行平均,以生成一个代表整个输入的单一的、固定大小的嵌入。
- 最后,一个随机初始化的线性投影层将这个池化后的嵌入缩放到所需的最终输出维度。
训练
Gemini 嵌入模型通过一个训练目标进行了优化,该训练目标基于带有批内负样本的噪声对比估计(NCE)损失函数。
性能和功能
在对大规模多语言文本嵌入基准 (MMTEB) 进行评估时,该基准包含超过 250 种语言的 100 多项任务,Gemini Embedding 已被证明显著优于此前最先进的模型。它在公共排行榜上建立了新的最先进水平,平均得分达到 68.32,较次优模型有显著提升。
该模型不仅在英语等高资源语言中表现出卓越性能,而且在许多低资源语言(如马其顿语)中也表现出色。它还在 XOR-Retrieve 等特定基准测试中为跨语言检索创下了新纪录。这个统一模型在广泛的任务选择中展现出强大能力,甚至超越了英语、多语言和代码基准测试中专门的、领域特定的模型。