kimi-k2-thinking

介绍 Kimi K2 Thinking：一种具有原生 INT4 量化的深度推理模型

Kimi K2 Thinking 被推出作为该系列开源思维模型中最新且最强大的版本。它从零开始设计，作为一个思维代理，专注于执行逐步推理，同时动态调用工具以完成复杂任务。该模型在 Humanity’s Last Exam (HLE) 和 BrowseComp 等基准测试中树立了新的最先进水平，通过显著扩展其多步推理深度并在连续调用 200–300 次工具时保持稳定性能。

K2 Thinking 的一个关键技术亮点是其作为原生 INT4 量化模型的实现，结合 256k 的上下文窗口，实现了推理延迟和 GPU 内存使用的无损减少。

主要功能

深度思考与工具编排：该模型经过端到端训练，能够将链式思维推理与函数调用交织进行。这使其能够处理持续数百步且不偏离初始目标的自主研究、编码和写作工作流程。
稳定的长远代理： K2 Thinking 展现出连贯且目标导向的行为，能够连续调用工具达 200–300 次，这相比之前模型在 30–50 步后性能常常下降有了显著提升。
原生 INT4 量化：通过在后训练阶段采用量化感知训练（QAT），模型在低延迟模式下实现了近 2 倍的加速，同时不损失性能。

模型架构

Kimi K2 Thinking 基于混合专家（MoE）架构构建。其主要规格如下：

规格	参数
架构	Mixture-of-Experts (MoE)
总参数	1T
激活参数	32B
上下文长度	256K
参数量	160K
层数	61 (including 1 dense layer)
专家数量	384 (8 selected per token, 1 shared)
注意力机制	MLA
激活函数	SwiGLU

性能与评估

评估结果显示，Kimi K2 Thinking 在多项任务中实现了最先进或极具竞争力的表现。在带工具的推理任务中，其在 HLE 上得分 44.9，在 BrowseComp 上得分 60.2，优于其他领先模型。它在编码方面也表现出强大能力，在 SWE-bench Verified 上取得 71.3 的分数，并在多语言编码基准测试中表现尤为突出。所有报告的基准结果均采用 INT4 精度完成，凸显了该模型的高效性。

部署与使用

开发者可以通过兼容 OpenAI/Anthropic 的 API 访问 Kimi K2 Thinking，API 地址为 platform.moonshot.ai。对于本地部署，该模型经过优化，可在 vLLM、SGLang 和 KTransformers 等推理引擎上运行。

该模型支持标准的聊天补全和高级工具调用功能。用户可以定义一组可用工具，模型将自主决定何时以及如何使用这些工具来完成请求。一般使用推荐的温度设置为 1.0。

许可证

模型权重和相关代码库均在修改后的 MIT 许可证下发布。

模型描述

介绍 Kimi K2 Thinking：一种具有原生 INT4 量化的深度推理模型