介绍 Kimi K2 Thinking:一种具有原生 INT4 量化的深度推理模型
Kimi K2 Thinking 被推出作为该系列开源思维模型中最新且最强大的版本。它从零开始设计,作为一个思维代理,专注于执行逐步推理,同时动态调用工具以完成复杂任务。该模型在 Humanity’s Last Exam (HLE) 和 BrowseComp 等基准测试中树立了新的最先进水平,通过显著扩展其多步推理深度并在连续调用 200–300 次工具时保持稳定性能。
K2 Thinking 的一个关键技术亮点是其作为原生 INT4 量化模型的实现,结合 256k 的上下文窗口,实现了推理延迟和 GPU 内存使用的无损减少。
主要功能
- 深度思考与工具编排:该模型经过端到端训练,能够将链式思维推理与函数调用交织进行。这使其能够处理持续数百步且不偏离初始目标的自主研究、编码和写作工作流程。
- 稳定的长远代理: K2 Thinking 展现出连贯且目标导向的行为,能够连续调用工具达 200–300 次,这相比之前模型在 30–50 步后性能常常下降有了显著提升。
- 原生 INT4 量化:通过在后训练阶段采用量化感知训练(QAT),模型在低延迟模式下实现了近 2 倍的加速,同时不损失性能。
模型架构
Kimi K2 Thinking 基于混合专家(MoE)架构构建。其主要规格如下:
| 规格 | 参数 |
|---|---|
| 架构 | Mixture-of-Experts (MoE) |
| 总参数 | 1T |
| 激活参数 | 32B |
| 上下文长度 | 256K |
| 参数量 | 160K |
| 层数 | 61 (including 1 dense layer) |
| 专家数量 | 384 (8 selected per token, 1 shared) |
| 注意力机制 | MLA |
| 激活函数 | SwiGLU |
性能与评估
评估结果显示,Kimi K2 Thinking 在多项任务中实现了最先进或极具竞争力的表现。在带工具的推理任务中,其在 HLE 上得分 44.9,在 BrowseComp 上得分 60.2,优于其他领先模型。它在编码方面也表现出强大能力,在 SWE-bench Verified 上取得 71.3 的分数,并在多语言编码基准测试中表现尤为突出。所有报告的基准结果均采用 INT4 精度完成,凸显了该模型的高效性。
部署与使用
开发者可以通过兼容 OpenAI/Anthropic 的 API 访问 Kimi K2 Thinking,API 地址为 platform.moonshot.ai。对于本地部署,该模型经过优化,可在 vLLM、SGLang 和 KTransformers 等推理引擎上运行。
该模型支持标准的聊天补全和高级工具调用功能。用户可以定义一组可用工具,模型将自主决定何时以及如何使用这些工具来完成请求。一般使用推荐的温度设置为 1.0。
许可证
模型权重和相关代码库均在修改后的 MIT 许可证下发布。