kimi-k2-thinking

模型描述

介绍 Kimi K2 Thinking:一种具有原生 INT4 量化的深度推理模型

Kimi K2 Thinking 被推出作为该系列开源思维模型中最新且最强大的版本。它从零开始设计,作为一个思维代理,专注于执行逐步推理,同时动态调用工具以完成复杂任务。该模型在 Humanity’s Last Exam (HLE) 和 BrowseComp 等基准测试中树立了新的最先进水平,通过显著扩展其多步推理深度并在连续调用 200–300 次工具时保持稳定性能。

K2 Thinking 的一个关键技术亮点是其作为原生 INT4 量化模型的实现,结合 256k 的上下文窗口,实现了推理延迟和 GPU 内存使用的无损减少。

主要功能

  • 深度思考与工具编排:该模型经过端到端训练,能够将链式思维推理与函数调用交织进行。这使其能够处理持续数百步且不偏离初始目标的自主研究、编码和写作工作流程。
  • 稳定的长远代理: K2 Thinking 展现出连贯且目标导向的行为,能够连续调用工具达 200–300 次,这相比之前模型在 30–50 步后性能常常下降有了显著提升。
  • 原生 INT4 量化:通过在后训练阶段采用量化感知训练(QAT),模型在低延迟模式下实现了近 2 倍的加速,同时不损失性能。

模型架构

Kimi K2 Thinking 基于混合专家(MoE)架构构建。其主要规格如下:

规格 参数
架构 Mixture-of-Experts (MoE)
总参数 1T
激活参数 32B
上下文长度 256K
参数量 160K
层数 61 (including 1 dense layer)
专家数量 384 (8 selected per token, 1 shared)
注意力机制 MLA
激活函数 SwiGLU

性能与评估

评估结果显示,Kimi K2 Thinking 在多项任务中实现了最先进或极具竞争力的表现。在带工具的推理任务中,其在 HLE 上得分 44.9,在 BrowseComp 上得分 60.2,优于其他领先模型。它在编码方面也表现出强大能力,在 SWE-bench Verified 上取得 71.3 的分数,并在多语言编码基准测试中表现尤为突出。所有报告的基准结果均采用 INT4 精度完成,凸显了该模型的高效性。

部署与使用

开发者可以通过兼容 OpenAI/Anthropic 的 API 访问 Kimi K2 Thinking,API 地址为 platform.moonshot.ai。对于本地部署,该模型经过优化,可在 vLLM、SGLang 和 KTransformers 等推理引擎上运行。

该模型支持标准的聊天补全和高级工具调用功能。用户可以定义一组可用工具,模型将自主决定何时以及如何使用这些工具来完成请求。一般使用推荐的温度设置为 1.0。

许可证

模型权重和相关代码库均在修改后的 MIT 许可证下发布。

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px

点击购买

点击首页立即对话

注册 / 登录

输入key

阅读API文档

输入端点和API Key

开始使用

全文结束

推荐模型

DeepSeek-R1-all

与 OpenAI-o1 相当的性能,完全开源模型和技术报告,代码和模型在 MIT 许可证下发布:自由提炼和商业化。

gpt-4.1-nano-2025-04-14

GPT-4.1 nano 是最快、最具性价比的 GPT-4.1 模型。

o4-mini

我们更快、成本效益高的推理模型在数学、编码和视觉方面表现出色。