kimi-k2-thinking

模型描述

介绍 Kimi K2 Thinking:一种具有原生 INT4 量化的深度推理模型

Kimi K2 Thinking 被推出作为该系列开源思维模型中最新且最强大的版本。它从零开始设计,作为一个思维代理,专注于执行逐步推理,同时动态调用工具以完成复杂任务。该模型在 Humanity’s Last Exam (HLE) 和 BrowseComp 等基准测试中树立了新的最先进水平,通过显著扩展其多步推理深度并在连续调用 200–300 次工具时保持稳定性能。

K2 Thinking 的一个关键技术亮点是其作为原生 INT4 量化模型的实现,结合 256k 的上下文窗口,实现了推理延迟和 GPU 内存使用的无损减少。

主要功能

  • 深度思考与工具编排:该模型经过端到端训练,能够将链式思维推理与函数调用交织进行。这使其能够处理持续数百步且不偏离初始目标的自主研究、编码和写作工作流程。
  • 稳定的长远代理: K2 Thinking 展现出连贯且目标导向的行为,能够连续调用工具达 200–300 次,这相比之前模型在 30–50 步后性能常常下降有了显著提升。
  • 原生 INT4 量化:通过在后训练阶段采用量化感知训练(QAT),模型在低延迟模式下实现了近 2 倍的加速,同时不损失性能。

模型架构

Kimi K2 Thinking 基于混合专家(MoE)架构构建。其主要规格如下:

规格 参数
架构 Mixture-of-Experts (MoE)
总参数 1T
激活参数 32B
上下文长度 256K
参数量 160K
层数 61 (including 1 dense layer)
专家数量 384 (8 selected per token, 1 shared)
注意力机制 MLA
激活函数 SwiGLU

性能与评估

评估结果显示,Kimi K2 Thinking 在多项任务中实现了最先进或极具竞争力的表现。在带工具的推理任务中,其在 HLE 上得分 44.9,在 BrowseComp 上得分 60.2,优于其他领先模型。它在编码方面也表现出强大能力,在 SWE-bench Verified 上取得 71.3 的分数,并在多语言编码基准测试中表现尤为突出。所有报告的基准结果均采用 INT4 精度完成,凸显了该模型的高效性。

部署与使用

开发者可以通过兼容 OpenAI/Anthropic 的 API 访问 Kimi K2 Thinking,API 地址为 platform.moonshot.ai。对于本地部署,该模型经过优化,可在 vLLM、SGLang 和 KTransformers 等推理引擎上运行。

该模型支持标准的聊天补全和高级工具调用功能。用户可以定义一组可用工具,模型将自主决定何时以及如何使用这些工具来完成请求。一般使用推荐的温度设置为 1.0。

许可证

模型权重和相关代码库均在修改后的 MIT 许可证下发布。

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px

点击购买

点击首页立即对话

注册 / 登录

输入key

阅读API文档

输入端点和API Key

开始使用

全文结束

推荐模型

o3-mini

o3-mini 是我们最新的小型推理模型,在与 o1-mini 相同的成本和延迟目标下提供高智能。o3-mini 支持关键开发者功能,如结构化输出、函数调用和批量 API。

o4-mini-2025-04-16

我们更快、成本效益高的推理模型在数学、编码和视觉方面表现出色。

claude-sonnet-4-20250514

全面介绍 Anthropic 新发布的 Claude 4 模型——Opus 4 和 Sonnet 4,重点突出其功能、性能基准、应用场景、定价及可用性。本报告总结了各模型之间的主要差异,并讨论了它们与 GitHub Copilot 等主流平台的集成,强调了其在编程、高级推理和伦理 AI 响应方面的优势。