Qwen3-235B-A22B,作为前沿的 Qwen3 系列的一部分,引入了下一代大型语言模型,具有密集和专家混合(MoE)架构。该先进模型能够在单一模型内无缝切换思考模式(用于复杂推理、数学和编码)和非思考模式(用于快速、通用对话)——为广泛的应用提供最佳性能。
关键亮点:
在思维模式下超越了前一代 QwQ 模型和在非思维模式下的 Qwen2.5 指令模型,在数学、代码生成和常识逻辑推理方面表现优异。
提供与人类偏好的卓越对齐,在创意写作、角色扮演、多轮对话以及遵循指令方面表现出色,能够进行高度自然和引人入胜的对话。
卓越的代理能力允许在思维和非思维模式下精确集成外部工具,在复杂的基于代理的任务中实现开源模型的 SOTA(最先进)性能。
支持超过 100 种语言和方言,具备强大的多语言指令遵循和翻译能力。
模型概述:
| 特征 | 描述 |
|---|---|
| 类型 | 因果语言模型 |
| 训练阶段 | 预训练与后训练 |
| 参数数量(总计) | 235B |
| 激活参数 | 22B |
| 非嵌入参数 | 234B |
| 图层 | 94 |
| 注意力头(GQA) | Q: 64, KV: 4 |
| 专家数量 | 128 |
| 激活专家 | 8 |
| 上下文长度 | 128K |
Qwen3-235B-A22B 在推理、代理能力、人类对话和多语言支持方面为行业设定了新的标准,使其成为复杂 AI 应用的理想选择。