Qwen3-235B-A22B,作为前沿的 Qwen3 系列的一部分,引入了下一代大型语言模型,具有密集和专家混合(MoE)架构。该先进模型能够在单一模型内无缝切换思考模式(用于复杂推理、数学和编码)和非思考模式(用于快速、通用对话)——为广泛的应用提供最佳性能。
关键亮点:
在思维模式下超越了前一代 QwQ 模型和在非思维模式下的 Qwen2.5 指令模型,在数学、代码生成和常识逻辑推理方面表现优异。
提供与人类偏好的卓越对齐,在创意写作、角色扮演、多轮对话以及遵循指令方面表现出色,能够进行高度自然和引人入胜的对话。
卓越的代理能力允许在思维和非思维模式下精确集成外部工具,在复杂的基于代理的任务中实现开源模型的 SOTA(最先进)性能。
支持超过 100 种语言和方言,具备强大的多语言指令遵循和翻译能力。
模型概述:
特征 | 描述 |
---|---|
类型 | 因果语言模型 |
训练阶段 | 预训练与后训练 |
参数数量(总计) | 235B |
激活参数 | 22B |
非嵌入参数 | 234B |
图层 | 94 |
注意力头(GQA) | Q: 64, KV: 4 |
专家数量 | 128 |
激活专家 | 8 |
上下文长度 | 128K |
Qwen3-235B-A22B 在推理、代理能力、人类对话和多语言支持方面为行业设定了新的标准,使其成为复杂 AI 应用的理想选择。