qwen3-30b-a3b

Qwen3 代表 Qwen 系列大型语言模型的最新一代，提供了一整套密集型和专家混合（MoE）模型。凭借广泛的训练，Qwen3 在推理、指令遵循、代理能力和多语言支持方面引入了前所未有的进展。其主要特点包括：

无缝模式切换：该模型独特地支持在“思考”模式（用于复杂的逻辑推理、数学和编码）和“非思考”模式（用于高效的通用对话）之间的平滑过渡，确保在各种场景下的最佳性能。
增强推理：Qwen3 展示了显著改善的推理能力，在数学、代码生成和常识逻辑推理任务中，超越了之前的 QwQ（在思考模式下）和 Qwen2.5 指令模型（在非思考模式下）。
人类偏好对齐：该模型在创意写作、角色扮演、多轮对话和遵循指令方面表现出色，提供自然、引人入胜和沉浸式的对话体验。
代理能力：Qwen3 提供先进的代理功能，能够在思考和非思考模式下与外部工具进行精确集成，并在复杂的基于代理的任务中在开源模型中实现领先性能。
多语言支持：它支持超过 100 种语言和方言，展示了强大的多语言指令遵循和翻译能力。
模型详情

以下是 Qwen3-30B-A3B 的 FP8 版本概述：

特征	规格
类型	因果语言模型
训练阶段	预训练与后训练
参数数量（总计）	30.5B
激活参数的数量	3.3B
参数数量（非嵌入）	29.9B
层数	48
注意力头数量 (GQA)	32 for Q, 4 for KV
专家数量	128
激活专家的数量	8
上下文长度	128K

模型描述