qwen3-30b-a3b

模型描述

Qwen3 代表 Qwen 系列大型语言模型的最新一代,提供了一整套密集型和专家混合(MoE)模型。凭借广泛的训练,Qwen3 在推理、指令遵循、代理能力和多语言支持方面引入了前所未有的进展。其主要特点包括:

无缝模式切换:该模型独特地支持在“思考”模式(用于复杂的逻辑推理、数学和编码)和“非思考”模式(用于高效的通用对话)之间的平滑过渡,确保在各种场景下的最佳性能。
增强推理:Qwen3 展示了显著改善的推理能力,在数学、代码生成和常识逻辑推理任务中,超越了之前的 QwQ(在思考模式下)和 Qwen2.5 指令模型(在非思考模式下)。
人类偏好对齐:该模型在创意写作、角色扮演、多轮对话和遵循指令方面表现出色,提供自然、引人入胜和沉浸式的对话体验。
代理能力:Qwen3 提供先进的代理功能,能够在思考和非思考模式下与外部工具进行精确集成,并在复杂的基于代理的任务中在开源模型中实现领先性能。
多语言支持:它支持超过 100 种语言和方言,展示了强大的多语言指令遵循和翻译能力。
模型详情

以下是 Qwen3-30B-A3B 的 FP8 版本概述:

特征 规格
类型 因果语言模型
训练阶段 预训练与后训练
参数数量(总计) 30.5B
激活参数的数量 3.3B
参数数量(非嵌入) 29.9B
层数 48
注意力头数量 (GQA) 32 for Q, 4 for KV
专家数量 128
激活专家的数量 8
上下文长度 128K

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px
全文结束

推荐模型

claude-3-7-sonnet-20250219

Claude 3.7 Sonnet 是 Anthropic 迄今为止最先进的混合推理模型,结合了即时响应和用户控制的扩展思维,在编码、数学和现实世界任务中表现出色。

DeepGemini-2.5-pro

DeepSeek-R1 + gemini-2.5-pro-preview-03-25,Deep 系列由 DeepSeek-R1(671b)模型与其他模型的思维链推理相结合,充分利用 DeepSeek 思维链的强大能力。它采用利用其他更强大模型进行补充的策略,从而增强整体模型的能力。

o3-pro

o 系列模型通过强化学习进行训练,使其在回答问题前进行思考并执行复杂的推理。o3-pro 模型使用更多计算资源进行更深入的思考,并提供始终如一的更优答案。o3-pro 仅在 Responses API 中可用,以便在响应 API 请求之前支持多轮模型交互,以及未来其他高级 API 功能。由于 o3-pro 旨在解决难题,某些请求可能需要几分钟才能完成。为避免超时,请尝试使用后台模式。