qwen3-235b-a22b

模型描述

Qwen3-235B-A22B,作为前沿的 Qwen3 系列的一部分,引入了下一代大型语言模型,具有密集和专家混合(MoE)架构。该先进模型能够在单一模型内无缝切换思考模式(用于复杂推理、数学和编码)和非思考模式(用于快速、通用对话)——为广泛的应用提供最佳性能。

关键亮点:

在思维模式下超越了前一代 QwQ 模型和在非思维模式下的 Qwen2.5 指令模型,在数学、代码生成和常识逻辑推理方面表现优异。
提供与人类偏好的卓越对齐,在创意写作、角色扮演、多轮对话以及遵循指令方面表现出色,能够进行高度自然和引人入胜的对话。
卓越的代理能力允许在思维和非思维模式下精确集成外部工具,在复杂的基于代理的任务中实现开源模型的 SOTA(最先进)性能。
支持超过 100 种语言和方言,具备强大的多语言指令遵循和翻译能力。

模型概述:

特征 描述
类型 因果语言模型
训练阶段 预训练与后训练
参数数量(总计) 235B
激活参数 22B
非嵌入参数 234B
图层 94
注意力头(GQA) Q: 64, KV: 4
专家数量 128
激活专家 8
上下文长度 128K

Qwen3-235B-A22B 在推理、代理能力、人类对话和多语言支持方面为行业设定了新的标准,使其成为复杂 AI 应用的理想选择。

🔔如何使用

graph LR A("Purchase Now") --> B["Start Chat on Homepage"] A --> D["Read API Documentation"] B --> C["Register / Login"] C --> E["Enter Key"] D --> F["Enter Endpoint & Key"] E --> G("Start Using") F --> G style A fill:#f9f9f9,stroke:#333,stroke-width:1px style B fill:#f9f9f9,stroke:#333,stroke-width:1px style C fill:#f9f9f9,stroke:#333,stroke-width:1px style D fill:#f9f9f9,stroke:#333,stroke-width:1px style E fill:#f9f9f9,stroke:#333,stroke-width:1px style F fill:#f9f9f9,stroke:#333,stroke-width:1px style G fill:#f9f9f9,stroke:#333,stroke-width:1px

点击购买

点击首页立即对话

注册 / 登录

输入key

阅读API文档

输入端点和API Key

开始使用

全文结束

推荐模型

gemini-2.5-flash-lite-preview-06-17

一个针对成本效益和低延迟进行了优化的 Gemini 2.5 Flash 模型。

DeepClaude-3-7-sonnet

DeepSeek-R1 + claude-3-7-sonnet-20250219,Deep 系列由 DeepSeek-R1(671b)模型与其他模型的思维链推理相结合而成,充分利用了 DeepSeek 思维链的强大能力。它采用了一种利用其他更强大模型进行补充的策略,从而增强了整体模型的能力。

o3-mini

o3-mini 是我们最新的小型推理模型,在与 o1-mini 相同的成本和延迟目标下提供高智能。o3-mini 支持关键开发者功能,如结构化输出、函数调用和批量 API。