MAI-DS-R1 是一个 DeepSeek-R1 推理模型,由微软 AI 团队进行后训练,旨在填补模型先前版本中的信息空白,并在保持 R1 推理能力的同时去除和改善其危害保护。该模型使用了来自 Tulu 3 SFT 数据集的 110k 安全相关示例进行训练,此外还使用了大约 350k 内部开发的多语言示例数据集,涵盖了各种报告偏见的话题。这两组查询都通过 DeepSeek-R1 处理,以生成思维链(CoT)推理和最终答案。MAI-DS-R1 成功解锁了大多数原始 R1 模型中之前被阻止的查询,同时在相关安全基准测试中超越了最近发布的 R1-1776 模型(由 Perplexity 进行后训练)。上述结果是在保持原始 DeepSeek-R1 一般推理能力的同时取得的。
请注意:微软对该模型进行了后期训练,以解决与其输出相关的某些局限性,但模型的先前局限性和考虑因素仍然存在,包括安全考虑
模型架构和目标
- 架构:基于 DeepSeek-R1,这是一种基于变换器的自回归语言模型,利用多头自注意力和专家混合(MoE)进行可扩展和高效的推理。
- 目标:经过后期训练,以减少与 CCP 对齐的限制并增强伤害保护,同时保留原始模型强大的思维链推理和通用语言理解能力。
- 预训练模型基础:DeepSeek-R1 (671B)
数据、媒体和语言
属性 | 描述 |
---|---|
支持的数据类型 | 输入: text Outputs: text |
支持的语言 | en, zh |
Transparency
Uses
Direct use
MAI-DS-R1 保留了 DeepSeek-R1 的一般推理能力,可用于广泛的语言理解和生成任务,特别是在复杂推理和问题解决方面。主要直接用途包括:
- 一般文本生成和理解 - 为广泛的提示生成连贯、上下文相关的文本。这包括进行对话、写论文或根据给定提示继续一个故事。
- 一般知识任务 - 回答需要事实知识的开放领域问题。
- 推理和问题解决 - 通过采用连锁思维策略处理多步骤推理任务,例如数学应用题或逻辑难题。
- 代码生成与理解 - 通过生成代码片段或解释代码来协助编程任务。
- 科学和学术应用 - 在 STEM 和研究领域协助结构化问题解决。
超出范围的使用
某些应用领域由于伦理/安全问题或模型在这些领域缺乏必要的可靠性而不在范围内。以下用法不在范围内:
- 医疗或健康建议 - 该模型不是医生,无法保证提供准确的医疗诊断或安全的治疗建议。
- 法律建议 – 该模型不是律师,不应被委托提供明确的法律咨询、解释法律或自行做出法律决定。
- 安全关键系统 – 该模型不适用于可能导致伤害、生命损失或重大财产损失的自主系统。这包括在无人驾驶车辆、飞机控制、医疗生命支持系统或没有人类监督的工业控制中的使用。
- 高风险决策支持 - 不应依赖该模型进行影响财务、安全或个人福祉的决策,例如财务规划或投资建议。
- 恶意或不道德使用 - 该模型不得用于生成有害、非法、欺骗或不道德的内容,包括仇恨言论、暴力、骚扰或侵犯隐私或知识产权。
偏见、风险和局限性
- 偏见: 该模型可能保留训练数据和原始 DeepSeek‑R1 中存在的偏见,特别是在文化和人口统计方面。
- 风险: 该模型可能仍会产生虚假信息,容易受到对抗性提示的影响,或在某些情况下生成不安全、有偏见或有害的内容。开发者应实施内容审核和使用监控以减少误用。
- 限制: MAI-DS-R1 共享 DeepSeek-R1 的知识截止日期,可能对最近的事件或特定领域的事实缺乏了解。
推荐事项
确保负责任的使用,我们建议如下:
- 透明度与局限性:建议用户明确了解模型的潜在偏见和局限性。
- 人工监督和验证: 直接和下游用户在敏感或高风险场景中部署模型时,应实施人工审查或自动验证输出。
- 使用保障: 开发者应整合内容过滤、提示工程最佳实践和持续监控,以降低风险并确保模型的输出符合预期的安全和质量标准。
- 法律和监管合规: 该模型可能会输出政治敏感内容(例如,中国治理、历史事件),可能与当地法律或平台政策相冲突。操作人员必须确保遵守地区法规。
内容过滤
通过 Azure AI Foundry 部署时,提示和完成内容会通过 Azure AI 内容安全分类模型的默认配置进行处理,以检测和防止有害内容的输出。了解更多关于 Azure AI 内容安全 的信息。在 Azure AI 中为生产部署模型时,内容过滤的配置选项有所不同;了解更多。
来自模型提供者的更多细节
测试数据、因素和指标
测试数据
该模型在多种基准上进行了评估,涵盖了不同的任务,并解决了性能和安全性问题。主要基准包括:
- 公共基准:这些涵盖了广泛的任务,如自然语言推理、问答、数学推理、常识推理、代码生成和代码补全。它评估模型的通用知识和推理能力。
- 审查测试集:该集合包含来自 R1 的 3.3k 个关于各种被审查主题的提示,涵盖 11 种语言。它评估模型在不同语言中解禁先前被审查内容的能力。
- 安全测试集:该集是来自HarmBench数据集的一个拆分,包括 320 个查询,分为三个功能类别:标准、上下文和版权。查询涵盖八个语义类别,如错误信息/虚假信息、化学/生物威胁、非法活动、有害内容、版权侵犯、网络犯罪和骚扰。它评估模型泄露有害或不安全内容的比率。
因素
以下因素可以影响 MAI-DS-R1 的行为和性能:
- 输入主题和敏感性:该模型经过专门调整,可以自由讨论以前被审查的话题。在这些话题上,它将提供有关基础模型可能回避的信息。然而,对于真正有害或明确禁止的内容(例如,暴力指令),由于安全微调,该模型仍然保持限制。
- 语言:尽管 MAI-DS-R1 在多语言数据上进行了后训练,但它可能会继承原始 DeepSeek-R1 模型的局限性,性能在英语和中文中可能最强。
- 提示复杂性和所需推理:该模型在需要推理的复杂查询上表现良好,而非常长或复杂的提示仍可能构成挑战。
- 用户指令和角色提示:作为一个面向聊天的 LLM,MAI-DS-R1 的响应可以受到系统或开发者提供的指令(例如,定义其角色和风格的系统提示)以及用户措辞的影响。开发者应提供明确的指令以引导模型的行为。
指标
我们跟踪了几个指标来量化 MAI-DS-R1 的性能:
- 公共基准:a. 准确性:模型输出与正确答案匹配的问题百分比。b. Pass@1:模型在第一次尝试中生成的正确解决方案通过所有测试用例的问题百分比。
- 审查评估:a. 答案满意度(内部指标,用于衡量与问题的相关性,范围为[0,4])。目的是衡量未审查的答案是否回答了问题,而不是生成与问题无关但未审查的内容。
- % Uncensored: 成功解禁的被审查样本的比例。
- 安全评估:a. 攻击成功率:引发模型行为的测试用例的百分比。按功能或语义类别进行评估。b. 微观攻击成功率:所有类别的攻击成功率的总平均值。
结果
对一般知识和推理的评估
类别 | 基准测试 | 指标 | DS-R1 | R1-1776 | MAI-DS-R1 |
---|---|---|---|---|---|
常识 | anli_r30 | 7-shot Acc | 0.686 | 0.673 | 0.697 |
arc_challenge | 10-shot Acc | 0.963 | 0.963 | 0.963 | |
hellaswag | 5-shot Acc | 0.864 | 0.860 | 0.859 | |
mmlu (all) | 5-shot Acc | 0.867 | 0.863 | 0.870 | |
mmlu/humanities | 5-shot Acc | 0.794 | 0.784 | 0.801 | |
mmlu/other | 5-shot Acc | 0.883 | 0.879 | 0.886 | |
mmlu/social_sciences | 5-shot Acc | 0.916 | 0.916 | 0.914 | |
mmlu/STEM | 5-shot Acc | 0.867 | 0.864 | 0.870 | |
openbookqa | 10-shot Acc | 0.936 | 0.938 | 0.954 | |
Piqa | 5-shot Acc | 0.933 | 0.926 | 0.939 | |
Winogrande | 5-shot Acc | 0.843 | 0.834 | 0.850 | |
数学 | gsm8k_chain_of_thought | 0-shot Accuracy | 0.953 | 0.954 | 0.949 |
数学 | 4-shot Accuracy | 0.833 | 0.853 | 0.843 | |
mgsm_chain_of_thought_en | 0-shot Accuracy | 0.972 | 0.968 | 0.976 | |
mgsm_chain_of_thought_zh | 0-shot Accuracy | 0.880 | 0.796 | 0.900 | |
AIME 2024 | Pass@1, n=2 | 0.7333 | 0.7333 | 0.7333 | |
代码 | humaneval | 0-shot Accuracy | 0.866 | 0.841 | 0.860 |
livecodebench (max-tokens=8k) | 0-shot Pass@1 | 0.531 | 0.484 | 0.632 | |
LCB_coding_completion | 0-shot Pass@1 | 0.260 | 0.200 | 0.540 | |
LCB_generation | 0-shot Pass@1 | 0.700 | 0.670 | 0.692 | |
mbpp | 3-shot Pass@1 | 0.897 | 0.874 | 0.911 |
被阻止主题的评估和安全基准性能
基准测试 | 指标 | DS-R1 | R1-1776 | MAI-DS-R1 |
---|---|---|---|---|
被阻止的话题测试集 | Answer Satisfaction | 1.68 | 2.76 | 3.62 |
% uncensored | 30.7 | 99.1 | 99.3 |
安全评估
类别 | DS-R1 (Answer) | R1-1776 (Answer) | MAI-DS-R1 (Answer) | DS-R1 (Thinking) | R1-1776 (Thinking) | MAI-DS-R1 (Thinking) |
---|---|---|---|---|---|---|
Micro Attack Success Rate | 0.441 | 0.481 | 0.209 | 0.394 | 0.325 | 0.134 |
Functional Standard | 0.258 | 0.289 | 0.126 | 0.302 | 0.214 | 0.082 |
Functional Contextual | 0.494 | 0.556 | 0.321 | 0.506 | 0.395 | 0.309 |
Functional Copyright | 0.750 | 0.787 | 0.263 | 0.463 | 0.475 | 0.062 |
Semantic Misinfo/Disinfo | 0.500 | 0.648 | 0.315 | 0.519 | 0.500 | 0.259 |
Semantic Chemical/Bio | 0.357 | 0.429 | 0.143 | 0.500 | 0.286 | 0.167 |
Semantic Illegal | 0.189 | 0.170 | 0.019 | 0.321 | 0.245 | 0.019 |
Semantic Harmful | 0.111 | 0.111 | 0.111 | 0.111 | 0.111 | 0.000 |
Semantic Copyright | 0.750 | 0.787 | 0.263 | 0.463 | 0.475 | 0.062 |
Semantic Cybercrime | 0.519 | 0.500 | 0.385 | 0.385 | 0.212 | 0.308 |
Semantic Harassment | 0.000 | 0.048 | 0.000 | 0.048 | 0.048 | 0.000 |
Num Parse Errors | 4 | 20 | 0 | 26 | 67 | 0 |
摘要
- 常识与推理: MAI-DS-R1 的表现与 DeepSeek-R1 相当,略优于 R1-1776,特别是在 mgsm_chain_of_thought_zh 基准测试中表现出色,而 R1-1776 在该测试中出现了显著的退步。
- 被阻止的话题: MAI-DS-R1 阻止了 99.3% 的样本,匹配 R1-1776,并显示出最高的回答满意度评分,这可能是由于更相关的回答。
- 安全性:MAI-DS-R1 在减少有害内容方面优于 R1-1776 和原始 R1 模型。