1157 字
6 分钟
Deepseek R1 流程基础理解
2025-04-21

一句话总结: DeepSeek‑R1 系列把 大语言模型(LLM)的推理能力当成一个可通过 “奖励驱动” 自我进化的技能:先用 GRPO(Group Relative Policy Optimization)在 零监督 情况下做纯 RL,再用少量 长 Chain‑of‑Thought 数据“冷启动”,接着进行多阶段 RL + SFT + 蒸馏,把推理能力注入到 1.5B–70B 的小模型;核心实现要点是 模板化思维显式标注、纯规则奖励、组归一优势 以及 语言一致性与安全性并行对齐。

训练管线全景#

DeepSeek‑R1‑Zero:纯 RL 自举#

  • 起点:DeepSeek‑V3‑Base(34B dense)作为策略网络
  • 算法:采用 GRPO ——去掉价值网络、用同一问题一组回答的相对评分做 baseline,显著降低显存与算力
  • 模板:<think>…</think><answer>…</answer>,强制先写推理、后给答案
  • 奖励:
    • 准确度:规则判定(数学括号答案、LeetCode 编译结果等)
    • 格式:检测是否包在指定 tag
    • 语言一致性:统计目标语言占比,惩罚中英夹杂
  • 结果:AIME 2024 pass@1 从 15.6 % → 71 %,多数表决到 86.7 %,逼近 OpenAI‑o1‑0912

DeepSeek‑R1:冷启动 + 多阶段 RL#

  1. 冷启动 SFT:先用 几千条 长 CoT 样本微调,缓解 R1‑Zero 的可读性和语言混杂
  2. 第二轮 RL:继续用 GRPO,但加入 language consistency reward 和 reasoning‑oriented reward 混合
  3. 第三轮 RL‑All:在 helpfulness / harmlessness 偏好模型奖励下再对齐一次,同时仍保留规则化推理奖励,保证安全与推理并进
  4. 表现:综合基准追平 OpenAI‑o1‑1217,并在开源同规模模型中首次达到该水平

GRPO 算法要点#

  • 群体优势标准化:用组内均值‑方差而非全局 baseline,收敛更稳
  • 无价值网络:节省约一半显存,适合 30B+ LLM
  • 理论视角:等价于在 KL 约束下优化分布加权优势,已有收敛分析
  • 与 PPO 比较:PPO 需 critic & GAE;GRPO 更像纯策略梯度的 group‑wise 版本

蒸馏到小模型#

  • 用 R1 生成 80 万 样本(60 万推理 + 20 万泛用),只做 SFT,不再 RL;Qwen‑1.5B 蒸馏版在 AIME 28.9 % 超 GPT‑4o,同步提升到 MATH‑500 83.9 %。
  • 说明推理能力可以通过 data‑only distillation 下沉到极小激活参数(2.75 B)。

关键实现细节

组件可能实现目的需注意
采样temperature = 1.0,top‑p = 1,组大小 G≈8–16维持多样性,利于组内对比采样过冷会抑制优势差异
梯度累积256 token/batch × 128 GPU × grad accum30B 模型单步 RL ≈ 1e5 token保证稳定更新
reward缓存 正确答案对 → hash 校验减少在线执行开销数学 & 代码需 docker 隔离
安全 RL合并 Anthropic HHH 数据 → 二元偏好与推理奖励并行奖励冲突需调 β 系数

相关概念#

在大模型训练流程中,RL 和 SFT 是两种常被串联使用、但含义与目标截然不同的步骤:

RL(Reinforcement Learning,强化学习)#

  • 核心概念:让一个“智能体”在环境中通过 试错 获得奖励信号,逐步学习最大化长期累计奖励的策略。
  • 三要素:状态 (state)、动作 (action)、奖励 (reward)。智能体执行动作后收到奖励,用以调整后续决策。
  • 在 LLM 中的用法
    • RLHF(Reinforcement Learning from Human Feedback)先训练一个“奖励模型”评价输出,再用 RL 优化主模型,使回答更符合人类偏好。
    • 新方法如 GRPO、PPO 等,用于降低方差、节省显存或稳定训练。

SFT(Supervised Fine‑Tuning,监督微调)#

  • 核心概念:把已预训练的大模型再拿出来,用 带标签的数据 做一次标准监督学习,让模型直接模仿“正确答案”。
  • 常见标签格式:
    • 指令‑响应(Instruction‑Follow)对,让模型学会遵循提示
    • 完整链式思考(Chain‑of‑Thought)标注,用于显式教授推理步骤
  • 作用:解决预训练阶段“什么都知道却不会听指令”的问题;也是 RL 之前的“暖机”步骤,保证 RL 时有可用的基线策略

二者关系与区别#

维度RLSFT
目标通过奖励信号优化策略,关注 结果质量 通过标签直接逼近真值,关注模仿能力
依赖数据可用规则、仿真或人类反馈生成的 奖励需要人工或半自动 标注的答案
梯度来源政策梯度 / 价值函数交叉熵等监督损失
在 LLM 流程中的位置往往在 SFT 之后,用来“对齐”通常在预训练之后,用来“指令化”

简言之:SFT 先教模型“应该怎么答”,RL 再通过奖励细调“答得更好、更符合需求”。

Deepseek R1 流程基础理解
https://blog.lpkt.cn/posts/deepseek-r1-basic-comprehension/
作者
lollipopkit
发布于
2025-04-21
许可协议
CC BY-NC-SA 4.0