Deepseek R1 流程基础理解

1157 字

6 分钟

Deepseek R1 流程基础理解

2025-04-21

ai

/

llm

一句话总结： DeepSeek‑R1 系列把大语言模型（LLM）的推理能力当成一个可通过 “奖励驱动” 自我进化的技能：先用 GRPO（Group Relative Policy Optimization）在零监督情况下做纯 RL，再用少量长 Chain‑of‑Thought 数据“冷启动”，接着进行多阶段 RL + SFT + 蒸馏，把推理能力注入到 1.5B–70B 的小模型；核心实现要点是模板化思维显式标注、纯规则奖励、组归一优势以及语言一致性与安全性并行对齐。

⸻

训练管线全景#

DeepSeek‑R1‑Zero：纯 RL 自举#

起点：DeepSeek‑V3‑Base（34B dense）作为策略网络
算法：采用 GRPO ——去掉价值网络、用同一问题一组回答的相对评分做 baseline，显著降低显存与算力
模板：<think>…</think><answer>…</answer>，强制先写推理、后给答案
奖励：
- 准确度：规则判定（数学括号答案、LeetCode 编译结果等）
- 格式：检测是否包在指定 tag
- 语言一致性：统计目标语言占比，惩罚中英夹杂
结果：AIME 2024 pass@1 从 15.6 % → 71 %，多数表决到 86.7 %，逼近 OpenAI‑o1‑0912

DeepSeek‑R1：冷启动 + 多阶段 RL#

冷启动 SFT：先用几千条长 CoT 样本微调，缓解 R1‑Zero 的可读性和语言混杂
第二轮 RL：继续用 GRPO，但加入 language consistency reward 和 reasoning‑oriented reward 混合
第三轮 RL‑All：在 helpfulness / harmlessness 偏好模型奖励下再对齐一次，同时仍保留规则化推理奖励，保证安全与推理并进
表现：综合基准追平 OpenAI‑o1‑1217，并在开源同规模模型中首次达到该水平

GRPO 算法要点#

群体优势标准化：用组内均值‑方差而非全局 baseline，收敛更稳
无价值网络：节省约一半显存，适合 30B+ LLM
理论视角：等价于在 KL 约束下优化分布加权优势，已有收敛分析
与 PPO 比较：PPO 需 critic & GAE；GRPO 更像纯策略梯度的 group‑wise 版本

蒸馏到小模型#

用 R1 生成 80 万样本（60 万推理 + 20 万泛用），只做 SFT，不再 RL；Qwen‑1.5B 蒸馏版在 AIME 28.9 % 超 GPT‑4o，同步提升到 MATH‑500 83.9 %。
说明推理能力可以通过 data‑only distillation 下沉到极小激活参数（2.75 B）。

关键实现细节

组件	可能实现	目的	需注意
采样	temperature = 1.0，top‑p = 1，组大小 G≈8–16	维持多样性，利于组内对比	采样过冷会抑制优势差异
梯度累积	256 token/batch × 128 GPU × grad accum	30B 模型单步 RL ≈ 1e5 token	保证稳定更新
reward	缓存正确答案对 → hash 校验	减少在线执行开销	数学 & 代码需 docker 隔离
安全 RL	合并 Anthropic HHH 数据 → 二元偏好	与推理奖励并行	奖励冲突需调 β 系数

相关概念#

在大模型训练流程中，RL 和 SFT 是两种常被串联使用、但含义与目标截然不同的步骤：

RL（Reinforcement Learning，强化学习）#

核心概念：让一个“智能体”在环境中通过试错获得奖励信号，逐步学习最大化长期累计奖励的策略。
三要素：状态 (state)、动作 (action)、奖励 (reward)。智能体执行动作后收到奖励，用以调整后续决策。
在 LLM 中的用法
- RLHF（Reinforcement Learning from Human Feedback）先训练一个“奖励模型”评价输出，再用 RL 优化主模型，使回答更符合人类偏好。
- 新方法如 GRPO、PPO 等，用于降低方差、节省显存或稳定训练。

SFT（Supervised Fine‑Tuning，监督微调）#

核心概念：把已预训练的大模型再拿出来，用带标签的数据做一次标准监督学习，让模型直接模仿“正确答案”。
常见标签格式：
- 指令‑响应（Instruction‑Follow）对，让模型学会遵循提示
- 完整链式思考（Chain‑of‑Thought）标注，用于显式教授推理步骤
作用：解决预训练阶段“什么都知道却不会听指令”的问题；也是 RL 之前的“暖机”步骤，保证 RL 时有可用的基线策略

二者关系与区别#

维度	RL	SFT
目标	通过奖励信号优化策略，关注结果质量通过标签直接逼近真值，关注	模仿能力
依赖数据	可用规则、仿真或人类反馈生成的奖励	需要人工或半自动标注的答案
梯度来源	政策梯度 / 价值函数	交叉熵等监督损失
在 LLM 流程中的位置	往往在 SFT 之后，用来“对齐”	通常在预训练之后，用来“指令化”