1157 字
6 分钟
Deepseek R1 流程基础理解
一句话总结: DeepSeek‑R1 系列把 大语言模型(LLM)的推理能力当成一个可通过 “奖励驱动” 自我进化的技能:先用 GRPO(Group Relative Policy Optimization)在 零监督 情况下做纯 RL,再用少量 长 Chain‑of‑Thought 数据“冷启动”,接着进行多阶段 RL + SFT + 蒸馏,把推理能力注入到 1.5B–70B 的小模型;核心实现要点是 模板化思维显式标注、纯规则奖励、组归一优势 以及 语言一致性与安全性并行对齐。
⸻
训练管线全景
DeepSeek‑R1‑Zero:纯 RL 自举
- 起点:DeepSeek‑V3‑Base(34B dense)作为策略网络
- 算法:采用 GRPO ——去掉价值网络、用同一问题一组回答的相对评分做 baseline,显著降低显存与算力
- 模板:
<think>…</think><answer>…</answer>
,强制先写推理、后给答案 - 奖励:
- 准确度:规则判定(数学括号答案、LeetCode 编译结果等)
- 格式:检测是否包在指定 tag
- 语言一致性:统计目标语言占比,惩罚中英夹杂
- 结果:AIME 2024 pass@1 从 15.6 % → 71 %,多数表决到 86.7 %,逼近 OpenAI‑o1‑0912
DeepSeek‑R1:冷启动 + 多阶段 RL
- 冷启动 SFT:先用 几千条 长 CoT 样本微调,缓解 R1‑Zero 的可读性和语言混杂
- 第二轮 RL:继续用 GRPO,但加入 language consistency reward 和 reasoning‑oriented reward 混合
- 第三轮 RL‑All:在 helpfulness / harmlessness 偏好模型奖励下再对齐一次,同时仍保留规则化推理奖励,保证安全与推理并进
- 表现:综合基准追平 OpenAI‑o1‑1217,并在开源同规模模型中首次达到该水平
GRPO 算法要点
- 群体优势标准化:用组内均值‑方差而非全局 baseline,收敛更稳
- 无价值网络:节省约一半显存,适合 30B+ LLM
- 理论视角:等价于在 KL 约束下优化分布加权优势,已有收敛分析
- 与 PPO 比较:PPO 需 critic & GAE;GRPO 更像纯策略梯度的 group‑wise 版本
蒸馏到小模型
- 用 R1 生成 80 万 样本(60 万推理 + 20 万泛用),只做 SFT,不再 RL;Qwen‑1.5B 蒸馏版在 AIME 28.9 % 超 GPT‑4o,同步提升到 MATH‑500 83.9 %。
- 说明推理能力可以通过 data‑only distillation 下沉到极小激活参数(2.75 B)。
关键实现细节
组件 | 可能实现 | 目的 | 需注意 |
---|---|---|---|
采样 | temperature = 1.0,top‑p = 1,组大小 G≈8–16 | 维持多样性,利于组内对比 | 采样过冷会抑制优势差异 |
梯度累积 | 256 token/batch × 128 GPU × grad accum | 30B 模型单步 RL ≈ 1e5 token | 保证稳定更新 |
reward | 缓存 正确答案对 → hash 校验 | 减少在线执行开销 | 数学 & 代码需 docker 隔离 |
安全 RL | 合并 Anthropic HHH 数据 → 二元偏好 | 与推理奖励并行 | 奖励冲突需调 β 系数 |
相关概念
在大模型训练流程中,RL 和 SFT 是两种常被串联使用、但含义与目标截然不同的步骤:
RL(Reinforcement Learning,强化学习)
- 核心概念:让一个“智能体”在环境中通过 试错 获得奖励信号,逐步学习最大化长期累计奖励的策略。
- 三要素:状态 (state)、动作 (action)、奖励 (reward)。智能体执行动作后收到奖励,用以调整后续决策。
- 在 LLM 中的用法
- RLHF(Reinforcement Learning from Human Feedback)先训练一个“奖励模型”评价输出,再用 RL 优化主模型,使回答更符合人类偏好。
- 新方法如 GRPO、PPO 等,用于降低方差、节省显存或稳定训练。
SFT(Supervised Fine‑Tuning,监督微调)
- 核心概念:把已预训练的大模型再拿出来,用 带标签的数据 做一次标准监督学习,让模型直接模仿“正确答案”。
- 常见标签格式:
- 指令‑响应(Instruction‑Follow)对,让模型学会遵循提示
- 完整链式思考(Chain‑of‑Thought)标注,用于显式教授推理步骤
- 作用:解决预训练阶段“什么都知道却不会听指令”的问题;也是 RL 之前的“暖机”步骤,保证 RL 时有可用的基线策略
二者关系与区别
维度 | RL | SFT |
---|---|---|
目标 | 通过奖励信号优化策略,关注 结果质量 通过标签直接逼近真值,关注 | 模仿能力 |
依赖数据 | 可用规则、仿真或人类反馈生成的 奖励 | 需要人工或半自动 标注的答案 |
梯度来源 | 政策梯度 / 价值函数 | 交叉熵等监督损失 |
在 LLM 流程中的位置 | 往往在 SFT 之后,用来“对齐” | 通常在预训练之后,用来“指令化” |
简言之:SFT 先教模型“应该怎么答”,RL 再通过奖励细调“答得更好、更符合需求”。
Deepseek R1 流程基础理解
https://blog.lpkt.cn/posts/deepseek-r1-basic-comprehension/