DeepSeek相关技术概念和R1-Zero解析
发布日期:2025/1/31 12:40:43 浏览量:
DeepSeek相关技术概念和R1-Zero解析
DeepSeek-R1-Zero是一个未经监督微调(SFT)这一初步步骤,直接通过大规模强化学习(RL)训练的模型。通过强化学习,DeepSeek-R1-Zero自然地展现出众多强大且引人入胜的推理行为。然而,它也面临着可读性差和语言混杂等挑战。**
为了解决这些问题并进一步提升推理性能,DeepSeek推出了DeepSeek-R1,该模型在强化学习之前加入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的性能可与OpenAI-o1-1217****相媲美。
一、有监督微调(SFT)
有监督微调(Supervised Fine-Tuning,SFT)是什么?有监督微调是指在已经训练好的大型语言模型(如GPT、Llama等)基础上,通过使用有标注的特定任务数据进行进一步的训练,从而使模型具备在特定任务或领域上表现更好的能力**。这种技术通常涉及对模型权重的微调,以最小化任务特定的损失函数。**
有监督微调(SFT)的核心在于利用有限的标注数据,对预训练模型进行精细化调整。预训练模型通常是在大规模无监督数据集上训练的,已经掌握了语言的基本结构和知识。通过引入标注数据,模型可以针对特定任务进行微调,学习如何在该任务上进行预测和推理。
******DeepSeek-R1为什么不使用有监督微调(SFT)********?DeepSeek-R1摒弃了传统的有监督微调作为初步步骤的做法,**旨在通过纯粹的强化学习(RL)来训练模型,以激发模型的自主学习能力。
这一理念认为,通过让模型在自主试错中学习正确的方法(即Self play),可以更符合人类的思维规则,同时提升模型的适应性和灵活性。
DeepSeek-R1通过强化学习提升了自主学习能力,无需依赖大量标注数据,从而实现了与有监督微调模型相媲美的推理性能,这一特性不仅降低了数据成本,还显著增强了模型的适应性。
二、强化学习(RL)
******强化学习(Reinforcement Learning, RL)******是什么?强化学习专注于探索模型如何通过与环境的互动,利用试错方式学习最优策略,旨在最大化累积奖励。
强化学习的核心在于模型(通常被称为智能体)会在环境中执行一系列动作,并根据这些动作所获得的奖励来不断优化其行为策略。在DeepSeek中,强化学习被用于提升模型的推理能力。
DeepSeek-R1********************为什么使用强化学习(RL)?DeepSeek-R1采用强化学习是为了提升推理能力并减少对监督数据的依赖,实现模型在复杂环境中的自我优化与进化。
DeepSeek-R1利用强化学习来训练模型,使其能够在特定任务环境中(如数字游戏、数学推理题等)通过不断尝试和反馈来学习如何改进策略,以获得更高的奖励。这个过程类似于人类的学习方式,即通过试错和经验积累来逐渐掌握技能********。
三. R1的几大特点
1. Group Relative Policy Optimization (GRPO) 算法
在大模型推理领域,大部分突破通常都依赖于大规模、精细标注的数据。然而 DeepSeek-R1 为这一常识带来了新的挑战。它的核心假设很简约,却不那么简单:我们能否只通过奖励信号来教会模型正确回答,从而让它自己摸索出最优的思考方式? 当我们完全取消监督微调(在 DeepSeek-R1-Zero 中),研究团队让模型只依赖强化学习奖励来探索并形成自己的思维链。
DeepSeek-R1-Zero 采用了 Group Relative Policy Optimization (GRPO) 算法,不需要与策略模型同规模的价值网络,大大节省了训练成本。GRPO 的关键更新公式如下:
其中,每个样本 𝐴𝑖A_i 的优势函数 (advantage) 这样计算:
这两条公式就是模型学习的数学核心:通过成组采样、对奖励进行标准化,DeepSeek-R1-Zero 在不依赖任何手动标注的情况下就能逐步完善自己的策略。
2. 自发行为,模型产生“aha 顿悟时刻”
大规模强化学习给 LLM 带来的最神奇的现象之一,莫过于其自动涌现的复杂且自我反思的行为。DeepSeek-R1-Zero 经过足够多的训练后,居然能:
- 延长 处理复杂问题时的思维链;
- 重评 解题思路,如果发现之前方法可能走不通,就会另辟蹊径;
- 出现 真正的“aha 时刻”——模型会主动退回前面的推理步骤,找出并修正自己的错误。
对于那些习惯了传统监督微调的专家而言,眼见模型仅靠强化学习奖励就能“学会更好地思考”,着实令人惊艳。也因此,RL 赋予大模型自我进化的潜力,值得我们深入探索。
DeepSeek-R1-Zero 是从基础大模型出发,完全不经过任何监督微调的数据集来训练的。研究团队主要引入了两类奖励信号:
1. 准确度奖励 (Accuracy Rewards):根据模型是否在数学、编程或逻辑题上回答正确来打分。
2. 格式奖励 (Format Rewards):鼓励生成具有固定格式,如<think> ... </think>这类更可读、更易于理解的思维链标记。
凭借这些奖励信号,DeepSeek-R1-Zero 在 AIME 2024 数学基准测试上的 pass@1 从 15.6% 飙升至 71.0%,达到与顶尖大模型不相上下的水平。更令人惊讶的是,借助多次投票(majority-vote),它竟然冲到了 86.7%,力压 OpenAI 的 o1-0912。
为什么这很重要?
然而,这也带来了一些问题: DeepSeek-R1-Zero 的输出可读性常常不佳,比如混合使用多种语言、格式混乱或出现奇怪的修饰。在这种情况下,引入“冷启动”数据就成了下一步的关键。
只要加一点点“冷启动”监督数据,能否解决可读性与语言混杂的问题,并且让模型在推理上继续精进?为此,研究团队制定了一个多阶段的训练流程:
成果亮点:
要点: 仅用少量人工优选数据加上大规模的 RL,就能替代不少此前需要的繁重监督微调工作——这或许会成为未来大模型训练的一种关键模式。
什么要做蒸馏 (Distillation)? 训练一个像 DeepSeek-R1 这样规模(70B)的模型需要的资源可不小,大多数实验室难以承担。好在完成训练后的 DeepSeek-R1 可以生成海量准确答案,为了让更多小模型也能拥有类似的推理“头脑”,研究团队采用了一个简单而高效的方法:把 DeepSeek-R1 生成的优质数据用于微调更小的稠密模型(1.5B、7B、8B、14B、32B 等)。
实战结果:
- 用 Qwen 系列做蒸馏后,7B 大小的模型竟能击败一些更大的开源模型,特别是在数学和代码推理上颇为亮眼。
结论: 让小模型从零开始做大规模强化学习,往往难以企及大模型蒸馏而来的推理水平,并且成本更高。蒸馏因此成了一个高性价比的秘密武器,能快速把大型模型的思维精华移植到小模型上。
- 过程奖励模型 (PRM):让模型在每个细小步骤都获得奖励,理论可行但在大规模训练中难以准确界定“一步”的正确性,也容易出现奖励欺骗(reward hacking)。
3. 死盯强化学习
- 模型自学了如何应对各种任务,无需手把手式的监督标注。
- 这个提升过程暗示了模型能自动摸索反思、验证等学习策略,而并不需要预先提供大样本数据。
4. 冷启动数据和大规模强化学习配合
- 最终版本 DeepSeek-R1 在数学和编程上可与 OpenAI-o1-1217 媲美。
- 在知识类基准如 MMLU、GPQA Diamond 上表现优异,特别擅长 STEM 领域,超越之前的 DeepSeek-V3。
5. 蒸馏,把高阶推理能力赋予给小模型
- 14B 蒸馏模型更是一举打破多项推理基准的记录,印证了“师父”够厉害,“徒弟”也能青出于蓝。
6. 弯路和坑
- 蒙特卡洛树搜索 (MCTS):借鉴 AlphaGo / AlphaZero 的思路,试图在解题时分步搜索。可惜的是,生成空间在语言模型里基本无限大,很快就遭遇了指数级的复杂度和不稳定的价值评估。
这些方法并非一无是处,但在涉及超大规模 RL 训练时,实施细节远比预想复杂得多,也容易卡在训练效率的瓶颈上。

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生