Understanding Reasoning LLMs（译文）

type

status

date

slug

summary

理解推理型大语言模型

构建与优化推理模型的方法与策略

Understanding Reasoning LLMs

Methods and Strategies for Building and Refining Reasoning Models

https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?utm_campaign=post&utm_medium=web

本文介绍了构建推理模型的四种主要方法，以及如何增强大语言模型（LLMs）的推理能力。希望这篇文章能为您提供有价值的见解，帮助您在这一快速发展的研究领域和热点讨论中找到方向。

在 2024 年，大语言模型（LLM）领域呈现出日益精细化的趋势。除了预训练和微调之外，我们还见证了从检索增强生成（RAG）到代码助手等一系列专门应用的兴起。我预计这一趋势将在 2025 年进一步加速，行业将更加注重特定领域和特定应用的优化，即“专业化”。

*Stages 1-3 are the common steps to developing LLMs. Stage 4 specializes LLMs for specific use cases.*

推理模型的开发正是这种专业化趋势的一部分。这意味着我们对大语言模型（LLM）进行优化，使其能够在需要中间推理步骤的复杂任务上表现出色，例如解谜、高等数学和编程挑战。然而，这种专业化并不会取代其他 LLM 应用，因为将 LLM 转化为推理模型的过程中也会引入一些特定的缺陷，我将在后文讨论这些问题。

为了让您对文章的内容有一个大致了解，本篇文章将涵盖以下内容：

解释“推理模型”的含义

讨论推理模型的优势和劣势

概述 DeepSeek R1 的方法论

介绍构建和优化推理模型的四种主要方法

分享对 DeepSeek V3 和 R1 发布后 LLM 发展趋势的看法

提供在有限预算下开发推理模型的建议

希望本文能为您提供有价值的见解，帮助您更好地理解 AI 在这一年持续快速发展的趋势！

How do we define "reasoning model"?

如何定义“推理模型”？

如果您从事人工智能（AI）或机器学习领域的工作，您可能已经习惯了各种模糊且备受争议的定义。而“推理模型”这个术语也不例外。通常情况下，某篇论文会对其进行正式定义，但很快就在另一篇论文中被重新诠释，如此往复。

在本文中，我将“推理”定义为：回答需要复杂、多步推理并包含中间步骤的问题的过程。例如，像 “法国的首都是哪里？” 这样的事实性问答并不涉及推理，因为它只需要直接检索一个已知的事实。而 “一列火车以 60 英里每小时的速度行驶 3 小时后，它行驶了多远？” 这个问题则涉及简单的推理，因为解答它需要理解距离、速度和时间之间的关系，并经过计算得出答案。

A regular LLM may only provide a short answer (as shown on the left), whereas reasoning models typically include intermediate steps that reveal part of the thought process. (Note that many LLMs who have not been specifically developed for reasoning tasks can also provide intermediate reasoning steps in their answers.)

大多数现代 LLM 具备基本的推理能力，并能回答类似 “一列火车以 60 英里每小时的速度行驶 3 小时后，它行驶了多远？” 这样的问题。因此，当我们今天谈论推理模型时，通常指的是那些在更复杂推理任务上表现出色的 LLM，比如解谜、破解逻辑难题和证明数学定理。

此外，目前被称为“推理模型”的 LLM 通常在其回答中包含某种**“思考”或“推理”过程**。当然，LLM 是否真正“思考”以及它们是如何“思考”的，这是另一个值得探讨的问题。

推理模型中的中间步骤通常以两种方式呈现：

显式展示：模型在回答中清楚地列出推理过程，例如逐步分解问题、解释逻辑关系或展示计算过程（如前文示例所示）。

隐式处理：某些推理 LLM（如 OpenAI 的 o1）在内部运行多个推理迭代，但这些中间步骤不会直接展示给用户。模型可能在内部多次优化答案，最终仅输出一个精炼的结果。

这两种方式各有优劣，具体使用哪种方式取决于模型的设计目标以及应用场景的需求。

*"Reasoning" is used at two different levels: 1) processing the input and generating via multiple intermediate steps and 2) providing some sort of reasoning as part of the response to the user.*

When should we use reasoning models?

何时应使用推理模型？

在定义了推理模型之后，我们可以进入更有趣的部分：如何构建和优化 LLM 以提升其推理能力。但在深入探讨技术细节之前，我们需要先明确一个重要问题：什么时候真正需要推理模型？

推理模型擅长处理复杂任务，如解谜、高级数学问题和具有挑战性的编程任务。然而，它们并不适用于所有任务。例如，对于摘要、翻译或基于知识的问答等较为直接的任务，普通 LLM 已经能很好地胜任，使用推理模型反而可能低效且成本高昂。

事实上，将推理模型用于所有任务可能会带来一些弊端：

计算成本更高：推理模型通常需要更多的计算资源，调用成本更贵。

回答更冗长：由于推理过程被明确展开，答案可能比传统 LLM 更冗余。

“过度思考”问题：推理模型可能会在不必要的情况下执行复杂推理，导致更高的出错率。

因此，一个简单的原则是：使用合适的工具（或适合的 LLM 类型）来完成特定任务。

文章中的示意图总结了推理模型的主要优势和局限性，有助于我们更好地理解它们的适用场景。

*The key strengths and weaknesses of reasoning models.*

这张图总结了推理模型的优势和局限性：

推理模型擅长的任务（Good at）

✅ 演绎和归纳推理（如解谜、数学证明）

✅ 链式思维推理（能够拆解多步问题）

✅ 复杂决策任务（在复杂环境下做出合理决策）

✅ 更强的泛化能力（能够更好地解决新问题）

推理模型的局限性（Bad at）

❌ 快速、低成本响应（推理过程更长，推理时间增加）

❌ 基于知识的任务（更容易产生“幻觉”或错误信息）

❌ 简单任务（可能会“过度思考”，导致效率低下）

这表明，推理模型的最大优势在于处理需要多步推理的复杂问题，而在直接查找知识或执行简单任务时，普通 LLM 可能是更高效的选择。因此，在实际应用中，选择合适的模型类型至关重要，以确保任务执行的成本效益和性能最优。

A brief look at the DeepSeek training pipeline

DeepSeek 训练流程概览

在下一节讨论构建和改进推理模型的四种主要方法之前，我想先简要介绍 DeepSeek R1 的训练流程，该流程来自 DeepSeek R1 技术报告。这一报告不仅是一个有趣的案例研究，同时也可以作为开发推理型 LLM 的蓝图。

值得注意的是，DeepSeek 并未发布一个单一的 R1 推理模型，而是推出了三个不同的变体：

DeepSeek-R1-Zero

DeepSeek-R1

DeepSeek-R1-Distill

根据技术报告中的描述，我已将这些模型的开发流程整理为下图（未附图，如有图表可补充说明）。这一流程展示了如何逐步训练、优化和精炼推理 LLM，为构建高效的推理模型提供了重要参考。

Development process of DeepSeeks three different reasoning models that are discussed in the DeepSeek R1 technical report.

DeepSeek 训练流程概览（续）

接下来，我们将简要回顾上图所展示的训练流程。关于构建和优化推理模型的四种主要方法，将在下一节详细讨论。

(1) DeepSeek-R1-Zero

该模型基于 671B 参数规模的 DeepSeek-V3 预训练基础模型（于 2024 年 12 月发布）。

研究团队使用**强化学习（RL）**进行训练，采用了两种奖励机制。

由于该方法未包含监督微调（SFT）（通常 RLHF 训练会结合 SFT），因此这一训练方式被称为**“冷启动”（cold start）**训练。

(2) DeepSeek-R1

这是 DeepSeek 的旗舰推理模型，在 DeepSeek-R1-Zero 的基础上进一步优化。

团队增加了额外的 SFT 训练阶段，并进行进一步的强化学习训练，在“冷启动”R1-Zero 的基础上取得了更好的推理能力。

(3) DeepSeek-R1-Distill

研究团队利用前面步骤中生成的 SFT 数据，对 Qwen 和 Llama 进行微调，以增强其推理能力。

该过程并非传统意义上的知识蒸馏（distillation），但采用了一种类似的方法，即使用更大规模的 DeepSeek-R1 671B 模型的输出，来训练更小规模的模型（Llama 8B 和 70B，Qwen 1.5B–30B）。

这一流程展示了 DeepSeek 在训练推理模型时采用的逐步优化方法，从冷启动训练（R1-Zero），到监督微调和强化学习优化（R1），再到小模型蒸馏（R1-Distill），提供了一条高效训练高性能推理模型的路径。

The 4 main ways to build and improve reasoning models

构建和优化推理模型的四种主要方法

在本节中，我将介绍当前用于增强 LLM 推理能力的关键技术，以及如何构建专门的推理模型，如 DeepSeek-R1、OpenAI 的 o1 和 o3 等。

注：关于 o1 和 o3 的具体实现细节，目前 OpenAI 并未公开。但据传，它们可能结合了推理优化与训练技术，从而提升推理能力。

接下来，我们将深入探讨这四种主要的方法，并分析它们在不同推理任务中的应用和优势。

1) Inference-time scaling

1) 推理阶段的计算扩展（Inference-time Scaling）

提升 LLM 推理能力（或其他能力）的一种方法是推理阶段的计算扩展（Inference-time Scaling）。这一术语可以有不同的含义，但在本文的上下文中，它主要指的是：在推理过程中增加计算资源，以提升输出质量。

一个简单的类比是：当人类在思考复杂问题时，给予更多时间往往能得出更优的答案。类似地，我们可以应用特定的技术，让 LLM 在生成答案时“思考”得更深入。（当然，LLM 是否真正“思考”是另一个值得探讨的话题。）

1.1 经典方法：提示词工程（Prompt Engineering）

推理阶段计算扩展的一种直接方法是巧妙的提示词工程（Prompt Engineering）。

链式思维（Chain-of-Thought, CoT）提示是一种经典案例。

例如，在输入提示中加入 “一步一步思考”（think step by step） 这样的短语，可以鼓励模型生成中间推理步骤，而不是直接跳到最终答案。

在更复杂的问题上，这种方法通常（但并非总是）能带来更准确的结果。

然而，这种策略并不适用于所有问题。

例如，对于 “法国的首都是哪里？” 这样基于事实的简单知识问答，使用 CoT 反而是不必要的，因为模型只需直接检索答案，而不需要进行多步推理。

这也是一个很好的经验法则：如果你的输入问题不需要推理步骤，就没有必要使用推理模型。

1.2 其他推理优化技术

除了提示词工程，推理阶段计算扩展还可以涉及其他优化手段，例如：

增加计算预算：通过 提高计算精度（如使用更长的上下文窗口或更多计算层） 来增强推理质量。

自回归采样与多路径推理：让 LLM 在推理过程中生成多个可能的答案路径，然后选择最优的答案。

外部工具调用：结合计算器、代码执行环境或外部 API 来辅助推理过程，提高模型的正确率。

综上所述，推理阶段的计算扩展是一种无需额外训练即可提升推理能力的方法，尤其适用于复杂的多步推理任务。然而，对于简单的查询，这种方法可能既低效又多余，因此需要合理选择适用场景。

*An example of classic CoT prompting from the 2022 Large Language Models are Zero-Shot Reasoners paper (https://arxiv.org/abs/2205.11916).*

推理阶段计算扩展的进一步方法

前文提到的 链式思维（CoT）提示 可以被视为 推理阶段的计算扩展（Inference-time Scaling），因为它通过生成更多的输出 token，增加了推理过程的计算成本，从而提升推理能力。

除了 CoT，另一种推理阶段计算扩展的方法是投票和搜索策略（Voting & Search Strategies）。

1. 投票策略（Voting Strategies）

📌 主要思想：让 LLM 多次生成答案，然后根据投票机制选出最优答案。

多数投票（Majority Voting）：

让 LLM 生成 多个答案（例如 5 次）。
选择出现次数最多的答案作为最终结果。
优点：减少偶然错误，提高鲁棒性。
缺点：计算成本更高，需要多次推理。

2. 搜索策略（Search Strategies）

📌 主要思想：使用搜索算法优化推理过程，确保找到更好的答案。

波束搜索（Beam Search）：

让 LLM 生成多个候选答案，并在多个推理路径上选择最佳答案。
适用于需要更高确定性的任务，如代码生成、数学证明等。

蒙特卡洛搜索树（MCTS）：

适用于需要探索多个可能性、具有递归决策逻辑的任务（如象棋、Go 游戏）。
在 AI 规划任务中表现优秀。

总结

推理阶段计算扩展 不仅仅是增加 token 生成（如 CoT），还可以利用投票和搜索策略来优化推理结果。

多数投票（Majority Voting） 和 波束搜索（Beam Search） 等方法，可以减少 LLM 产生错误答案的概率，提高推理准确性。

这些方法通常需要更高的计算资源，适用于关键任务，而非每次调用 LLM 时都使用。

深入研究 Scaling LLM Test-Time Compute 论文，可以帮助开发者在有限计算资源下，找到更高效的推理优化策略。

*Different search-based methods rely on a process-reward-based model to select the best answer. Annotated figure from the LLM Test-Time Compute paper, https://arxiv.org/abs/2408.03314*

DeepSeek R1 与推理阶段计算扩展

根据 DeepSeek R1 技术报告，DeepSeek 模型不使用推理阶段计算扩展（Inference-time Scaling）。然而，这种技术通常是在 应用层（Application Layer） 进行实现，而不是在模型本身的架构中。因此，DeepSeek 可能在其应用程序中使用了推理阶段优化，尽管模型本身未在训练时直接集成这一策略。

OpenAI o1 和 o3 可能使用了推理阶段扩展

相比之下，我推测 OpenAI 的 o1 和 o3 可能采用了推理阶段计算扩展。这可以解释为什么：

o1 和 o3 在调用成本上较为昂贵——推理阶段的优化往往需要额外的计算资源，例如：

多轮推理（Multi-pass Inference）

投票策略（Majority Voting）

搜索算法（Beam Search）

自回归优化（Self-Refinement） 这些方法都可能导致推理时间增加，从而提升运行成本。

o1 和 o3 可能结合了强化学习（RL）训练

DeepSeek R1 使用了 强化学习（RL） 进行优化，而 OpenAI 很可能在 o1 和 o3 的训练中也采用了类似的方法。

这一点将在接下来的强化学习部分深入探讨。

总结

DeepSeek R1 声称不使用推理阶段扩展，但可能在应用层实现了相关优化。

OpenAI 的 o1 和 o3 可能通过 推理阶段扩展（如搜索、投票）来提升推理能力，从而解释其更高的推理成本。

强化学习（RL） 很可能也是 o1 和 o3 训练的一部分，接下来的部分将详细探讨如何通过 RL 提高推理模型的性能。

2) 纯强化学习（Pure Reinforcement Learning, RL）

在 DeepSeek R1 论文 中，一个重要发现是：

🔹 推理能力可以通过纯强化学习（Pure RL）自主涌现。

这意味着，即使没有监督微调（SFT）作为预训练步骤，强化学习本身也能培养 LLM 的推理能力。让我们进一步探讨这一点。

🔹 DeepSeek-R1-Zero：纯 RL 训练的实验

在 DeepSeek R1 训练过程中，他们开发了三种模型（DeepSeek-R1-Zero、DeepSeek-R1、DeepSeek-R1-Distill）。其中：

DeepSeek-R1-Zero 是直接在 DeepSeek-V3 预训练模型（2024 年 12 月发布）基础上进行强化学习训练的版本。

传统 RL 训练流程通常包含 监督微调（SFT） + 强化学习（RL），但 DeepSeek-R1-Zero 直接跳过了 SFT，完全依赖 RL 进行训练。

这一策略在 强化学习流程 上的不同点如下：

传统 RL 训练	DeepSeek-R1-Zero 训练
SFT 预训练（模型先通过人工标注数据进行微调）	无 SFT 预训练（直接从强化学习开始）
RL 主要用于微调 SFT 训练后的模型	RL 用于直接塑造 LLM 的行为
适用于已有基本能力的 LLM	适用于让能力从零开始自主涌现

🔹 关键发现：即使没有 SFT，推理能力依然能够从 RL 训练中自然涌现。这表明，在强化学习过程中，LLM 可能会逐渐学习到更高效的推理策略，而无需人工微调提供示例。

🔹 为什么纯 RL 训练会让推理能力涌现？

DeepSeek R1 研究的结果显示，强化学习可能帮助 LLM 优化其思维过程，原因如下： 1️⃣ 优化目标驱动学习：

传统 SFT 让 LLM 学习人类示例，而 RL 直接让模型尝试不同方法，并优化最有效的推理路径。

2️⃣ 奖励机制强化有效推理：

在 RL 过程中，模型通过试错来发现哪些推理步骤更有效，并通过奖励信号进行强化。

3️⃣ 避免“人类偏差”：

SFT 依赖人工数据，可能会带入人类偏见，而 RL 可以让模型探索新的、更优的推理方式。

🔹 深远影响

🔹 RL 可以独立培养 LLM 的推理能力，这意味着：

强化学习可以成为开发推理模型的核心手段，而不一定需要 SFT 作为前置步骤。

这可能解释了为什么 OpenAI o1 和 o3 具有强大的推理能力——它们可能也采用了类似的 RL 训练策略。

对于资源有限的团队，这可能提供了一种跳过 SFT 直接优化 LLM 的新方法，从而降低训练成本。

📌 结论

DeepSeek-R1-Zero 不使用 SFT 直接训练，推理能力依然成功涌现。

强化学习本身就可以塑造 LLM 的推理能力，这在传统 LLM 训练中是一个突破性的发现。

RL 可能成为未来优化推理 LLM 的关键技术，甚至可以超越传统的 SFT + RL 组合方法。

接下来的部分，我们将进一步探讨 RL 在推理模型中的具体应用方式，以及如何结合 RL 和 SFT 进行混合优化。

The development process of DeepSeek-R1-Zero model.

DeepSeek-R1-Zero 的 RL 训练：与 RLHF 的对比

尽管 DeepSeek-R1-Zero 采用的是 纯强化学习（Pure RL），但其训练过程仍与 强化学习人类反馈（RLHF） 有一定相似性。

RLHF 通常用于调整 LLM 以匹配人类偏好，通过 监督微调（SFT）+ 强化学习 来优化模型行为。

DeepSeek-R1-Zero 的关键区别在于：它跳过了 SFT，直接进入 RL 训练，这就是为什么它被称为**“纯”RL**。

注：LLM 训练中的强化学习（RL）与**传统 RL（如强化学习机器人控制）**在方法和应用上有很大不同，这是一个更广泛的话题，未来可以深入探讨。

DeepSeek-R1-Zero 的奖励机制

DeepSeek 团队在训练过程中，并未使用一个基于人类偏好的奖励模型，而是引入了 两种奖励机制：

1️⃣ 准确性奖励（Accuracy Reward）

📌 目的：确保答案正确。

代码问题：使用 LeetCode 编译器 运行代码，检查代码是否正确执行。

数学问题：使用确定性系统（deterministic system） 验证数学答案是否正确。

这一机制类似于自动评分系统，能够为 LLM 提供客观的反馈，让其改进推理过程。

2️⃣ 格式奖励（Format Reward）

📌 目的：确保模型输出的格式符合预期，使回答更清晰易读。

研究团队使用 LLM 作为评分者（LLM Judge） 来检查模型回答是否遵循正确格式。

例如：推理过程是否放在 <think> 标签中，是否有清晰的步骤分隔。

这种格式化奖励类似于规范化输出（structured output），可以让 LLM 的推理过程更清晰。

💡 “Aha!” 时刻：推理能力的自发涌现

令人惊讶的是，仅凭这两种奖励机制，DeepSeek-R1-Zero 就成功发展出了基本的推理能力。

研究人员观察到，即使没有明确要求，模型开始自动生成推理步骤，并在回答中包含详细的推理链（reasoning traces）。

这类似于人类在学习过程中经历的 “Aha!” 时刻，即：当模型在强化学习的激励下，自发学会某种技能，而不是被硬编码训练。

📌 这一现象表明：

推理能力可以在 RL 过程中自然涌现，而不一定需要 SFT 来手动教导。

奖励机制的设计至关重要，即使没有人类反馈，只要有合理的自动评分系统，LLM 仍然可以优化自身行为。

📌 结论

🔹 DeepSeek-R1-Zero 是一个 RL 训练突破：它证明了，即使跳过 SFT，仅靠 RL 训练，LLM 也能学会推理能力。

🔹 准确性奖励和格式奖励 成为 RL 训练成功的关键，这表明合理的奖励信号可以驱动 LLM 发展新的能力。

🔹 这一研究成果也为 未来推理 LLM 的训练 提供了重要启示：或许我们可以通过更先进的奖励机制，而不是更多数据标注，来优化 LLM 的推理能力。

接下来的部分，我们将进一步探讨 RL 如何与 SFT 结合，以进一步提升推理模型的性能。

*A figure from the DeepSeek R1 technical report (https://arxiv.org/abs/2501.12948) showing the emergence of the "Aha" moment.*

虽然 DeepSeek-R1-Zero 并不是最强的推理模型，但它确实展现出了推理能力，能够生成中间的“思考”步骤（如上图所示）。这一实验结果验证了一个关键结论：

✅ 纯强化学习（Pure RL）也可以培养 LLM 的推理能力，无需依赖监督微调（SFT）。

更重要的是，DeepSeek 团队是首个成功演示（或至少是首个公开发表）这一方法的研究团队。这项研究不仅拓展了 LLM 训练的思路，还为未来的推理模型开发提供了一种新的方向，即基于 RL 训练、无需大量人工标注的推理优化方法。

在接下来的部分，我们将进一步探讨 如何结合 SFT 和 RL，构建更强大的推理模型。

3) 监督微调 + 强化学习（SFT + RL）

在探索了 纯 RL 训练（R1-Zero） 之后，我们再来看 DeepSeek-R1 —— DeepSeek 的旗舰推理模型，它的开发过程可以作为构建推理模型的蓝图。

DeepSeek-R1 相较于 R1-Zero 进一步提升了推理能力，其关键改进点是：

✅ 结合了监督微调（SFT）和强化学习（RL），以提高推理表现。

🔹 为什么结合 SFT 和 RL？

在 LLM 训练中，先进行 SFT 再进行 RL 是一种常见的优化策略，也是标准 RLHF（强化学习人类反馈） 训练流程的核心组成部分。例如，OpenAI 的 o1 很可能也是基于这一方法训练的。

📌 SFT（监督微调）的作用：

让 LLM 学习高质量的人工标注示例，形成良好的初始行为。

解决纯 RL 训练可能带来的探索效率低、训练不稳定等问题。

📌 RL（强化学习）的作用：

进一步优化 SFT 训练后的模型，使其学会更高级的推理策略。

让 LLM 在多个候选答案之间进行选择，强化最优的推理路径。

📌 结合 SFT 和 RL 可以带来的提升：

SFT 先让 LLM 具备基本推理能力，RL 进一步强化其推理质量。

SFT 训练的数据可以作为 RL 训练的参考，提高奖励模型的质量。

相比于纯 RL 训练，SFT + RL 方案更稳定、更高效，更容易得到高性能推理模型。

🔹 DeepSeek-R1 训练流程

根据 DeepSeek R1 技术报告，该模型的训练大致遵循以下步骤： 1️⃣ 监督微调（SFT）

使用高质量的推理数据集微调 R1-Zero，让模型初步学习数学推理、代码推理等复杂任务。

训练数据可能包括 人类标注的推理过程，以及 自动生成的高质量数据。

2️⃣ 强化学习（RL）

在 SFT 训练的基础上，使用 RL 进一步优化推理能力。

可能采用 奖励模型（Reward Model） 或 搜索优化策略（如 Beam Search、Lookahead Search），强化最佳推理路径。

3️⃣ 最终调优

可能结合 蒸馏（Distillation），将大模型知识迁移到更小的模型，如 DeepSeek-R1-Distill。

🔹 为什么 SFT + RL 是主流方法？

在目前的 LLM 训练方法中，SFT + RL 被广泛用于优化推理能力，原因如下： ✅ 比纯 RL 更稳定：

纯 RL 可能导致模型探索效率低、训练不稳定，而 SFT 提供了良好的初始策略。 ✅ 比纯 SFT 更智能：

SFT 仅能模仿训练数据，而 RL 允许 LLM 通过探索找到更优推理方式。 ✅ 适用于大规模推理模型：

OpenAI、Anthropic、DeepSeek 等公司都使用 SFT + RL 来优化推理 LLM，如 GPT-4o、Claude 3、DeepSeek-R1 等。

📌 结论

DeepSeek-R1 结合了 SFT 和 RL，是目前最主流的推理模型优化方案。

SFT 让 LLM 具备基本推理能力，RL 进一步优化推理策略，两者结合能显著提升 LLM 在复杂推理任务上的表现。

OpenAI o1 可能采用了类似的方法，这也是目前大多数高性能推理 LLM 采用的核心训练流程。

接下来的部分，我们将进一步探讨推理模型的训练优化策略，并介绍如何在有限预算下训练高性能推理 LLM。

The development process of DeepSeek-R1 model.

DeepSeek-R1 的训练流程：从 "Cold Start" 到高级推理模型

DeepSeek 团队采用了一个独特的方法来训练 DeepSeek-R1，即使用 DeepSeek-R1-Zero 生成 "cold-start" SFT 数据。

"Cold Start" 指的是，这些数据来自完全没有经过 SFT 训练的 R1-Zero，即模型是直接通过强化学习（RL） 训练，而没有接受过任何人工标注的微调数据。

🔹 DeepSeek-R1 训练流程

完整的训练流程分为 多个阶段，包括 冷启动数据生成、SFT 微调、强化学习（RL）、一致性优化，以及 CoT 训练：

1️⃣ 冷启动（Cold-Start）SFT 数据生成

📌 目标：使用 DeepSeek-R1-Zero 生成初始 SFT 数据，作为后续训练数据。

由于 R1-Zero 没有经过 SFT，因此这一步是从零开始，完全依赖其在 RL 训练过程中学到的推理能力。

这是一种自我引导训练（self-bootstrapping） 方法，不依赖外部人工标注数据。

2️⃣ 指令微调（Instruction Fine-tuning, SFT）

📌 目标：让模型学习更广泛的推理任务，并增强其可控性。

训练数据来源于 冷启动 SFT 数据，以及额外采集的数据。

这一步主要优化 指令遵循能力（Instruction Following），确保模型的输出更加符合用户期望。

3️⃣ 强化学习（RL）

📌 目标：在 SFT 训练后，使用 RL 进一步优化模型推理能力。

保留原有奖励机制：

准确性奖励（Accuracy Reward） → 用 LeetCode 编译器和数学验证系统评估答案正确性。
格式奖励（Format Reward） → 确保推理过程符合预期格式（如 <think> 标签）。

新增一致性奖励（Consistency Reward）：

主要用于 防止语言混合（Language Mixing），即在单一回答中意外切换不同语言。
这一问题可能出现在多语言模型中，例如 DeepSeek-R1 可能在生成回答时，部分句子使用英文，部分使用中文或其他语言。

4️⃣ 第二轮 SFT 数据采集

📌 目标：利用最新模型版本，生成更大规模的高质量训练数据。

这一阶段使用最新的模型 checkpoint 生成了：

60 万个 Chain-of-Thought（CoT）SFT 示例 → 让模型更擅长分步推理。
20 万个 知识型 SFT 示例 → 由 DeepSeek-V3 基础模型生成，增强模型在知识问答上的表现。

5️⃣ 第二轮强化学习（RL）

📌 目标：使用更大规模的数据集进一步优化推理能力。

依然采用基于规则的奖励机制（Rule-Based Rewards）：

数学和编程问题 → 使用准确性奖励进行自动评分。
其他问题 → 引入人类偏好标签（Human Preference Labels），让模型学会更符合人类喜好的回答方式。

🔹 训练结果：DeepSeek-R1 vs. DeepSeek-R1-Zero

📌 最终结果：

DeepSeek-R1 显著优于 DeepSeek-R1-Zero，这主要得益于额外的 SFT 训练、强化学习优化，以及更大规模的训练数据。

由于模型经历了更严格的优化过程，它的推理能力、准确率和指令遵循能力都得到了提升。

表格（未附图）展示了 DeepSeek-R1 的性能提升，进一步证实了 SFT + RL 训练方法的有效性。

📌 结论

🔹 DeepSeek-R1 是一个完整的推理 LLM 训练案例，通过 Cold-Start 生成数据 + SFT 微调 + RL 训练，实现了强大的推理能力。

🔹 相比于 DeepSeek-R1-Zero，R1 经过额外的 SFT 和 RL 训练后，性能有显著提升，特别是在数学、代码和复杂推理任务上。

🔹 SFT 主要用于指令微调，RL 进一步优化推理能力，并通过奖励机制调整模型行为。

🔹 这一训练方法也可能被 OpenAI o1 等推理模型采用，说明 SFT + RL 是当前推理模型优化的最优方案之一。

接下来的部分，我们将探讨如何在有限预算下开发高性能的推理 LLM。

Benchmark comparison of OpenAI A1 and DeepSeek R1 models. Annotated figure from the DeepSeek-R1 technical report (https://arxiv.org/abs/2501.12948).

4) 纯监督微调（SFT）和知识蒸馏（Distillation）

到目前为止，我们已经介绍了三种主要方法来构建和优化推理模型：

1️⃣ 推理阶段计算扩展（Inference-time Scaling） → 无需训练模型，而是通过搜索、投票等方法提升推理能力。

2️⃣ 纯强化学习（Pure RL） → DeepSeek-R1-Zero 证明了推理能力可以通过 RL 自然涌现，而无需 SFT。

3️⃣ SFT + RL 训练（DeepSeek-R1） → 先进行 SFT 训练，再用 RL 进一步优化推理能力，这一方法已成为高性能推理 LLM 的标准做法。

那么，还有什么方法可以优化推理模型？

💡 答案是：知识蒸馏（Distillation）。

🔹 什么是知识蒸馏（Distillation）？

DeepSeek 还发布了多个小型推理模型，这些模型通过一个他们称为**蒸馏（Distillation）**的过程进行训练。然而，在 LLM 领域，蒸馏不一定完全遵循经典的知识蒸馏（KD）方法。

1️⃣ 传统知识蒸馏（Knowledge Distillation, KD）

📌 经典 KD 训练方式：

在深度学习中，KD 传统上是指：

教师模型（Teacher Model）：一个大规模、性能更强的神经网络。
学生模型（Student Model）：一个较小、计算更高效的模型。
训练方式：

学生模型不仅学习数据集的目标标签，还学习教师模型的logits（输出概率分布），以更好地模仿教师的行为。

📌 目标：让小模型模仿大模型的能力，在计算成本较低的情况下仍能取得不错的性能。

2️⃣ DeepSeek 的"蒸馏"：SFT 迁移（Instruction Fine-tuning Distillation）

📌 DeepSeek 的蒸馏方法并未直接使用 KD，而是基于 SFT 数据进行优化。

具体来说，他们微调（instruction fine-tuning）较小规模的 LLM，如：

Llama 8B & 70B
Qwen 2.5B - 32B

这些小模型使用的 SFT 数据集是由更大的 LLM 生成的，即：

DeepSeek-V3
DeepSeek-R1 的中间训练版本

📌 关键点：

小模型学习的 SFT 数据 与用于训练 DeepSeek-R1 的数据完全相同。

区别在于，这些数据不是用于训练更大的 DeepSeek-R1，而是用于让较小模型模仿其推理能力。

🔹 这种蒸馏方法的优势

相比于传统 KD，DeepSeek 的 SFT 迁移方法有以下优点： ✅ 更简单易行 → 只需要利用大模型生成的数据集，而不需要教师模型的 logits。

✅ 更适合 LLM 训练 → 直接使用指令微调（SFT）来适应推理任务，符合 LLM 的训练流程。

✅ 可用于小型 LLM 训练 → 使 Qwen 2.5B、Llama 8B 等较小的模型也能具备一定推理能力。

📌 为什么 DeepSeek 选择 SFT 迁移，而不是标准 KD？

在 LLM 训练中，模型的行为更难通过 logits 直接迁移，因此更适合使用大模型生成的高质量数据进行训练。

指令微调（SFT）比 KD 更符合 LLM 的训练范式，并且更容易扩展到不同规模的模型。

📌 结论

🔹 DeepSeek 的"蒸馏"并非传统知识蒸馏，而是 SFT 数据迁移，即让小模型微调大模型生成的数据集。

🔹 小模型（Llama 8B、Qwen 2.5B）可以通过这种方式，获得类似 DeepSeek-R1 的推理能力。

🔹 这种方法在 LLM 领域被越来越多采用，例如 Mistral、OpenAI 和 Meta 也在使用类似的方法优化小型模型。

接下来的部分，我们将探讨如何在有限预算下开发高性能的推理 LLM，以及未来推理 LLM 训练的趋势。

The development process of DeepSeek-R1-Distill models.

为什么 DeepSeek 研发这些蒸馏模型？

DeepSeek 开发这些蒸馏（Distilled）模型的原因主要有两个关键点：

🔹 1️⃣ 更高效的小模型

📌 小模型运行成本更低，适用于更多场景

更高效 → 小模型计算需求更低，可以在消费级硬件（如个人 GPU）上运行，而无需昂贵的 AI 服务器。

更便宜 → 运行成本远低于大模型，更适合云端推理或嵌入式 AI 应用。

更普及 → 使研究人员、独立开发者、爱好者等更容易使用高质量的推理模型。

📌 为什么小模型仍然有市场？

大模型（如 DeepSeek-R1）性能更强，但计算成本高，难以部署在普通硬件上。

小模型（如 Qwen 2.5B、Llama 8B）可以在成本和性能之间取得平衡，满足更多用户需求。

🔹 2️⃣ 作为 SFT 纯训练的案例研究

📌 这些蒸馏模型提供了一个有趣的基准测试（benchmark），用于研究纯 SFT（监督微调）的极限。

大多数高性能 LLM（如 DeepSeek-R1）使用 SFT + RL 进行训练。

但这些蒸馏模型仅使用 SFT，没有强化学习（RL），因此可以用来测试 SFT 训练的极限：

纯 SFT 训练的模型能达到什么水平？
没有 RL 的情况下，推理能力会受到多大影响？

📌 为什么这个研究重要？

如果纯 SFT 训练的蒸馏模型接近 RL 训练的模型，那就意味着 RL 可能不是必要的。

如果 RL 训练的模型明显优于纯 SFT 训练的模型，那就证明 RL 在推理能力优化中起到了关键作用。

🔹 结果分析

📌 对比表（未附图） 显示，这些蒸馏模型与其他流行模型（如 GPT-4o、DeepSeek-R1-Zero 和 DeepSeek-R1）的性能对比。

DeepSeek-R1（SFT + RL 训练）仍然是性能最强的推理模型。

蒸馏模型（仅使用 SFT）在某些任务上表现不错，但整体推理能力仍落后于 RL 训练的模型。

小模型（如 Qwen 2.5B）虽然比大模型性能稍低，但仍然可以在特定任务中表现良好，特别是在有限资源的情况下。

📌 结论

🔹 蒸馏模型的目标不是取代大模型，而是提供更高效的推理能力，适用于低成本和本地推理环境。

🔹 它们也是纯 SFT 训练的实验案例，可以用来研究 SFT 训练的极限，分析 RL 对推理能力的实际贡献。

🔹 DeepSeek 的研究表明，SFT 训练可以让模型达到不错的推理水平，但要达到最优性能，仍然需要结合 RL 训练。

接下来的部分，我们将探讨 如何在有限预算下开发推理 LLM，以及未来推理模型的发展趋势。

Benchmark comparison of distilled versus non-distilled models. Annotated figure from the DeepSeek-R1 technical report (https://arxiv.org/abs/2501.12948).

蒸馏模型 vs. DeepSeek-R1：性能对比分析

如表格（未附图）所示，蒸馏后的小模型明显弱于 DeepSeek-R1，但有两个有趣的发现：

1️⃣ 蒸馏模型的性能仍然优于 DeepSeek-R1-Zero，尽管参数规模小得多

这表明，SFT 训练可以在更小的模型上复制部分推理能力，即使没有 RL。

这也是 SFT 迁移（distillation）的一大优势：小模型可以通过微调 SFT 数据，继承大模型的推理能力。

2️⃣ 蒸馏模型与 OpenAI o1-mini 的对比值得关注

目前 OpenAI 并未公布 o1-mini 的训练细节，但它可能也是 o1 的一个蒸馏版本。

DeepSeek 蒸馏模型在某些推理任务上的表现接近或优于 o1-mini，说明 SFT 蒸馏是一个可行的推理模型训练方法。

🔹 纯 RL 在小模型中的实验：Qwen-32B 版 R1-Zero

DeepSeek 团队还尝试在小规模模型上复现 DeepSeek-R1-Zero 发现的“推理能力涌现”现象。

📌 实验目标：

研究 纯 RL（不使用 SFT）是否也能让较小的模型（Qwen-32B）具备推理能力。

对比基准：QwQ-32B-Preview（由 Qwen 团队训练的 Qwen 2.5 32B 模型，具体训练细节未知）。

📌 实验方法：

直接对 Qwen-32B 进行纯 RL 训练，使用 DeepSeek-R1-Zero 相同的奖励机制（准确性奖励、格式奖励）。

观察推理能力是否能够自然涌现，类似于 R1-Zero。

📌 实验结果（见表格）：

Qwen-32B 版 R1-Zero 在推理任务上表现明显提升，但相比于 DeepSeek-R1-Zero 仍然较弱。

这表明，即使是小规模模型，RL 训练仍然可以部分激发推理能力，但其效果受限于模型规模。

相比于纯 RL，结合 SFT 仍然是训练推理模型的最佳方案，特别是对于小模型而言。

📌 结论

🔹 蒸馏模型比预期更强，尽管参数规模小，但依然超越了 DeepSeek-R1-Zero，说明SFT 迁移是有效的推理优化手段。

🔹 DeepSeek 蒸馏模型的推理能力接近或优于 o1-mini，说明 OpenAI 可能也在使用类似的蒸馏策略。

🔹 纯 RL 训练可以在小模型（Qwen-32B）上诱导推理能力，但效果不如大模型，进一步证明了模型规模在推理能力中的关键作用。

🔹 最佳策略仍然是 SFT + RL 结合，而非单独依赖 SFT 或 RL。

下一部分，我们将总结构建推理 LLM 的最佳方法，并探讨如何在有限预算下训练高效的推理模型。

Benchmark comparison distillation and RL on a smaller 32B model. Annotated figure from the DeepSeek-R1 technical report (https://arxiv.org/abs/2501.12948).

蒸馏 vs. 纯 RL：小模型的推理能力优化策略

实验结果表明，对于较小规模的模型，蒸馏（SFT 迁移）比纯 RL 训练更有效。

🔹 为什么蒸馏（SFT 迁移）比纯 RL 更适合小模型？

📌 1️⃣ 纯 RL 对小模型的推理提升有限

实验显示，Qwen-32B 版的 R1-Zero（仅使用 RL 训练）在推理能力上有所提升，但远不及 SFT 训练的小模型。

这表明，RL 可能不足以在小模型上诱导强推理能力，而更依赖于模型规模。

大模型（如 DeepSeek-R1-Zero）可以依靠 RL 训练获得推理能力，但小模型在 RL 训练中的泛化能力较差。

📌 2️⃣ SFT 迁移（Distillation）对于小模型更高效

SFT 训练的小模型明显优于 RL 训练的小模型，说明 SFT 训练在小模型上的效果更佳。

原因：

SFT 提供高质量推理示例，减少探索成本，让小模型能有效学习复杂推理任务。
RL 依赖大量采样和试错，计算成本较高，小模型的探索能力受限，因此收益不如 SFT。

结论：对于小模型，SFT 训练比 RL 更容易引导推理能力的学习。

🔹 额外的对比实验（如果有的话，会更完整）

如果 DeepSeek 团队进一步进行以下实验，结果可能更有说服力：

1️⃣ Qwen-32B 训练方式对比（SFT + RL vs. 纯 RL vs. 纯 SFT）

目前的 Qwen-32B 版 R1-Zero 只用了 RL，如果对其进行 SFT + RL 训练，它的推理能力是否能大幅提升？

这可以进一步验证：RL 和 SFT 结合是否能让小模型突破推理能力的瓶颈？

2️⃣ DeepSeek-V3 纯 SFT 训练 vs. SFT + RL

如果 DeepSeek-V3 只用 SFT 训练，而不使用 RL，它的推理能力会如何？

这个实验可以直接对比 RL + SFT 训练 vs. 纯 SFT 训练的效果，帮助评估 RL 在大型推理 LLM 训练中的实际贡献。

结论：四种优化推理模型的方法及未来趋势

在本节中，我们探讨了四种构建和优化推理模型的核心策略，每种方法都有其独特的优势和局限性。

🔹 1️⃣ 推理阶段计算扩展（Inference-time Scaling）

📌 优点：

无需额外训练，可以直接提升现有模型的推理能力。

适用于已经很强的模型，例如 GPT-4o 和 DeepSeek-R1，可以在推理阶段进一步优化性能。

📌 局限性：

增加推理成本，如果用户量或查询量大，部署成本会急剧上升。

不适用于提升较弱模型，仅对本身已经具备强推理能力的 LLM 进行优化。

📌 推测：

OpenAI o1 可能采用了推理阶段计算扩展，这解释了它比 DeepSeek-R1 更昂贵的每 token 计算成本。

🔹 2️⃣ 纯强化学习（Pure RL）

📌 优点：

科学研究价值高，证明了推理能力可以通过 RL 自然涌现，而不依赖 SFT。

DeepSeek-R1-Zero 证明了这一点，并成为 RL 训练推理模型的首个公开案例。

📌 局限性：

训练不稳定，模型可能难以收敛，且需要大量计算资源进行试错。

实际应用价值有限，相比于 SFT + RL，纯 RL 训练的模型推理能力仍然较弱。

📌 推测：

OpenAI o1 可能采用了 RL + SFT，而非纯 RL，因为 RL 训练的模型通常需要 SFT 进行进一步优化。

🔹 3️⃣ SFT + RL（监督微调 + 强化学习）

📌 优点：

当前业界最优的推理模型训练方法，适用于高性能推理 LLM。

DeepSeek-R1 是一个成功案例，展示了如何结合 SFT + RL 构建强推理模型。

📌 局限性：

训练成本较高，需要大量高质量 SFT 数据和计算资源进行 RL 训练。

训练周期长，比单纯的 SFT 或 RL 训练更复杂。

📌 推测：

OpenAI o1 可能采用了 SFT + RL，但其基础模型可能比 DeepSeek-R1 更弱。

DeepSeek-R1 之所以在推理性能上更强，同时推理成本更低，可能是因为其基础模型更优。

🔹 4️⃣ 知识蒸馏（Distillation）

📌 优点：

可以生成更小、更高效的推理模型，适用于低计算资源场景。

对独立研究人员和企业用户更友好，因为可以在本地或边缘设备上运行。

📌 局限性：

依赖于已有的强模型，无法独立推动推理能力的突破。

不能创造新的推理方法，只是优化已有模型的能力。

📌 推测：

OpenAI o1-mini 可能是 o1 的蒸馏版本，类似于 DeepSeek 的小模型。

蒸馏模型适用于高效推理，但无法推动新一代推理 LLM 的发展。

🔹 未来趋势：结合 SFT + RL 与推理阶段计算扩展

📌 下一步的发展方向可能是：

将 SFT + RL（方法 3）与推理阶段计算扩展（方法 1）结合，进一步提升推理模型的性能。

OpenAI o1 很可能采用了这一策略，但其基础模型可能较弱，因此在推理能力上仍落后于 DeepSeek-R1。

DeepSeek-R1 的优势可能在于基础模型更强，使其在推理成本更低的情况下仍然优于 o1。

📌 结论：

SFT + RL 依然是推理模型优化的核心方法，适用于开发下一代高性能推理 LLM。

推理阶段计算扩展可以作为额外的增强策略，适用于高端推理任务。

蒸馏仍然是降低推理成本的重要手段，但无法推动推理能力的突破。

📌 未来值得关注的研究方向：

如何让小模型更有效地学习大模型的推理能力？

如何降低 RL 训练成本，同时保持高推理能力？

如何在推理阶段优化 LLM，以最小成本获得最优解？

对 DeepSeek-R1 的看法

DeepSeek-R1 是一个令人印象深刻的成就，尤其是它的开源性质和详细的技术报告，使其成为 LLM 研究人员的重要学习资源。

🔹 最令人惊讶的发现

📌 推理能力可以通过纯 RL 训练自然涌现

DeepSeek-R1-Zero 证明了，甚至不需要 SFT，RL 本身就能诱导推理能力，这一发现对 LLM 训练有重要意义。

DeepSeek 选择 MIT 许可证开源，这比 Meta 的 Llama 许可更加自由，使得 R1 在社区中的应用潜力巨大。

🔹 DeepSeek-R1 vs. OpenAI o1：谁更强？

📌 两者的性能大致相当，但 R1 可能更高效

DeepSeek-R1 的推理效率更高，意味着 DeepSeek 可能更注重训练阶段的优化，而 OpenAI 更依赖推理阶段计算扩展。

推测：OpenAI o1 可能使用了更多推理优化技术（如投票、搜索），这也解释了为什么 o1 推理成本更高。

📌 难以直接对比，因为 OpenAI 没有公开 o1 训练细节

我们不知道：

o1 是否是 MoE（Mixture of Experts, 专家混合模型）？
o1 的具体参数规模是多少？
o1 是否只是 GPT-4o 的微调版，依赖 RL + SFT 并进行推理阶段优化？

由于 OpenAI 没有公开这些信息，直接比较 R1 和 o1 仍然像是“苹果 vs. 橙子”，无法得出明确结论。

🔹 DeepSeek-R1 训练成本

📌 关于 $6M 训练成本的讨论

有传闻称 DeepSeek-R1 训练成本约 $6M，但这可能是对 DeepSeek-V3 和 R1 训练成本的混淆。

$6M 估算基于：

计算成本：假设 $2/GPU 小时。
计算时间：DeepSeek-V3 训练所需的 GPU 小时数（最初在 2024 年 12 月讨论）。

但 DeepSeek 团队从未公开 R1 的 GPU 训练时间或总成本，因此这些估算仍然只是猜测。

📌 无论成本如何，DeepSeek-R1 是开源推理 LLM 领域的重要里程碑

它的推理效率更高，使其成为 OpenAI o1 之外的一个有趣替代方案。

相较于 OpenAI 的封闭策略，DeepSeek-R1 开源模型提供了更多研究和应用的可能性。

如何在有限预算下开发推理模型

开发一个类似 DeepSeek-R1 级别的推理模型，哪怕是基于一个开源基础模型（如 DeepSeek-V3），依然需要数十万到数百万美元的计算资源。这对预算有限的研究人员或工程师来说可能会令人望而却步。

但好消息是：知识蒸馏（Distillation）可以显著降低成本。

🔹 知识蒸馏是一个高性价比的选择

📌 DeepSeek 团队的 R1-Distill 证明了，小模型仍然可以具备强推理能力

尽管 DeepSeek-R1-Distill 远小于 DeepSeek-R1，但仍然在推理任务上表现良好。

这一方法适合低预算的 AI 研究团队，因为训练一个小型 LLM 比训练超大模型成本低得多。

📌 但蒸馏也不是完全免费的

DeepSeek 的蒸馏过程使用了 80 万条 SFT 样本，这仍然需要大量计算资源。

如果一个团队想要复制类似的训练，需要找到更高效的数据获取和训练策略。

🔹 低预算推理模型的另一种可能性：Sky-T1

📌 Sky-T1 项目

这是一个有趣的案例：一个小团队训练了一个开源 32B LLM，但只使用了 1.7 万条 SFT 样本。

总训练成本？仅 $450 —— 这甚至比大多数 AI 会议的注册费还要低！

📌 这说明了什么？

虽然大规模训练仍然昂贵，但小规模、有针对性的微调仍然可以在较低成本下取得不错的推理效果。

即使没有上百万美元的预算，研究者仍然可以通过小规模 SFT 或蒸馏技术，在有限资源下训练高效的推理 LLM。

📌 结论

✅ 如果预算有限，知识蒸馏是一个可行的方法，可以让小模型获得强推理能力。

✅ 尽管训练大规模推理 LLM 很昂贵，但 Sky-T1 这样的案例表明，小规模 SFT 训练仍然可以产生有竞争力的模型。

✅ 对于独立研究者或小团队，重点是如何高效利用数据和计算资源，而不是追求庞大的训练规模。

未来，我们可能会看到更多类似 Sky-T1 的项目，探索如何用最小成本开发高性能推理 LLM。

Figure from the "Sky-T1: Train your own O1 preview model within $450" article, https://novasky-ai.github.io/posts/sky-t1/

理解推理型大语言模型

How do we define "reasoning model"?

如何定义“推理模型”？

When should we use reasoning models?

何时应使用推理模型？

推理模型擅长的任务（Good at）

推理模型的局限性（Bad at）

A brief look at the DeepSeek training pipeline

DeepSeek 训练流程概览

DeepSeek 训练流程概览（续）

(1) DeepSeek-R1-Zero

(2) DeepSeek-R1

(3) DeepSeek-R1-Distill

The 4 main ways to build and improve reasoning models

构建和优化推理模型的四种主要方法

1) Inference-time scaling

1) 推理阶段的计算扩展（Inference-time Scaling）

1.1 经典方法：提示词工程（Prompt Engineering）

1.2 其他推理优化技术

推理阶段计算扩展的进一步方法

1. 投票策略（Voting Strategies）

2. 搜索策略（Search Strategies）

推荐阅读

总结

DeepSeek R1 与推理阶段计算扩展

OpenAI o1 和 o3 可能使用了推理阶段扩展

总结

2) 纯强化学习（Pure Reinforcement Learning, RL）

DeepSeek-R1-Zero 的 RL 训练：与 RLHF 的对比

DeepSeek-R1-Zero 的奖励机制

💡 “Aha!” 时刻：推理能力的自发涌现

📌 结论

3) 监督微调 + 强化学习（SFT + RL）

🔹 为什么结合 SFT 和 RL？

🔹 DeepSeek-R1 训练流程

🔹 为什么 SFT + RL 是主流方法？

📌 结论

DeepSeek-R1 的训练流程：从 "Cold Start" 到 高级推理模型

🔹 DeepSeek-R1 训练流程

1️⃣ 冷启动（Cold-Start）SFT 数据生成

2️⃣ 指令微调（Instruction Fine-tuning, SFT）

3️⃣ 强化学习（RL）

4️⃣ 第二轮 SFT 数据采集

5️⃣ 第二轮强化学习（RL）

🔹 训练结果：DeepSeek-R1 vs. DeepSeek-R1-Zero

📌 结论

4) 纯监督微调（SFT）和知识蒸馏（Distillation）

🔹 什么是知识蒸馏（Distillation）？

1️⃣ 传统知识蒸馏（Knowledge Distillation, KD）

2️⃣ DeepSeek 的"蒸馏"：SFT 迁移（Instruction Fine-tuning Distillation）

🔹 这种蒸馏方法的优势

📌 结论

为什么 DeepSeek 研发这些蒸馏模型？

🔹 1️⃣ 更高效的小模型

🔹 2️⃣ 作为 SFT 纯训练的案例研究

🔹 结果分析

📌 结论

蒸馏模型 vs. DeepSeek-R1：性能对比分析

🔹 纯 RL 在小模型中的实验：Qwen-32B 版 R1-Zero

📌 结论

蒸馏 vs. 纯 RL：小模型的推理能力优化策略

🔹 为什么蒸馏（SFT 迁移）比纯 RL 更适合小模型？

🔹 额外的对比实验（如果有的话，会更完整）

结论：四种优化推理模型的方法及未来趋势

🔹 1️⃣ 推理阶段计算扩展（Inference-time Scaling）

🔹 2️⃣ 纯强化学习（Pure RL）

🔹 3️⃣ SFT + RL（监督微调 + 强化学习）

🔹 4️⃣ 知识蒸馏（Distillation）

🔹 未来趋势：结合 SFT + RL 与推理阶段计算扩展

对 DeepSeek-R1 的看法

🔹 最令人惊讶的发现

🔹 DeepSeek-R1 vs. OpenAI o1：谁更强？

🔹 DeepSeek-R1 训练成本

如何在有限预算下开发推理模型

🔹 知识蒸馏是一个高性价比的选择

🔹 低预算推理模型的另一种可能性：Sky-T1

📌 结论

DeepSeek-R1 的训练流程：从 "Cold Start" 到高级推理模型