type
status
date
slug
summary
tags
category
icon
password
理解推理型大语言模型
构建与优化推理模型的方法与策略
本文介绍了构建推理模型的四种主要方法,以及如何增强大语言模型(LLMs)的推理能力。希望这篇文章能为您提供有价值的见解,帮助您在这一快速发展的研究领域和热点讨论中找到方向。
在 2024 年,大语言模型(LLM)领域呈现出日益精细化的趋势。除了预训练和微调之外,我们还见证了从检索增强生成(RAG)到代码助手等一系列专门应用的兴起。我预计这一趋势将在 2025 年进一步加速,行业将更加注重特定领域和特定应用的优化,即“专业化”。

推理模型的开发正是这种专业化趋势的一部分。这意味着我们对大语言模型(LLM)进行优化,使其能够在需要中间推理步骤的复杂任务上表现出色,例如解谜、高等数学和编程挑战。然而,这种专业化并不会取代其他 LLM 应用,因为将 LLM 转化为推理模型的过程中也会引入一些特定的缺陷,我将在后文讨论这些问题。
为了让您对文章的内容有一个大致了解,本篇文章将涵盖以下内容:
- 解释“推理模型”的含义
- 讨论推理模型的优势和劣势
- 概述 DeepSeek R1 的方法论
- 介绍构建和优化推理模型的四种主要方法
- 分享对 DeepSeek V3 和 R1 发布后 LLM 发展趋势的看法
- 提供在有限预算下开发推理模型的建议
希望本文能为您提供有价值的见解,帮助您更好地理解 AI 在这一年持续快速发展的趋势!
How do we define "reasoning model"?
如何定义“推理模型”?
如果您从事人工智能(AI)或机器学习领域的工作,您可能已经习惯了各种模糊且备受争议的定义。而“推理模型”这个术语也不例外。通常情况下,某篇论文会对其进行正式定义,但很快就在另一篇论文中被重新诠释,如此往复。
在本文中,我将“推理”定义为:回答需要复杂、多步推理并包含中间步骤的问题的过程。例如,像 “法国的首都是哪里?” 这样的事实性问答并不涉及推理,因为它只需要直接检索一个已知的事实。而 “一列火车以 60 英里每小时的速度行驶 3 小时后,它行驶了多远?” 这个问题则涉及简单的推理,因为解答它需要理解距离、速度和时间之间的关系,并经过计算得出答案。

大多数现代 LLM 具备基本的推理能力,并能回答类似 “一列火车以 60 英里每小时的速度行驶 3 小时后,它行驶了多远?” 这样的问题。因此,当我们今天谈论推理模型时,通常指的是那些在更复杂推理任务上表现出色的 LLM,比如解谜、破解逻辑难题和证明数学定理。
此外,目前被称为“推理模型”的 LLM 通常在其回答中包含某种**“思考”或“推理”过程**。当然,LLM 是否真正“思考”以及它们是如何“思考”的,这是另一个值得探讨的问题。
推理模型中的中间步骤通常以两种方式呈现:
- 显式展示:模型在回答中清楚地列出推理过程,例如逐步分解问题、解释逻辑关系或展示计算过程(如前文示例所示)。
- 隐式处理:某些推理 LLM(如 OpenAI 的 o1)在内部运行多个推理迭代,但这些中间步骤不会直接展示给用户。模型可能在内部多次优化答案,最终仅输出一个精炼的结果。
这两种方式各有优劣,具体使用哪种方式取决于模型的设计目标以及应用场景的需求。

When should we use reasoning models?
何时应使用推理模型?
在定义了推理模型之后,我们可以进入更有趣的部分:如何构建和优化 LLM 以提升其推理能力。但在深入探讨技术细节之前,我们需要先明确一个重要问题:什么时候真正需要推理模型?
推理模型擅长处理复杂任务,如解谜、高级数学问题和具有挑战性的编程任务。然而,它们并不适用于所有任务。例如,对于摘要、翻译或基于知识的问答等较为直接的任务,普通 LLM 已经能很好地胜任,使用推理模型反而可能低效且成本高昂。
事实上,将推理模型用于所有任务可能会带来一些弊端:
- 计算成本更高:推理模型通常需要更多的计算资源,调用成本更贵。
- 回答更冗长:由于推理过程被明确展开,答案可能比传统 LLM 更冗余。
- “过度思考”问题:推理模型可能会在不必要的情况下执行复杂推理,导致更高的出错率。
因此,一个简单的原则是:使用合适的工具(或适合的 LLM 类型)来完成特定任务。
文章中的示意图总结了推理模型的主要优势和局限性,有助于我们更好地理解它们的适用场景。

这张图总结了推理模型的优势和局限性:
推理模型擅长的任务(Good at)
✅ 演绎和归纳推理(如解谜、数学证明)
✅ 链式思维推理(能够拆解多步问题)
✅ 复杂决策任务(在复杂环境下做出合理决策)
✅ 更强的泛化能力(能够更好地解决新问题)
推理模型的局限性(Bad at)
❌ 快速、低成本响应(推理过程更长,推理时间增加)
❌ 基于知识的任务(更容易产生“幻觉”或错误信息)
❌ 简单任务(可能会“过度思考”,导致效率低下)
这表明,推理模型的最大优势在于处理需要多步推理的复杂问题,而在直接查找知识或执行简单任务时,普通 LLM 可能是更高效的选择。因此,在实际应用中,选择合适的模型类型至关重要,以确保任务执行的成本效益和性能最优。
A brief look at the DeepSeek training pipeline
DeepSeek 训练流程概览
在下一节讨论构建和改进推理模型的四种主要方法之前,我想先简要介绍 DeepSeek R1 的训练流程,该流程来自 DeepSeek R1 技术报告。这一报告不仅是一个有趣的案例研究,同时也可以作为开发推理型 LLM 的蓝图。
值得注意的是,DeepSeek 并未发布一个单一的 R1 推理模型,而是推出了三个不同的变体:
- DeepSeek-R1-Zero
- DeepSeek-R1
- DeepSeek-R1-Distill
根据技术报告中的描述,我已将这些模型的开发流程整理为下图(未附图,如有图表可补充说明)。这一流程展示了如何逐步训练、优化和精炼推理 LLM,为构建高效的推理模型提供了重要参考。

DeepSeek 训练流程概览(续)
接下来,我们将简要回顾上图所展示的训练流程。关于构建和优化推理模型的四种主要方法,将在下一节详细讨论。
(1) DeepSeek-R1-Zero
- 该模型基于 671B 参数规模的 DeepSeek-V3 预训练基础模型(于 2024 年 12 月发布)。
- 研究团队使用**强化学习(RL)**进行训练,采用了两种奖励机制。
- 由于该方法未包含监督微调(SFT)(通常 RLHF 训练会结合 SFT),因此这一训练方式被称为**“冷启动”(cold start)**训练。
(2) DeepSeek-R1
- 这是 DeepSeek 的旗舰推理模型,在 DeepSeek-R1-Zero 的基础上进一步优化。
- 团队增加了额外的 SFT 训练阶段,并进行进一步的强化学习训练,在“冷启动”R1-Zero 的基础上取得了更好的推理能力。
(3) DeepSeek-R1-Distill
- 研究团队利用前面步骤中生成的 SFT 数据,对 Qwen 和 Llama 进行微调,以增强其推理能力。
- 该过程并非传统意义上的知识蒸馏(distillation),但采用了一种类似的方法,即使用更大规模的 DeepSeek-R1 671B 模型的输出,来训练更小规模的模型(Llama 8B 和 70B,Qwen 1.5B–30B)。
这一流程展示了 DeepSeek 在训练推理模型时采用的逐步优化方法,从冷启动训练(R1-Zero),到监督微调和强化学习优化(R1),再到小模型蒸馏(R1-Distill),提供了一条高效训练高性能推理模型的路径。
The 4 main ways to build and improve reasoning models
构建和优化推理模型的四种主要方法
在本节中,我将介绍当前用于增强 LLM 推理能力的关键技术,以及如何构建专门的推理模型,如 DeepSeek-R1、OpenAI 的 o1 和 o3 等。
注:关于 o1 和 o3 的具体实现细节,目前 OpenAI 并未公开。但据传,它们可能结合了推理优化与训练技术,从而提升推理能力。
接下来,我们将深入探讨这四种主要的方法,并分析它们在不同推理任务中的应用和优势。
1) Inference-time scaling
1) 推理阶段的计算扩展(Inference-time Scaling)
提升 LLM 推理能力(或其他能力)的一种方法是推理阶段的计算扩展(Inference-time Scaling)。这一术语可以有不同的含义,但在本文的上下文中,它主要指的是:在推理过程中增加计算资源,以提升输出质量。
一个简单的类比是:当人类在思考复杂问题时,给予更多时间往往能得出更优的答案。类似地,我们可以应用特定的技术,让 LLM 在生成答案时“思考”得更深入。(当然,LLM 是否真正“思考”是另一个值得探讨的话题。)
1.1 经典方法:提示词工程(Prompt Engineering)
推理阶段计算扩展的一种直接方法是巧妙的提示词工程(Prompt Engineering)。
- 链式思维(Chain-of-Thought, CoT)提示是一种经典案例。
- 例如,在输入提示中加入 “一步一步思考”(think step by step) 这样的短语,可以鼓励模型生成中间推理步骤,而不是直接跳到最终答案。
- 在更复杂的问题上,这种方法通常(但并非总是)能带来更准确的结果。
然而,这种策略并不适用于所有问题。
- 例如,对于 “法国的首都是哪里?” 这样基于事实的简单知识问答,使用 CoT 反而是不必要的,因为模型只需直接检索答案,而不需要进行多步推理。
- 这也是一个很好的经验法则:如果你的输入问题不需要推理步骤,就没有必要使用推理模型。
1.2 其他推理优化技术
除了提示词工程,推理阶段计算扩展还可以涉及其他优化手段,例如:
- 增加计算预算:通过 提高计算精度(如使用更长的上下文窗口或更多计算层) 来增强推理质量。
- 自回归采样与多路径推理:让 LLM 在推理过程中生成多个可能的答案路径,然后选择最优的答案。
- 外部工具调用:结合计算器、代码执行环境或外部 API 来辅助推理过程,提高模型的正确率。
综上所述,推理阶段的计算扩展是一种无需额外训练即可提升推理能力的方法,尤其适用于复杂的多步推理任务。然而,对于简单的查询,这种方法可能既低效又多余,因此需要合理选择适用场景。

推理阶段计算扩展的进一步方法
前文提到的 链式思维(CoT)提示 可以被视为 推理阶段的计算扩展(Inference-time Scaling),因为它通过生成更多的输出 token,增加了推理过程的计算成本,从而提升推理能力。
除了 CoT,另一种推理阶段计算扩展的方法是投票和搜索策略(Voting & Search Strategies)。
1. 投票策略(Voting Strategies)
📌 主要思想:让 LLM 多次生成答案,然后根据投票机制选出最优答案。
- 多数投票(Majority Voting):
- 让 LLM 生成 多个答案(例如 5 次)。
- 选择出现次数最多的答案作为最终结果。
- 优点:减少偶然错误,提高鲁棒性。
- 缺点:计算成本更高,需要多次推理。
2. 搜索策略(Search Strategies)
📌 主要思想:使用搜索算法优化推理过程,确保找到更好的答案。
- 波束搜索(Beam Search):
- 让 LLM 生成多个候选答案,并在多个推理路径上选择最佳答案。
- 适用于需要更高确定性的任务,如代码生成、数学证明等。
- 蒙特卡洛搜索树(MCTS):
- 适用于需要探索多个可能性、具有递归决策逻辑的任务(如象棋、Go 游戏)。
- 在 AI 规划任务中表现优秀。
推荐阅读
如果对这些方法的深入细节感兴趣,强烈推荐以下论文:
📄 "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters"
- 该论文讨论了 在推理阶段增加计算预算 相比于增加模型参数,在某些情况下可以带来更好的推理能力提升。
- 详细介绍了 投票、搜索等推理优化策略,以及如何在计算预算有限的情况下优化推理效果。
📌 论文解读可参考 Sebastian Raschka 的文章《2024 年值得关注的 AI 研究论文(第二部分)》。
总结
- 推理阶段计算扩展 不仅仅是增加 token 生成(如 CoT),还可以利用投票和搜索策略来优化推理结果。
- 多数投票(Majority Voting) 和 波束搜索(Beam Search) 等方法,可以减少 LLM 产生错误答案的概率,提高推理准确性。
- 这些方法通常需要更高的计算资源,适用于关键任务,而非每次调用 LLM 时都使用。
- 深入研究 Scaling LLM Test-Time Compute 论文,可以帮助开发者在有限计算资源下,找到更高效的推理优化策略。

DeepSeek R1 与推理阶段计算扩展
根据 DeepSeek R1 技术报告,DeepSeek 模型不使用推理阶段计算扩展(Inference-time Scaling)。然而,这种技术通常是在 应用层(Application Layer) 进行实现,而不是在模型本身的架构中。因此,DeepSeek 可能在其应用程序中使用了推理阶段优化,尽管模型本身未在训练时直接集成这一策略。
OpenAI o1 和 o3 可能使用了推理阶段扩展
相比之下,我推测 OpenAI 的 o1 和 o3 可能采用了推理阶段计算扩展。这可以解释为什么:
- o1 和 o3 在调用成本上较为昂贵——推理阶段的优化往往需要额外的计算资源,例如:
- 多轮推理(Multi-pass Inference)
- 投票策略(Majority Voting)
- 搜索算法(Beam Search)
- 自回归优化(Self-Refinement) 这些方法都可能导致推理时间增加,从而提升运行成本。
- o1 和 o3 可能结合了强化学习(RL)训练
- DeepSeek R1 使用了 强化学习(RL) 进行优化,而 OpenAI 很可能在 o1 和 o3 的训练中也采用了类似的方法。
- 这一点将在接下来的强化学习部分深入探讨。
总结
- DeepSeek R1 声称不使用推理阶段扩展,但可能在应用层实现了相关优化。
- OpenAI 的 o1 和 o3 可能通过 推理阶段扩展(如搜索、投票)来提升推理能力,从而解释其更高的推理成本。
- 强化学习(RL) 很可能也是 o1 和 o3 训练的一部分,接下来的部分将详细探讨如何通过 RL 提高推理模型的性能。
2) 纯强化学习(Pure Reinforcement Learning, RL)
在 DeepSeek R1 论文 中,一个重要发现是:
🔹 推理能力可以通过纯强化学习(Pure RL)自主涌现。
这意味着,即使没有监督微调(SFT)作为预训练步骤,强化学习本身也能培养 LLM 的推理能力。让我们进一步探讨这一点。
🔹 DeepSeek-R1-Zero:纯 RL 训练的实验
在 DeepSeek R1 训练过程中,他们开发了三种模型(DeepSeek-R1-Zero、DeepSeek-R1、DeepSeek-R1-Distill)。其中:
- DeepSeek-R1-Zero 是直接在 DeepSeek-V3 预训练模型(2024 年 12 月发布)基础上进行强化学习训练的版本。
- 传统 RL 训练流程通常包含 监督微调(SFT) + 强化学习(RL),但 DeepSeek-R1-Zero 直接跳过了 SFT,完全依赖 RL 进行训练。
这一策略在 强化学习流程 上的不同点如下:
传统 RL 训练 | DeepSeek-R1-Zero 训练 |
SFT 预训练(模型先通过人工标注数据进行微调) | 无 SFT 预训练(直接从强化学习开始) |
RL 主要用于微调 SFT 训练后的模型 | RL 用于直接塑造 LLM 的行为 |
适用于已有基本能力的 LLM | 适用于让能力从零开始自主涌现 |
🔹 关键发现:即使没有 SFT,推理能力依然能够从 RL 训练中自然涌现。这表明,在强化学习过程中,LLM 可能会逐渐学习到更高效的推理策略,而无需人工微调提供示例。
🔹 为什么纯 RL 训练会让推理能力涌现?
DeepSeek R1 研究的结果显示,强化学习可能帮助 LLM 优化其思维过程,原因如下:
1️⃣ 优化目标驱动学习:
- 传统 SFT 让 LLM 学习人类示例,而 RL 直接让模型尝试不同方法,并优化最有效的推理路径。
2️⃣ 奖励机制强化有效推理:
- 在 RL 过程中,模型通过试错来发现哪些推理步骤更有效,并通过奖励信号进行强化。
3️⃣ 避免“人类偏差”:
- SFT 依赖人工数据,可能会带入人类偏见,而 RL 可以让模型探索新的、更优的推理方式。
🔹 深远影响
🔹 RL 可以独立培养 LLM 的推理能力,这意味着:
- 强化学习可以成为开发推理模型的核心手段,而不一定需要 SFT 作为前置步骤。
- 这可能解释了为什么 OpenAI o1 和 o3 具有强大的推理能力——它们可能也采用了类似的 RL 训练策略。
- 对于资源有限的团队,这可能提供了一种跳过 SFT 直接优化 LLM 的新方法,从而降低训练成本。
📌 结论
- DeepSeek-R1-Zero 不使用 SFT 直接训练,推理能力依然成功涌现。
- 强化学习本身就可以塑造 LLM 的推理能力,这在传统 LLM 训练中是一个突破性的发现。
- RL 可能成为未来优化推理 LLM 的关键技术,甚至可以超越传统的 SFT + RL 组合方法。
接下来的部分,我们将进一步探讨 RL 在推理模型中的具体应用方式,以及如何结合 RL 和 SFT 进行混合优化。

DeepSeek-R1-Zero 的 RL 训练:与 RLHF 的对比
尽管 DeepSeek-R1-Zero 采用的是 纯强化学习(Pure RL),但其训练过程仍与 强化学习人类反馈(RLHF) 有一定相似性。
- RLHF 通常用于调整 LLM 以匹配人类偏好,通过 监督微调(SFT)+ 强化学习 来优化模型行为。
- DeepSeek-R1-Zero 的关键区别在于:它跳过了 SFT,直接进入 RL 训练,这就是为什么它被称为**“纯”RL**。
注:LLM 训练中的强化学习(RL)与**传统 RL(如强化学习机器人控制)**在方法和应用上有很大不同,这是一个更广泛的话题,未来可以深入探讨。
DeepSeek-R1-Zero 的奖励机制
DeepSeek 团队在训练过程中,并未使用一个基于人类偏好的奖励模型,而是引入了 两种奖励机制:
1️⃣ 准确性奖励(Accuracy Reward)
📌 目的:确保答案正确。
- 代码问题:使用 LeetCode 编译器 运行代码,检查代码是否正确执行。
- 数学问题:使用确定性系统(deterministic system) 验证数学答案是否正确。
- 这一机制类似于自动评分系统,能够为 LLM 提供客观的反馈,让其改进推理过程。
2️⃣ 格式奖励(Format Reward)
📌 目的:确保模型输出的格式符合预期,使回答更清晰易读。
- 研究团队使用 LLM 作为评分者(LLM Judge) 来检查模型回答是否遵循正确格式。
- 例如:推理过程是否放在
<think>
标签中,是否有清晰的步骤分隔。
- 这种格式化奖励类似于规范化输出(structured output),可以让 LLM 的推理过程更清晰。
💡 “Aha!” 时刻:推理能力的自发涌现
令人惊讶的是,仅凭这两种奖励机制,DeepSeek-R1-Zero 就成功发展出了基本的推理能力。
- 研究人员观察到,即使没有明确要求,模型开始自动生成推理步骤,并在回答中包含详细的推理链(reasoning traces)。
- 这类似于人类在学习过程中经历的 “Aha!” 时刻,即:当模型在强化学习的激励下,自发学会某种技能,而不是被硬编码训练。
📌 这一现象表明:
- 推理能力可以在 RL 过程中自然涌现,而不一定需要 SFT 来手动教导。
- 奖励机制的设计至关重要,即使没有人类反馈,只要有合理的自动评分系统,LLM 仍然可以优化自身行为。
📌 结论
🔹 DeepSeek-R1-Zero 是一个 RL 训练突破:它证明了,即使跳过 SFT,仅靠 RL 训练,LLM 也能学会推理能力。
🔹 准确性奖励和格式奖励 成为 RL 训练成功的关键,这表明合理的奖励信号可以驱动 LLM 发展新的能力。
🔹 这一研究成果也为 未来推理 LLM 的训练 提供了重要启示:或许我们可以通过更先进的奖励机制,而不是更多数据标注,来优化 LLM 的推理能力。
接下来的部分,我们将进一步探讨 RL 如何与 SFT 结合,以进一步提升推理模型的性能。

虽然 DeepSeek-R1-Zero 并不是最强的推理模型,但它确实展现出了推理能力,能够生成中间的“思考”步骤(如上图所示)。这一实验结果验证了一个关键结论:
✅ 纯强化学习(Pure RL)也可以培养 LLM 的推理能力,无需依赖监督微调(SFT)。
更重要的是,DeepSeek 团队是首个成功演示(或至少是首个公开发表)这一方法的研究团队。这项研究不仅拓展了 LLM 训练的思路,还为未来的推理模型开发提供了一种新的方向,即基于 RL 训练、无需大量人工标注的推理优化方法。
在接下来的部分,我们将进一步探讨 如何结合 SFT 和 RL,构建更强大的推理模型。
3) 监督微调 + 强化学习(SFT + RL)
在探索了 纯 RL 训练(R1-Zero) 之后,我们再来看 DeepSeek-R1 —— DeepSeek 的旗舰推理模型,它的开发过程可以作为构建推理模型的蓝图。
DeepSeek-R1 相较于 R1-Zero 进一步提升了推理能力,其关键改进点是:
✅ 结合了监督微调(SFT)和强化学习(RL),以提高推理表现。
🔹 为什么结合 SFT 和 RL?
在 LLM 训练中,先进行 SFT 再进行 RL 是一种常见的优化策略,也是标准 RLHF(强化学习人类反馈) 训练流程的核心组成部分。例如,OpenAI 的 o1 很可能也是基于这一方法训练的。
📌 SFT(监督微调)的作用:
- 让 LLM 学习高质量的人工标注示例,形成良好的初始行为。
- 解决纯 RL 训练可能带来的探索效率低、训练不稳定等问题。
📌 RL(强化学习)的作用:
- 进一步优化 SFT 训练后的模型,使其学会更高级的推理策略。
- 让 LLM 在多个候选答案之间进行选择,强化最优的推理路径。
📌 结合 SFT 和 RL 可以带来的提升:
- SFT 先让 LLM 具备基本推理能力,RL 进一步强化其推理质量。
- SFT 训练的数据可以作为 RL 训练的参考,提高奖励模型的质量。
- 相比于纯 RL 训练,SFT + RL 方案更稳定、更高效,更容易得到高性能推理模型。
🔹 DeepSeek-R1 训练流程
根据 DeepSeek R1 技术报告,该模型的训练大致遵循以下步骤:
1️⃣ 监督微调(SFT)
- 使用高质量的推理数据集微调 R1-Zero,让模型初步学习数学推理、代码推理等复杂任务。
- 训练数据可能包括 人类标注的推理过程,以及 自动生成的高质量数据。
2️⃣ 强化学习(RL)
- 在 SFT 训练的基础上,使用 RL 进一步优化推理能力。
- 可能采用 奖励模型(Reward Model) 或 搜索优化策略(如 Beam Search、Lookahead Search),强化最佳推理路径。
3️⃣ 最终调优
- 可能结合 蒸馏(Distillation),将大模型知识迁移到更小的模型,如 DeepSeek-R1-Distill。
🔹 为什么 SFT + RL 是主流方法?
在目前的 LLM 训练方法中,SFT + RL 被广泛用于优化推理能力,原因如下:
✅ 比纯 RL 更稳定:
- 纯 RL 可能导致模型探索效率低、训练不稳定,而 SFT 提供了良好的初始策略。 ✅ 比纯 SFT 更智能:
- SFT 仅能模仿训练数据,而 RL 允许 LLM 通过探索找到更优推理方式。 ✅ 适用于大规模推理模型:
- OpenAI、Anthropic、DeepSeek 等公司都使用 SFT + RL 来优化推理 LLM,如 GPT-4o、Claude 3、DeepSeek-R1 等。
📌 结论
- DeepSeek-R1 结合了 SFT 和 RL,是目前最主流的推理模型优化方案。
- SFT 让 LLM 具备基本推理能力,RL 进一步优化推理策略,两者结合能显著提升 LLM 在复杂推理任务上的表现。
- OpenAI o1 可能采用了类似的方法,这也是目前大多数高性能推理 LLM 采用的核心训练流程。
接下来的部分,我们将进一步探讨推理模型的训练优化策略,并介绍如何在有限预算下训练高性能推理 LLM。

DeepSeek-R1 的训练流程:从 "Cold Start" 到 高级推理模型
DeepSeek 团队采用了一个独特的方法来训练 DeepSeek-R1,即使用 DeepSeek-R1-Zero 生成 "cold-start" SFT 数据。
- "Cold Start" 指的是,这些数据来自完全没有经过 SFT 训练的 R1-Zero,即模型是直接通过强化学习(RL) 训练,而没有接受过任何人工标注的微调数据。
🔹 DeepSeek-R1 训练流程
完整的训练流程分为 多个阶段,包括 冷启动数据生成、SFT 微调、强化学习(RL)、一致性优化,以及 CoT 训练:
1️⃣ 冷启动(Cold-Start)SFT 数据生成
📌 目标:使用 DeepSeek-R1-Zero 生成初始 SFT 数据,作为后续训练数据。
- 由于 R1-Zero 没有经过 SFT,因此这一步是从零开始,完全依赖其在 RL 训练过程中学到的推理能力。
- 这是一种自我引导训练(self-bootstrapping) 方法,不依赖外部人工标注数据。
2️⃣ 指令微调(Instruction Fine-tuning, SFT)
📌 目标:让模型学习更广泛的推理任务,并增强其可控性。
- 训练数据来源于 冷启动 SFT 数据,以及额外采集的数据。
- 这一步主要优化 指令遵循能力(Instruction Following),确保模型的输出更加符合用户期望。
3️⃣ 强化学习(RL)
📌 目标:在 SFT 训练后,使用 RL 进一步优化模型推理能力。
- 保留原有奖励机制:
- 准确性奖励(Accuracy Reward) → 用 LeetCode 编译器和数学验证系统评估答案正确性。
- 格式奖励(Format Reward) → 确保推理过程符合预期格式(如
<think>
标签)。
- 新增一致性奖励(Consistency Reward):
- 主要用于 防止语言混合(Language Mixing),即在单一回答中意外切换不同语言。
- 这一问题可能出现在多语言模型中,例如 DeepSeek-R1 可能在生成回答时,部分句子使用英文,部分使用中文或其他语言。
4️⃣ 第二轮 SFT 数据采集
📌 目标:利用最新模型版本,生成更大规模的高质量训练数据。
- 这一阶段使用最新的模型 checkpoint 生成了:
- 60 万个 Chain-of-Thought(CoT)SFT 示例 → 让模型更擅长分步推理。
- 20 万个 知识型 SFT 示例 → 由 DeepSeek-V3 基础模型生成,增强模型在知识问答上的表现。
5️⃣ 第二轮强化学习(RL)
📌 目标:使用更大规模的数据集进一步优化推理能力。
- 依然采用基于规则的奖励机制(Rule-Based Rewards):
- 数学和编程问题 → 使用准确性奖励进行自动评分。
- 其他问题 → 引入人类偏好标签(Human Preference Labels),让模型学会更符合人类喜好的回答方式。
🔹 训练结果:DeepSeek-R1 vs. DeepSeek-R1-Zero
📌 最终结果:
- DeepSeek-R1 显著优于 DeepSeek-R1-Zero,这主要得益于额外的 SFT 训练、强化学习优化,以及更大规模的训练数据。
- 由于模型经历了更严格的优化过程,它的推理能力、准确率和指令遵循能力都得到了提升。
- 表格(未附图)展示了 DeepSeek-R1 的性能提升,进一步证实了 SFT + RL 训练方法的有效性。
📌 结论
🔹 DeepSeek-R1 是一个完整的推理 LLM 训练案例,通过 Cold-Start 生成数据 + SFT 微调 + RL 训练,实现了强大的推理能力。
🔹 相比于 DeepSeek-R1-Zero,R1 经过额外的 SFT 和 RL 训练后,性能有显著提升,特别是在数学、代码和复杂推理任务上。
🔹 SFT 主要用于指令微调,RL 进一步优化推理能力,并通过奖励机制调整模型行为。
🔹 这一训练方法也可能被 OpenAI o1 等推理模型采用,说明 SFT + RL 是当前推理模型优化的最优方案之一。
接下来的部分,我们将探讨如何在有限预算下开发高性能的推理 LLM。

4) 纯监督微调(SFT)和知识蒸馏(Distillation)
到目前为止,我们已经介绍了三种主要方法来构建和优化推理模型:
1️⃣ 推理阶段计算扩展(Inference-time Scaling) → 无需训练模型,而是通过搜索、投票等方法提升推理能力。
2️⃣ 纯强化学习(Pure RL) → DeepSeek-R1-Zero 证明了推理能力可以通过 RL 自然涌现,而无需 SFT。
3️⃣ SFT + RL 训练(DeepSeek-R1) → 先进行 SFT 训练,再用 RL 进一步优化推理能力,这一方法已成为高性能推理 LLM 的标准做法。
那么,还有什么方法可以优化推理模型?
💡 答案是:知识蒸馏(Distillation)。
🔹 什么是知识蒸馏(Distillation)?
DeepSeek 还发布了多个小型推理模型,这些模型通过一个他们称为**蒸馏(Distillation)**的过程进行训练。然而,在 LLM 领域,蒸馏不一定完全遵循经典的知识蒸馏(KD)方法。
1️⃣ 传统知识蒸馏(Knowledge Distillation, KD)
📌 经典 KD 训练方式:
- 在深度学习中,KD 传统上是指:
- 教师模型(Teacher Model):一个大规模、性能更强的神经网络。
- 学生模型(Student Model):一个较小、计算更高效的模型。
- 训练方式:
- 学生模型不仅学习数据集的目标标签,还学习教师模型的logits(输出概率分布),以更好地模仿教师的行为。
📌 目标:让小模型模仿大模型的能力,在计算成本较低的情况下仍能取得不错的性能。
2️⃣ DeepSeek 的"蒸馏":SFT 迁移(Instruction Fine-tuning Distillation)
📌 DeepSeek 的蒸馏方法并未直接使用 KD,而是基于 SFT 数据进行优化。
- 具体来说,他们微调(instruction fine-tuning)较小规模的 LLM,如:
- Llama 8B & 70B
- Qwen 2.5B - 32B
- 这些小模型使用的 SFT 数据集是由更大的 LLM 生成的,即:
- DeepSeek-V3
- DeepSeek-R1 的中间训练版本
📌 关键点:
- 小模型学习的 SFT 数据 与用于训练 DeepSeek-R1 的数据完全相同。
- 区别在于,这些数据不是用于训练更大的 DeepSeek-R1,而是用于让较小模型模仿其推理能力。
🔹 这种蒸馏方法的优势
相比于传统 KD,DeepSeek 的 SFT 迁移方法有以下优点:
✅ 更简单易行 → 只需要利用大模型生成的数据集,而不需要教师模型的 logits。
✅ 更适合 LLM 训练 → 直接使用指令微调(SFT)来适应推理任务,符合 LLM 的训练流程。
✅ 可用于小型 LLM 训练 → 使 Qwen 2.5B、Llama 8B 等较小的模型也能具备一定推理能力。
📌 为什么 DeepSeek 选择 SFT 迁移,而不是标准 KD?
- 在 LLM 训练中,模型的行为更难通过 logits 直接迁移,因此更适合使用大模型生成的高质量数据进行训练。
- 指令微调(SFT)比 KD 更符合 LLM 的训练范式,并且更容易扩展到不同规模的模型。
📌 结论
🔹 DeepSeek 的"蒸馏"并非传统知识蒸馏,而是 SFT 数据迁移,即让小模型微调大模型生成的数据集。
🔹 小模型(Llama 8B、Qwen 2.5B)可以通过这种方式,获得类似 DeepSeek-R1 的推理能力。
🔹 这种方法在 LLM 领域被越来越多采用,例如 Mistral、OpenAI 和 Meta 也在使用类似的方法优化小型模型。
接下来的部分,我们将探讨如何在有限预算下开发高性能的推理 LLM,以及未来推理 LLM 训练的趋势。

为什么 DeepSeek 研发这些蒸馏模型?
DeepSeek 开发这些蒸馏(Distilled)模型的原因主要有两个关键点:
🔹 1️⃣ 更高效的小模型
📌 小模型运行成本更低,适用于更多场景
- 更高效 → 小模型计算需求更低,可以在消费级硬件(如个人 GPU)上运行,而无需昂贵的 AI 服务器。
- 更便宜 → 运行成本远低于大模型,更适合云端推理或嵌入式 AI 应用。
- 更普及 → 使研究人员、独立开发者、爱好者等更容易使用高质量的推理模型。
📌 为什么小模型仍然有市场?
- 大模型(如 DeepSeek-R1)性能更强,但计算成本高,难以部署在普通硬件上。
- 小模型(如 Qwen 2.5B、Llama 8B)可以在成本和性能之间取得平衡,满足更多用户需求。
🔹 2️⃣ 作为 SFT 纯训练的案例研究
📌 这些蒸馏模型提供了一个有趣的基准测试(benchmark),用于研究纯 SFT(监督微调)的极限。
- 大多数高性能 LLM(如 DeepSeek-R1)使用 SFT + RL 进行训练。
- 但这些蒸馏模型仅使用 SFT,没有强化学习(RL),因此可以用来测试 SFT 训练的极限:
- 纯 SFT 训练的模型能达到什么水平?
- 没有 RL 的情况下,推理能力会受到多大影响?
📌 为什么这个研究重要?
- 如果纯 SFT 训练的蒸馏模型接近 RL 训练的模型,那就意味着 RL 可能不是必要的。
- 如果 RL 训练的模型明显优于纯 SFT 训练的模型,那就证明 RL 在推理能力优化中起到了关键作用。
🔹 结果分析
📌 对比表(未附图) 显示,这些蒸馏模型与其他流行模型(如 GPT-4o、DeepSeek-R1-Zero 和 DeepSeek-R1)的性能对比。
- DeepSeek-R1(SFT + RL 训练)仍然是性能最强的推理模型。
- 蒸馏模型(仅使用 SFT)在某些任务上表现不错,但整体推理能力仍落后于 RL 训练的模型。
- 小模型(如 Qwen 2.5B)虽然比大模型性能稍低,但仍然可以在特定任务中表现良好,特别是在有限资源的情况下。
📌 结论
🔹 蒸馏模型的目标不是取代大模型,而是提供更高效的推理能力,适用于低成本和本地推理环境。
🔹 它们也是纯 SFT 训练的实验案例,可以用来研究 SFT 训练的极限,分析 RL 对推理能力的实际贡献。
🔹 DeepSeek 的研究表明,SFT 训练可以让模型达到不错的推理水平,但要达到最优性能,仍然需要结合 RL 训练。
接下来的部分,我们将探讨 如何在有限预算下开发推理 LLM,以及未来推理模型的发展趋势。

蒸馏模型 vs. DeepSeek-R1:性能对比分析
如表格(未附图)所示,蒸馏后的小模型明显弱于 DeepSeek-R1,但有两个有趣的发现:
1️⃣ 蒸馏模型的性能仍然优于 DeepSeek-R1-Zero,尽管参数规模小得多
- 这表明,SFT 训练可以在更小的模型上复制部分推理能力,即使没有 RL。
- 这也是 SFT 迁移(distillation)的一大优势:小模型可以通过微调 SFT 数据,继承大模型的推理能力。
2️⃣ 蒸馏模型与 OpenAI o1-mini 的对比值得关注
- 目前 OpenAI 并未公布 o1-mini 的训练细节,但它可能也是 o1 的一个蒸馏版本。
- DeepSeek 蒸馏模型在某些推理任务上的表现接近或优于 o1-mini,说明 SFT 蒸馏是一个可行的推理模型训练方法。
🔹 纯 RL 在小模型中的实验:Qwen-32B 版 R1-Zero
DeepSeek 团队还尝试在小规模模型上复现 DeepSeek-R1-Zero 发现的“推理能力涌现”现象。
📌 实验目标:
- 研究 纯 RL(不使用 SFT)是否也能让较小的模型(Qwen-32B)具备推理能力。
- 对比基准:QwQ-32B-Preview(由 Qwen 团队训练的 Qwen 2.5 32B 模型,具体训练细节未知)。
📌 实验方法:
- 直接对 Qwen-32B 进行纯 RL 训练,使用 DeepSeek-R1-Zero 相同的奖励机制(准确性奖励、格式奖励)。
- 观察推理能力是否能够自然涌现,类似于 R1-Zero。
📌 实验结果(见表格):
- Qwen-32B 版 R1-Zero 在推理任务上表现明显提升,但相比于 DeepSeek-R1-Zero 仍然较弱。
- 这表明,即使是小规模模型,RL 训练仍然可以部分激发推理能力,但其效果受限于模型规模。
- 相比于纯 RL,结合 SFT 仍然是训练推理模型的最佳方案,特别是对于小模型而言。
📌 结论
🔹 蒸馏模型比预期更强,尽管参数规模小,但依然超越了 DeepSeek-R1-Zero,说明SFT 迁移是有效的推理优化手段。
🔹 DeepSeek 蒸馏模型的推理能力接近或优于 o1-mini,说明 OpenAI 可能也在使用类似的蒸馏策略。
🔹 纯 RL 训练可以在小模型(Qwen-32B)上诱导推理能力,但效果不如大模型,进一步证明了模型规模在推理能力中的关键作用。
🔹 最佳策略仍然是 SFT + RL 结合,而非单独依赖 SFT 或 RL。
下一部分,我们将总结构建推理 LLM 的最佳方法,并探讨如何在有限预算下训练高效的推理模型。

蒸馏 vs. 纯 RL:小模型的推理能力优化策略
实验结果表明,对于较小规模的模型,蒸馏(SFT 迁移)比纯 RL 训练更有效。
🔹 为什么蒸馏(SFT 迁移)比纯 RL 更适合小模型?
📌 1️⃣ 纯 RL 对小模型的推理提升有限
- 实验显示,Qwen-32B 版的 R1-Zero(仅使用 RL 训练)在推理能力上有所提升,但远不及 SFT 训练的小模型。
- 这表明,RL 可能不足以在小模型上诱导强推理能力,而更依赖于模型规模。
- 大模型(如 DeepSeek-R1-Zero)可以依靠 RL 训练获得推理能力,但小模型在 RL 训练中的泛化能力较差。
📌 2️⃣ SFT 迁移(Distillation)对于小模型更高效
- SFT 训练的小模型明显优于 RL 训练的小模型,说明 SFT 训练在小模型上的效果更佳。
- 原因:
- SFT 提供高质量推理示例,减少探索成本,让小模型能有效学习复杂推理任务。
- RL 依赖大量采样和试错,计算成本较高,小模型的探索能力受限,因此收益不如 SFT。
- 结论:对于小模型,SFT 训练比 RL 更容易引导推理能力的学习。
🔹 额外的对比实验(如果有的话,会更完整)
如果 DeepSeek 团队进一步进行以下实验,结果可能更有说服力:
1️⃣ Qwen-32B 训练方式对比(SFT + RL vs. 纯 RL vs. 纯 SFT)
- 目前的 Qwen-32B 版 R1-Zero 只用了 RL,如果对其进行 SFT + RL 训练,它的推理能力是否能大幅提升?
- 这可以进一步验证:RL 和 SFT 结合是否能让小模型突破推理能力的瓶颈?
2️⃣ DeepSeek-V3 纯 SFT 训练 vs. SFT + RL
- 如果 DeepSeek-V3 只用 SFT 训练,而不使用 RL,它的推理能力会如何?
- 这个实验可以直接对比 RL + SFT 训练 vs. 纯 SFT 训练的效果,帮助评估 RL 在大型推理 LLM 训练中的实际贡献。
结论:四种优化推理模型的方法及未来趋势
在本节中,我们探讨了四种构建和优化推理模型的核心策略,每种方法都有其独特的优势和局限性。
🔹 1️⃣ 推理阶段计算扩展(Inference-time Scaling)
📌 优点:
- 无需额外训练,可以直接提升现有模型的推理能力。
- 适用于已经很强的模型,例如 GPT-4o 和 DeepSeek-R1,可以在推理阶段进一步优化性能。
📌 局限性:
- 增加推理成本,如果用户量或查询量大,部署成本会急剧上升。
- 不适用于提升较弱模型,仅对本身已经具备强推理能力的 LLM 进行优化。
📌 推测:
- OpenAI o1 可能采用了推理阶段计算扩展,这解释了它比 DeepSeek-R1 更昂贵的每 token 计算成本。
🔹 2️⃣ 纯强化学习(Pure RL)
📌 优点:
- 科学研究价值高,证明了推理能力可以通过 RL 自然涌现,而不依赖 SFT。
- DeepSeek-R1-Zero 证明了这一点,并成为 RL 训练推理模型的首个公开案例。
📌 局限性:
- 训练不稳定,模型可能难以收敛,且需要大量计算资源进行试错。
- 实际应用价值有限,相比于 SFT + RL,纯 RL 训练的模型推理能力仍然较弱。
📌 推测:
- OpenAI o1 可能采用了 RL + SFT,而非纯 RL,因为 RL 训练的模型通常需要 SFT 进行进一步优化。
🔹 3️⃣ SFT + RL(监督微调 + 强化学习)
📌 优点:
- 当前业界最优的推理模型训练方法,适用于高性能推理 LLM。
- DeepSeek-R1 是一个成功案例,展示了如何结合 SFT + RL 构建强推理模型。
📌 局限性:
- 训练成本较高,需要大量高质量 SFT 数据和计算资源进行 RL 训练。
- 训练周期长,比单纯的 SFT 或 RL 训练更复杂。
📌 推测:
- OpenAI o1 可能采用了 SFT + RL,但其基础模型可能比 DeepSeek-R1 更弱。
- DeepSeek-R1 之所以在推理性能上更强,同时推理成本更低,可能是因为其基础模型更优。
🔹 4️⃣ 知识蒸馏(Distillation)
📌 优点:
- 可以生成更小、更高效的推理模型,适用于低计算资源场景。
- 对独立研究人员和企业用户更友好,因为可以在本地或边缘设备上运行。
📌 局限性:
- 依赖于已有的强模型,无法独立推动推理能力的突破。
- 不能创造新的推理方法,只是优化已有模型的能力。
📌 推测:
- OpenAI o1-mini 可能是 o1 的蒸馏版本,类似于 DeepSeek 的小模型。
- 蒸馏模型适用于高效推理,但无法推动新一代推理 LLM 的发展。
🔹 未来趋势:结合 SFT + RL 与推理阶段计算扩展
📌 下一步的发展方向可能是:
- 将 SFT + RL(方法 3)与推理阶段计算扩展(方法 1)结合,进一步提升推理模型的性能。
- OpenAI o1 很可能采用了这一策略,但其基础模型可能较弱,因此在推理能力上仍落后于 DeepSeek-R1。
- DeepSeek-R1 的优势可能在于基础模型更强,使其在推理成本更低的情况下仍然优于 o1。
📌 结论:
- SFT + RL 依然是推理模型优化的核心方法,适用于开发下一代高性能推理 LLM。
- 推理阶段计算扩展可以作为额外的增强策略,适用于高端推理任务。
- 蒸馏仍然是降低推理成本的重要手段,但无法推动推理能力的突破。
📌 未来值得关注的研究方向:
- 如何让小模型更有效地学习大模型的推理能力?
- 如何降低 RL 训练成本,同时保持高推理能力?
- 如何在推理阶段优化 LLM,以最小成本获得最优解?
对 DeepSeek-R1 的看法
DeepSeek-R1 是一个令人印象深刻的成就,尤其是它的开源性质和详细的技术报告,使其成为 LLM 研究人员的重要学习资源。
🔹 最令人惊讶的发现
📌 推理能力可以通过纯 RL 训练自然涌现
- DeepSeek-R1-Zero 证明了,甚至不需要 SFT,RL 本身就能诱导推理能力,这一发现对 LLM 训练有重要意义。
- DeepSeek 选择 MIT 许可证开源,这比 Meta 的 Llama 许可更加自由,使得 R1 在社区中的应用潜力巨大。
🔹 DeepSeek-R1 vs. OpenAI o1:谁更强?
📌 两者的性能大致相当,但 R1 可能更高效
- DeepSeek-R1 的推理效率更高,意味着 DeepSeek 可能更注重训练阶段的优化,而 OpenAI 更依赖推理阶段计算扩展。
- 推测:OpenAI o1 可能使用了更多推理优化技术(如投票、搜索),这也解释了为什么 o1 推理成本更高。
📌 难以直接对比,因为 OpenAI 没有公开 o1 训练细节
- 我们不知道:
- o1 是否是 MoE(Mixture of Experts, 专家混合模型)?
- o1 的具体参数规模是多少?
- o1 是否只是 GPT-4o 的微调版,依赖 RL + SFT 并进行推理阶段优化?
- 由于 OpenAI 没有公开这些信息,直接比较 R1 和 o1 仍然像是“苹果 vs. 橙子”,无法得出明确结论。
🔹 DeepSeek-R1 训练成本
📌 关于 $6M 训练成本的讨论
- 有传闻称 DeepSeek-R1 训练成本约 $6M,但这可能是对 DeepSeek-V3 和 R1 训练成本的混淆。
- $6M 估算基于:
- 计算成本:假设 $2/GPU 小时。
- 计算时间:DeepSeek-V3 训练所需的 GPU 小时数(最初在 2024 年 12 月讨论)。
- 但 DeepSeek 团队从未公开 R1 的 GPU 训练时间或总成本,因此这些估算仍然只是猜测。
📌 无论成本如何,DeepSeek-R1 是开源推理 LLM 领域的重要里程碑
- 它的推理效率更高,使其成为 OpenAI o1 之外的一个有趣替代方案。
- 相较于 OpenAI 的封闭策略,DeepSeek-R1 开源模型提供了更多研究和应用的可能性。
如何在有限预算下开发推理模型
开发一个类似 DeepSeek-R1 级别的推理模型,哪怕是基于一个开源基础模型(如 DeepSeek-V3),依然需要数十万到数百万美元的计算资源。这对预算有限的研究人员或工程师来说可能会令人望而却步。
但好消息是:知识蒸馏(Distillation)可以显著降低成本。
🔹 知识蒸馏是一个高性价比的选择
📌 DeepSeek 团队的 R1-Distill 证明了,小模型仍然可以具备强推理能力
- 尽管 DeepSeek-R1-Distill 远小于 DeepSeek-R1,但仍然在推理任务上表现良好。
- 这一方法适合低预算的 AI 研究团队,因为训练一个小型 LLM 比训练超大模型成本低得多。
📌 但蒸馏也不是完全免费的
- DeepSeek 的蒸馏过程使用了 80 万条 SFT 样本,这仍然需要大量计算资源。
- 如果一个团队想要复制类似的训练,需要找到更高效的数据获取和训练策略。
🔹 低预算推理模型的另一种可能性:Sky-T1
📌 Sky-T1 项目
- 这是一个有趣的案例:一个小团队训练了一个开源 32B LLM,但只使用了 1.7 万条 SFT 样本。
- 总训练成本?仅 $450 —— 这甚至比大多数 AI 会议的注册费还要低!
📌 这说明了什么?
- 虽然大规模训练仍然昂贵,但小规模、有针对性的微调仍然可以在较低成本下取得不错的推理效果。
- 即使没有上百万美元的预算,研究者仍然可以通过小规模 SFT 或蒸馏技术,在有限资源下训练高效的推理 LLM。
📌 结论
✅ 如果预算有限,知识蒸馏是一个可行的方法,可以让小模型获得强推理能力。
✅ 尽管训练大规模推理 LLM 很昂贵,但 Sky-T1 这样的案例表明,小规模 SFT 训练仍然可以产生有竞争力的模型。
✅ 对于独立研究者或小团队,重点是如何高效利用数据和计算资源,而不是追求庞大的训练规模。
未来,我们可能会看到更多类似 Sky-T1 的项目,探索如何用最小成本开发高性能推理 LLM。
