随着 DeepSeek R1 的发布,人工智能领域迎来里程碑式突破。拓数派智汇工作站 PieAIStudio作为功能完备的AI开发应用平台,可提供可视化AI流程编排和模型服务,内置知识库、模型插件和 DB-Chat 等功能,用户无需编程经验,开箱即用。目前,PieAIStudio 已成功支持包括 DeepSeek、文心一言、llama 在内的多款开源模型,同时支持传统数据建模、机器学习算法 Pipeline。
作为首个遵循 MIT License 开源协议的高性能推理模型,DeepSeek R1 迅速超越了 OpenAI 的 ChatGPT,成为苹果美国地区和中国地区应用商店免费 APP 下载排行榜第一位,并且导致芯片制造商英伟达单日市值蒸发近 6000 亿美元,创下了美国股市的新纪录。
DeepSeek 团队在技术报告中毫无保留地揭示了 R1 的炼成密码。这场「推理平权运动」背后,究竟隐藏着怎样的技术哲学?AI4AI 社区将在本文拆解论文核心,直击中国大模型的登顶之路。
DeepSeek R1 是如何炼成的
后训练(post-training)已成为提升大模型完整训练流程中的关键环节。研究显示,该阶段不仅能提高模型在推理任务中的准确性,使其契合社会价值观并满足用户偏好,而且相较于预训练(pre-training),所需计算资源更少。
在推理能力的研究领域,OpenAI 的 o1 系列模型率先通过 CoT 的长度,引入了推断时扩展(inference-time scaling)技术。这一创新在数学、编程、科学推理等任务中成效显著。然而,有效的测试时扩展(test-time scaling)仍是研究界有待攻克的开放性难题。
此前,诸多旨在提升推理能力的方法,如基于过程的奖励模型、强化学习、搜索算法等,均未能达到 o1 系列模型的通用推理水平。
在此背景下,DeepSeek 团队独辟蹊径,首次尝试运用纯强化学习来提升语言模型的推理能力。他们旨在挖掘大语言模型在无任何监督数据的条件下,自主开发推理能力的潜力,重点聚焦于模型通过纯 RL 流程实现的自我演化。
具体而言,DeepSeek 选用 DeepSeek - V3 - Base 作为基础模型,并借助 GRPO 强化学习框架,以提升模型在推理任务中的表现。在训练进程中,DeepSeek - R1 - Zero 自然而然地展现出诸多强大且有趣的推理行为。历经数千步的强化学习训练后,DeepSeek - R1 - Zero 在推理基准测试中成绩斐然。
不过,DeepSeek - R1 - Zero 也遭遇了一些挑战,比如可读性欠佳以及语言混用等问题。为解决这些难题并进一步优化推理性能,DeepSeek 推出了 DeepSeek - R1。它融合了少量冷启动数据与多阶段训练流程:首先收集数千条冷启动数据,对 DeepSeek - V3 - Base 模型进行微调;接着,执行与 DeepSeek - R1 - Zero 类似的推理导向 RL;当 RL 过程趋近收敛时,通过在 RL 检查点上进行拒绝采样,并结合 DeepSeek - V3 在写作、事实问答和自我认知等领域的监督数据,对 DeepSeek - V3 - Base 模型重新训练。经新数据微调后,检查点再经历额外的 RL 过程,此过程纳入了所有场景的提示。经过这些步骤,最终得到性能与 OpenAI - o1 - 1217 相当的 DeepSeek - R1 检查点。
DeepSeek 还进一步探索了从 DeepSeek - R1 向较小密集模型的蒸馏。以 Qwen2.5 32B 为基础模型,直接从 DeepSeek - R1 蒸馏出的模型,比在其上应用 RL 的模型表现更为出色。这表明较大基础模型所发现的推理模式,对提升推理能力至关重要。
一、贡献
后训练:在基础模型上进行大规模强化学习
DeepSeek 采用了一种创新的训练方式,直接在基础模型上应用强化学习,摒弃了将监督微调作为初始步骤的传统做法。这种独特的方法,让模型能够通过链式推理,自主探索复杂问题的解决方案,进而成功开发出了 DeepSeek - R1 - Zero。
DeepSeek - R1 - Zero 展现出了一系列令人瞩目的能力,比如自我验证、反思,以及生成长推理链等。这些能力的出现,无疑标志着推理模型研究领域取得了重大突破,是一个重要的里程碑。特别值得一提的是,这是首次公开研究证实,仅通过纯强化学习,就能有效激发大语言模型的推理能力,而不再依赖监督微调(SFT)。这一开创性的成果,为未来大语言模型的发展开辟了新的道路,提供了全新的思路和方向。
为了进一步优化模型性能,DeepSeek 引入了开发 DeepSeek - R1 的训练管道。该训练管道包含两个强化学习阶段,目的在于发现更优的推理模式,并使模型与人类偏好达成一致。同时,还设有两个监督微调阶段,为模型的推理和非推理能力奠定坚实基础,就像为模型的成长播下了优质的种子。
蒸馏:小型模型也能具备强大能力
DeepSeek 通过实验有力地证明了,可以将大型模型的推理模式成功蒸馏到小型模型中。经过蒸馏后的小型模型,性能表现甚至超越了直接在小模型上通过强化学习所获得的推理模式。DeepSeek 开源的 R1 模型及其 API,为研究社区提供了有力支持,助力开发出性能更卓越的小型模型。
基于 DeepSeek - R1 生成的推理数据,DeepSeek 对多个在研究界广泛应用的密集模型进行了微调。评估结果显示,蒸馏后的小型密集模型在各项基准测试中成绩斐然。例如,DeepSeek - R1 - Distill - Qwen - 7B 在 AIME 2024 上取得了 55.5% 的成绩,成功超越了 QwQ - 32B - Preview。此外,DeepSeek - R1 - Distill - Qwen - 32B 在 AIME 2024 上得分为 72.6%,在 MATH - 500 上为 94.3%,在 LiveCodeBench 上为 57.2%。这些成绩不仅显著优于之前的开源模型,而且与 o1 - mini 的性能相当,充分展示了蒸馏技术在提升小型模型性能方面的巨大潜力。
模型评估结果
- 推理任务
在推理任务方面,DeepSeek - R1 在 AIME 2024 基准测试中表现出色,pass@1 得分达到了 79.8%,略微超过了 OpenAI - o1 - 1217。在 MATH - 500 测试中,该模型同样取得了 97.3% 的优异成绩,与 OpenAI - o1 - 1217 的表现不相上下,且远远超过其他模型。
在编程相关任务中,DeepSeek - R1 在代码竞赛任务中展现出了专家级水平,在 Codeforces 平台上的 Elo 评分高达 2029,超越了 96.3% 的人类参赛者。对于工程相关任务,DeepSeek - R1 的表现也略优于 DeepSeek - V3,这对于开发人员在实际工作中具有潜在的帮助,能够为他们提供更高效、准确的支持。
- 知识类任务
在知识类任务的评估中,DeepSeek - R1 在 MMLU、MMLU - Pro 和 GPQA Diamond 等基准测试里,表现同样出色,成绩显著优于 DeepSeek - V3。尽管在这些基准测试中,DeepSeek - R1 的成绩略低于 OpenAI - o1 - 1217,但它成功超越了其他闭源模型,在教育类任务中展现出了强大的竞争优势。在事实问答基准测试 SimpleQA 上,DeepSeek - R1 的表现也优于 DeepSeek - V3,凸显了其在处理基于事实的查询时的卓越能力。这一趋势与 OpenAI - o1 超越 GPT - 4o 的测试结果相呼应,进一步证明了 DeepSeek - R1 在知识处理方面的进步。
- 其他任务表现
DeepSeek - R1 在广泛的其他任务中也展现出了优异的性能,包括创意写作、通用问答、编辑、摘要等。在 AlpacaEval 2.0 上,其长度控制胜率达到了 87.6%,在 ArenaHard 上的胜率达到了 92.3%,充分展示出其在非考试类查询中智能处理的强大能力。此外,DeepSeek - R1 在需要长上下文理解的任务中表现尤为突出,远超 DeepSeek - V3 在长上下文基准测试中的表现,体现了其对复杂语境的深入理解和准确把握能力。
DeepSeek-R1 的基准测试性能
二、DeepSeek R1 模型训练方法
在人工智能模型的研究进程中,以往的研究往往依赖大量监督数据来提升模型性能。然而,DeepSeek 的研究却带来了新的突破,它证明了即便不将监督微调作为冷启动手段,凭借大规模强化学习也能够显著提升模型的推理能力,并且适量冷启动数据的引入还能进一步优化性能。接下来的内容将深入介绍:
- DeepSeek - R1 - Zero:直接在基础模型上应用 RL,完全不依赖任何 SFT 数据;
- DeepSeek - R1:从经过数千条长推理链样本微调的检查点开启 RL;
- 推理能力蒸馏:将 DeepSeek - R1 的推理能力转移至小型密集模型中。
DeepSeek-R1-Zero:在基础模型上的强化学习
DeepSeek 深入探索了大语言模型在毫无监督数据的情况下发展推理能力的潜在可能,重点聚焦于模型通过纯强化学习过程实现的自我演化。
- 强化学习算法
为有效降低训练成本,DeepSeek R1 - Zero 采用了群相对策略优化(GRPO)算法。该算法摒弃了与策略模型规模相同的评价模型,转而通过群体得分来估计基线。具体来说,对于每一个问题,从旧策略中采样一组输出,然后通过最大化特定目标来优化策略模型,以此实现模型性能的提升。
- 奖励建模
奖励作为训练信号的源头,直接决定了强化学习的优化方向。为了训练 DeepSeek - R1 - Zero,DeepSeek 构建了基于规则的奖励系统,主要涵盖两种奖励类型:
- 准确性奖励:用于评估模型响应的正确性。比如在处理数学问题时,若模型能按照指定格式给出答案,便可获得相应奖励;而在编程问题中,模型依据编译器测试用例的反馈来获取准确性奖励。
- 格式奖励:着重规范模型的输出形式,要求模型必须将推理过程包含在<think>和</think>标签之间。
DeepSeek - R1 - Zero 未采用神经奖励模型,主要是因为在大规模强化学习场景下,神经奖励模型可能遭遇奖励黑客问题,即模型可能通过不正当方式获取更高奖励分数,并非真正提升自身能力。此外,重新训练神经奖励模型不仅需要投入更多训练资源,还会增加训练管道的复杂性,使得整个训练过程变得更加繁琐且成本高昂。
- 训练模板
为引导 DeepSeek R1 - Zero 基础模型的有效训练,团队精心设计了简单的训练模板。该模板遵循先推理后作答的逻辑,引导基础模型先生成推理过程,再给出最终答案。这种设计仅规定了结构化格式,不涉及具体内容,最大程度避免了内容偏向,能让研究人员更清晰地观察模型在强化学习中的自然发展过程,了解模型如何通过自身学习和优化来提升能力,从而为进一步改进和优化提供有力依据。
- 性能表现、自我演化过程与“顿悟时刻”
- 性能表现
在 AIME 2024 基准测试中,DeepSeek R1 - Zero 性能提升显著,pass@1 得分从 15.6% 提升至 71.0%,多数投票后达到 86.7%,与 OpenAI - o1 - 0912 相当,充分突显了强化学习算法在优化模型性能方面的有效性。DeepSeek - R1 - Zero 与 OpenAI - o1 - 0912 模型在多种推理相关基准测试中的表现结果表明,强化学习使 DeepSeek - R1 - Zero 在没有任何监督微调数据的情况下,依然具备强大的推理能力,彰显了模型仅通过强化学习即可有效学习和泛化的能力。
DeepSeek - R1 - Zero 和 OpenAI o1 模型在推理相关基准测试中的比较
DeepSeek - R1 - Zero 在训练期间的美国数学邀请赛(AIME)准确率。对于每个问题,我们抽取 16 个回答,并计算总体平均准确率,以确保评估结果稳定。
- 自我演化过程
DeepSeek - R1 - Zero 的自我演化过程充分展示了强化学习推动模型自主提升推理能力的过程。通过直接从基础模型开始进行强化学习训练,能够在不受监督微调阶段影响的情况下,密切观察模型的进展。此方法提供了模型随时间演化的清晰视图,尤其是在其处理复杂推理任务能力方面的提升。这种观察方式有助于更全面地理解模型在强化学习过程中的自然发展轨迹和性能改进机制。
DeepSeek - R1 - Zero 的 “思考时间” 在整个训练过程中持续改善。这种改善并非外部调整所致,而是模型内部能力的自然发展。通过延长测试时的计算时间,DeepSeek - R1 - Zero 自主获得了处理越来越复杂推理任务的能力。这些计算过程涵盖从生成数百到数千个推理标记的范围,使模型能够更深入地探索和完善其思考过程。
在自我演化过程中,随着测试时计算量的增加,模型逐渐表现出复杂行为。例如,模型会进行反思 —— 重新审视并评估之前的步骤;此外,模型还会自发地探索不同的解决方案。这些行为并非通过显式编程实现,而是在模型与强化学习环境交互中自然产生的。这种自发性发展大大增强了 DeepSeek - R1 - Zero 的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。在强化学习(RL)过程中,DeepSeek - R1 - Zero 在训练集上的平均响应长度也体现出它自然地学会了通过更多时间思考来解决推理任务。
在强化学习(RL)过程中,DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然地学会了通过更多的时间思考来解决推理任务。
- 顿悟时刻
“顿悟时刻” 出现在模型的某个中间版本。在此阶段,DeepSeek - R1 - Zero 学会了通过重新评估其初始方法,为问题分配更多的思考时间。这一行为不仅展示了模型日益增长的推理能力,也说明了强化学习如何能够产生意想不到的复杂结果。“顿悟时刻” 不仅是模型的顿悟,也是观察其行为的研究人员的顿悟。它突显了强化学习的力量与美妙之处:无需显式地教导模型如何解决问题,只需为其提供适当的激励,它就能自主发展出高级的解决策略。
DeepSeek R1:改进与优化
受 DeepSeek - R1 - Zero 取得的出色成果启发,自然而然产生了两个问题:1) 通过引入少量高质量数据作为冷启动,能否进一步提升推理性能或加快收敛速度?2) 如何训练一个既可以生成清晰连贯的思维链(CoT),又具备强大通用能力的用户友好型模型?为了解决这些问题,DeepSeek 设计了一个用于训练 DeepSeek - R1 的流程。该流程包含四个阶段,概述如下。
- DeepSeek R1:具有冷启动的强化学习
与 DeepSeek - R1 - Zero 不同,为避免基于基础模型的强化学习(RL)训练在早期冷启动阶段出现不稳定情况,DeepSeek - R1 构建并收集了少量长思维链(CoT)数据,用于对模型进行微调,以此作为初始的 RL 执行体。为收集此类数据,DeepSeek 探索了多种方法:以长思维链为例进行少样本提示;直接促使模型生成带有反思与验证的详细答案;以可读格式收集 DeepSeek - R1 - Zero 的输出,并通过人工标注进行后期处理以优化结果。
在本研究中,DeepSeek 收集了数千条冷启动数据,对 DeepSeek - V3 - Base 进行微调,作为 RL 的起点。与 DeepSeek - R1 - Zero 相比,冷启动数据具有以下优势:
- 可读性:DeepSeek - R1 - Zero 的一个关键局限在于其内容往往不适合阅读。回复可能夹杂多种语言,或缺乏突出答案的 Markdown 格式,以方便用户查看。相比之下,在为 DeepSeek - R1 创建冷启动数据时,设计了一种可读模式,在每次回复的结尾包含一个总结,并过滤掉不便于阅读的回复。在此,将输出格式定义为 | special_token | <reasoning_process> | special_token | <summary>,其中推理过程是针对查询的思维链,总结则用于概括推理结果。
- 潜在的推理引导能力:通过结合人类先验知识精心设计冷启动数据的模式,DeepSeek-R1 性能明显优于 DeepSeek - R1 - Zero。因此采用迭代训练对于推理模型而言是一种更优的方式。
- 面向推理的强化学习
在利用冷启动数据对 DeepSeek - V3 - Base 进行微调后,采用与 DeepSeek - R1 - Zero 相同的大规模强化学习训练过程。此阶段着重提升模型的推理能力,特别是在编程、数学、科学和逻辑推理等推理密集型任务上,这些任务涉及定义明确且有清晰解决方案的问题。
由于在训练过程中,思维链(CoT)常常出现语言混杂的情况,尤其是当强化学习提示涉及多种语言时。为缓解语言混杂问题,DeepSeek 在强化学习训练期间引入语言一致性奖励,该奖励根据思维链中目标语言词汇的比例来计算。尽管消融实验表明,这种调整会导致模型性能略有下降,但该奖励符合人类偏好,使输出更具可读性。最后,DeepSeek 通过直接将推理任务的准确性与语言一致性奖励相加,形成最终奖励。然后,对微调后的模型进行强化学习(RL)训练,直至其在推理任务上达到收敛。
- 拒绝采样与监督微调
当面向推理的强化学习收敛后,DeepSeek 利用得到的检查点来收集监督微调(SFT,Supervised Fine - Tuning)数据,用于下一轮训练。与最初主要聚焦于推理的冷启动数据不同,此阶段纳入了其他领域的数据,以提升模型在写作、角色扮演及其他通用任务方面的能力。具体按以下方式生成数据并微调模型。
推理数据:精心挑选推理提示,并通过对上述强化学习训练的检查点进行拒绝采样来生成推理轨迹。在上一阶段,只纳入了能用基于规则的奖励进行评估的数据。然而在本阶段,通过纳入更多数据来扩充数据集,其中一些数据使用生成式奖励模型,将真实数据和模型预测输入到 DeepSeek-V3 中进行判断。此外,由于模型输出有时杂乱且难以阅读,DeepSeek 过滤掉了语言混杂的思维链、长篇段落和代码块。对于每个提示,采样多个回复,只保留正确的回复。最终收集了约 60 万个与推理相关的训练样本。
非推理数据:对于非推理数据,如写作、事实性问答、自我认知和翻译等,采用 DeepSeek - V3 的流程,并复用 DeepSeek-V3 监督微调数据集的部分内容。对于某些非推理任务,在通过提示回答问题之前,调用 DeepSeek-V3 生成一个潜在的思维链。然而,对于像 “你好” 这样更简单的查询,不会在回复中提供思维链。最后收集了约 20 万个与推理无关的训练样本。
DeepSeek 使用上述精心整理的约 80 万个样本数据集,对 DeepSeek-V3-Base 进行两个轮次的微调。
- 面向所有场景的强化学习
为了进一步使模型符合人类偏好,实施了第二阶段的强化学习,旨在提升模型的有用性和无害性,同时进一步优化其推理能力。具体而言,即结合多种奖励信号和多样化的提示分布来训练模型。
对于推理数据,遵循 DeepSeek - R1 - Zero 中概述的方法,利用基于规则的奖励来引导数学、代码和逻辑推理领域的学习过程。
对于通用数据,借助奖励模型来捕捉复杂微妙场景中的人类偏好。在 DeepSeek - V3 流程的基础上,采用类似的偏好对分布和训练提示。
在评估有用性时,关注最终的总结内容,确保评估着重于回复对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰。在评估无害性时,对模型的整个输出进行评估,包括推理过程和总结,以识别并减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。
通过奖励信号和多样化数据分布的整合,DeepSeek成功训练出了一种在推理方面表现出色,同时兼顾有用性和无害性的模型。
蒸馏:赋予小模型推理能力
为了让更高效的小型模型具备类似 DeepSeek - R1 的推理能力,DeepSeek 使用基于 DeepSeek - R1 整理的 80 万个样本,直接对诸如 Qwen(Qwen, 2024b)和 Llama(AI@Meta, 2024)这样的开源模型进行微调。研究结果表明,这种简单直接的蒸馏方法显著提升了小型模型的推理能力。
DeepSeek 选择的基础模型有 Qwen2.5 - Math - 1.5B、Qwen2.5 - Math - 7B、Qwen2.5 - 14B、Qwen2.5 - 32B、Llama - 3.1 - 8B 以及 Llama - 3.3 - 70B - Instruct。之所以选择 Llama - 3.3,是因为其推理能力略优于 Llama - 3.1。
对于经过蒸馏的模型,仅应用监督微调(SFT),不纳入强化学习(RL)阶段,尽管加入强化学习能大幅提升模型性能。本研究主要目的是展示蒸馏技术的有效性,而将强化学习阶段的探索留给更广泛的研究群体。
三、实验评估
基准测试:DeepSeek对模型在多个基准测试中评估模型:包括MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider 1、LiveCodeBench、Codeforces、中国全国高中数学奥林匹克竞赛 (CNMO 2024)、美国数学邀请赛 (AIME 2024)。除了标准基准测试外,还使用大语言模型(LLMs)作为评判,在开放式生成任务中评估模型。
评估提示:遵循 DeepSeek - V3 的设置,像 MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准测试,使用 simple - evals 框架中的提示进行评估。对于 MMLU - Redux,在零样本设置下采用 Zero - Eval 提示格式。对于 MMLU - Pro、C - Eval 和 CLUE - WSC,由于原始提示是少样本的,将提示稍作修改为零样本设置。少样本中的思维链(CoT)可能会影响 DeepSeek - R1 的性能。其他数据集遵循其创建者提供的默认提示和原始评估协议。对于代码和数学基准测试,HumanEval - Mul 数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。LiveCodeBench 上的模型性能使用 CoT 格式进行评估,数据收集于 2024 年 8 月至 2025 年 1 月之间。Codeforces 数据集使用 10 场 Div.2 竞赛的题目以及专家精心设计的测试用例进行评估,之后计算预期评分和参赛者的百分比。SWE - Bench verified 的结果通过无代理框架(夏等人,2024 年)获得。AIDER 相关基准测试使用 “diff” 格式进行衡量。每个基准测试中 DeepSeek - R1 的输出最多限制为 32,768 个词元。
基线模型:DeepSeek选择了多个强基线模型行了全面评估,包括 DeepSeek - V3、Claude - Sonnet - 3.5 - 1022、GPT - 4o - 0513、OpenAI - o1 - mini 和 OpenAI - o1 - 1217。由于在中国内地访问 OpenAI - o1 - 1217 API 具有挑战性,根据官方报告来呈现其性能。对于蒸馏模型,还将其与开源模型 QwQ - 32B - Preview(Qwen,2024a)进行对比。
评估设置:对于所有的模型,最大生成长度设置为 32,768 个词元。对于需要采样的基准测试,使用温度为 0.6、核采样概率(top - p)值为 0.95 的参数设置,并针对每个查询生成 64 个回复以估计一次通过率(pass@1)。
DeepSeek - R1 评估
在诸如 MMLU、MMLU - Pro 和 GPQA Diamond 等面向教育的知识基准测试中,DeepSeek - R1 相较于 DeepSeek - V3 展现出更卓越的性能。这种提升主要源于在理工科相关问题上准确率的提高,这是通过大规模强化学习(RL)取得的显著成果。此外,DeepSeek - R1 在 FRAMES(一个依赖长上下文的问答任务)中表现出色,彰显了其强大的文档分析能力。这突出了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实性基准测试 SimpleQA 上,DeepSeek - R1 的表现优于 DeepSeek - V3,证明了它处理基于事实查询的能力。类似的趋势也出现在 OpenAI - o1 在该基准测试中超越 GPT - 4o 的情况。然而,在中文 SimpleQA 基准测试中,DeepSeek - R1 的表现比 DeepSeek - V3 差,这主要是因为在经过安全强化学习后,它倾向于拒绝回答某些查询。如果不进行安全强化学习,DeepSeek - R1 的准确率可以达到 70% 以上。
DeepSeek - R1 在 IF - Eval(一个旨在评估模型遵循格式指令能力的基准测试)上也取得了令人瞩目的成绩。这些提升可归因于在监督微调(SFT)和强化学习训练的最后阶段纳入了遵循指令的数据。此外,在 AlpacaEval 2.0 和 ArenaHard 上,DeepSeek - R1 表现非凡,这表明它在写作任务和开放域问答方面具有优势。它大幅超越 DeepSeek - V3,突出了大规模强化学习的泛化优势,这不仅提升了推理能力,还改善了模型在不同领域的性能。而且,DeepSeek - R1 生成的总结长度简洁,在 ArenaHard 上平均为 689 个词元,在 AlpacaEval 2.0 上平均为 2218 个字符。这表明 DeepSeek - R1 在基于 GPT 的评估中避免了引入长度偏差,进一步巩固了它在多个任务中的稳健性。
在数学任务方面,DeepSeek - R1 的表现与 OpenAI - o1 - 1217 相当,大幅超越其他模型。在诸如 LiveCodeBench 和 Codeforces 等编码算法任务中也观察到类似趋势,以推理为重点的模型在这些基准测试中占据主导地位。在面向工程的编码任务上,OpenAI - o1 - 1217 在 Aider 上的表现优于 DeepSeek - R1,但在 SWE Verified 上性能相当。由于目前相关强化学习训练数据量仍然非常有限,DeepSeek - R1 在工程方面的性能将在下一版本中得到提升。
DeepSeek-R1 与其他代表性模型的对比
蒸馏模型评估结果
仅通过蒸馏 DeepSeek - R1 的输出,高效的 DeepSeek - R1 - 7B(即 DeepSeek - R1 - Distill - Qwen - 7B,以下类似缩写)就能全面超越像 GPT - 4o - 0513 这样的非推理模型。DeepSeek - R1 - 14B 在所有评估指标上都超过了 QwQ - 32B - Preview,而 DeepSeek - R1 - 32B 和 DeepSeek - R1 - 70B 在大多数基准测试中显著超越了 o1 - mini。这些结果表明了蒸馏技术的巨大潜力。此外,对这些蒸馏模型应用强化学习(RL)可以进一步显著提升性能。在此仅展示简单监督微调(SFT)蒸馏模型的结果。
DeepSeek - R1 蒸馏模型与其他可比模型在推理相关基准测试中的比较
- 讨论
蒸馏与强化学习的对比
通过对 DeepSeek - R1 进行蒸馏,小型模型能够取得令人瞩目的成果。然而,仍存在一个问题:模型能否在不进行蒸馏的情况下,通过本文所讨论的大规模强化学习达到可比的性能?
为回答这个问题,DeepSeek使用数学、代码和理工科相关数据,在 Qwen - 32B - Base 上进行了超过 10,000 步的大规模强化学习训练,得到了 DeepSeek - R1 - Zero - Qwen - 32B。如图 6 所示,实验结果表明,经过大规模强化学习训练后,320 亿参数的基础模型性能与 QwQ - 32B - Preview 相当。但是,从 DeepSeek - R1 蒸馏得到的 DeepSeek - R1 - Distill - Qwen - 32B,在所有基准测试中的表现都显著优于 DeepSeek - R1 - Zero - Qwen - 32B。
因此可以得出两个结论:
第一,将更强大的模型蒸馏到较小模型上能产生出色的效果,而依赖本文所述大规模强化学习的较小模型,不仅需要巨大的计算能力,甚至可能无法达到蒸馏所实现的性能。
第二,虽然蒸馏策略既经济又有效,但要突破智能的边界,可能仍需要更强大的基础模型和更大规模的强化学习。
失败尝试
在开发 DeepSeek-R1 过程中,DeepSeek 尝试了过程奖励模型(PRM)和蒙特卡罗树搜索(MCTS),但均未成功。
过程奖励模型难以明确定义细粒度推理步骤,判断中间步骤正确性困难,自动标注效果差且手动标注难以扩展,还容易出现奖励作弊,增加训练成本,限制了其在大规模强化学习中的应用。
蒙特卡罗树搜索用于提升测试时计算可扩展性时,因大语言模型的 token 生成搜索空间远大于棋类游戏,虽设置最大扩展限制仍易陷入局部最优,且模型训练困难,影响生成质量,导致模型难以迭代改进。
五、研究结论与展望
DeepSeek R1 通过结合冷启动数据和迭代强化学习微调,在多个任务中达到与 OpenAI-o1-1217 相当的表现,蒸馏后的小型模型也取得优异成绩。未来,DeepSeek 计划在通用能力、语言混杂、提示工程、软件工程任务等方面深入研究,持续提升 DeepSeek R1 性能,推动大语言模型推理能力迈向新高度,为 AI 领域发展注入新动力。
PieAIStudio 开启智能体开发新范式
随着 DeepSeek R1 的发布,人工智能领域迎来里程碑式突破。在未来,随着 DeepSeek R1 的不断优化和完善,以及国内 AI 生态系统的深入,我们相信,AI 技术和产业生态都将迎来新的变革,PieAIStudio 也将在模型支持、功能实现、生态组件等各个方面不断增强,提供一站式的基于大模型的 Agent 编排,开启智能体开发新范式。