DeepSeek-R1对Web3-AI的冲击和影响
来源:Coindesk
作者:Jesus Rodriguez
编译:比推BitpushNews
几天前,人工智能( AI )领域因 DeepSeek -R1 的发布而轰动。DeepSeek-R1 是一个开源推理模型,其性能可与顶级基础模型媲美,同时声称使用了极低的训练成本和创新的后训练技术。DeepSeek-R1 的发布不仅挑战了基础模型规模定律的传统认知——该定律通常认为更高的训练预算能带来更强的性能——更重要的是,它在 AI 研究中最活跃的领域 “推理” 方面取得了突破。
DeepSeek-R1 采用开权重(open-weights)(而非完全开源)的方式发布,使得 AI 社区能够轻松获取该模型,并在数小时内便涌现出大量克隆版本。此外,DeepSeek-R1 也在中美 AI 竞赛中留下了重要印记,再次证明了一个日益明显的事实:中国 AI 模型不仅具备卓越的质量,同时也具备推动创新的原创能力。
与大多数生成式人工智能的进步不同,这些进步似乎扩大了Web2和Web3在基础模型领域的差距,DeepSeek-R1的发布带来了真正的影响,并为Web3-AI提供了有趣的机会。
DeepSeek-R1 内部结构: DeepSeek-R1 是在成熟的基础模型预训练框架上引入渐进式创新的成果。从整体上看,它遵循了与大多数顶级基础模型相同的训练方法,主要包括三个关键步骤:
-
预训练(Pretraining): 使用海量无标注数据,让模型学习预测下一个词。
-
监督微调(SFT): 优化模型的指令跟随能力和问答能力。
-
对齐人类偏好(Alignment): 通过最终微调,使模型的输出更加符合人类期望。
OpenAI 、 Google 和 Anthropic 等领先 AI 公司的基础模型普遍采用类似的训练流程。从表面上看,DeepSeek-R1 的训练方式似乎并无显著不同。然而,它的独特之处在于:DeepSeek-R1 并未从零开始预训练基础模型,而是基于其前代模型 DeepSeek-v3-base 进行优化。DeepSeek-v3-base 拥有惊人的 6170 亿参数,为 R1 提供了强大的基础。
本质上,DeepSeek-R1 是在 DeepSeek-v3-base 的基础上,使用大规模推理数据集进行 SFT 微调的结果。真正的创新点在于这些推理数据集的构建方式,因为高质量推理数据极难获取,而 DeepSeek-R1 成功突破了这一挑战。
第一步:DeepSeek-R1-Zero
DeepSeek-R1 的一大创新在于,它的训练过程中并非只诞生了一个模型,而是两个。其中,最具突破性的是R1-Zero——一个专注于推理任务的中间模型。与传统方法不同,R1-Zero 几乎完全依赖强化学习(Reinforcement Learning, RL)训练,几乎不使用人工标注数据。
强化学习的核心思路是通过奖励机制让模型学会生成正确答案,从而在长期训练中逐步掌握更强的推理能力。
R1-Zero 的推理能力相当惊人,在推理任务上的表现已经可以媲美 GPT-o1。不过,它在问答、可读性等通用任务上的表现较弱。但这并不是问题,因为R1-Zero 本就不是为了成为通用 AI,而是为了验证:仅靠强化学习,也能训练出最先进的推理能力——即使它在其他领域的表现不够完美。
第二步:DeepSeek-R1
DeepSeek-R1 的目标是成为一个通用型 AI 模型,但在推理任务上表现得更加出色。因此,它不仅要超越 R1-Zero,还需要在更广泛的任务中具备强大的能力。为此,DeepSeek 团队再次基于 v3 模型进行微调,但这次使用的是一个小规模的推理数据集。
如前所述,推理数据集的构建极具挑战,而这正是 R1-Zero 发挥关键作用的地方。团队利用 R1-Zero 生成了一批合成推理数据,然后用它来微调 DeepSeek-v3,形成了一个新的中间推理模型。接着,这个模型被投入强化学习训练,训练数据同样来自 R1-Zero 生成的 60 万条推理样本。最终,DeepSeek-R1 诞生。
虽然 R1 的训练过程涉及许多技术细节,但核心亮点可以归纳为两点:
1. R1-Zero 证明了仅靠强化学习也能训练出强大的推理能力。虽然它不是一个通用 AI,但它成功生成了高质量的推理数据,为 R1 的训练奠定了基础。
2. DeepSeek-R1 重新定义了基础模型的训练方式。通过引入 R1-Zero,R1 不仅扩展了传统的训练流程,还利用了大量由 R1-Zero 生成的合成推理数据,降低了训练成本,同时提升了推理能力。
最终,DeepSeek-R1 在推理任务上的表现达到了 GPT-o1 级别,但训练方式更加高效,成本也更低。
毫无疑问,R1 的发布是生成式 AI 发展史上的一个重要里程碑,它很可能会彻底改变基础模型的训练模式。与此同时,它还为 Web3-AI 生态 带来了全新的可能性,值得深入探讨它对未来的影响。
DeepSeek-R1和Web3-AI
长期以来,Web3 在基础模型的创建与应用方面一直缺乏真正具有吸引力的落地场景。某种程度上,传统的基础模型预训练流程与 Web3 架构理念背道而驰。然而,尽管 Web3-AI 仍处于早期阶段,DeepSeek-R1 的发布揭示了多个与 Web3 自然契合的机会,为 AI 的去中心化发展提供了新的思路。
1)强化学习:
R1-Zero 证明了,仅依靠强化学习(Reinforcement Learning, RL) 也能训练出强大的推理模型。而且,从计算角度来看,强化学习高度可并行化,这使其非常适合去中心化网络。
想象这样一个 Web3 生态:去中心化的节点可以执行强化学习任务来微调模型,并获得奖励,每个节点采用不同的训练策略,共同提升 AI 的推理能力。相比传统 AI 训练方式依赖复杂的 GPU 计算架构和中心化算力,这种去中心化训练方式更加灵活高效,也更符合 Web3 的发展方向。
2) 合成推理数据集的生成
DeepSeek-R1 的另一大贡献在于展示了合成推理数据集在认知任务中的重要性。这一数据生成过程非常适用于去中心化网络,因为各个节点可以执行数据集生成任务,并在这些数据被用于基础模型的预训练或微调时获得奖励。
由于这些数据是完全由 AI 生成的,整个网络无需人工干预即可实现全自动化运行,这使其成为 Web3 架构的理想选择。
3) 去中心化小型推理模型推理
DeepSeek-R1 是一款超大规模模型,拥有 6710 亿参数。在它发布后不久,社区迅速推出了一系列更轻量级的蒸馏版推理模型,参数规模从 1.5B 到 70B 不等。这些小型模型在去中心化网络中的推理任务上更具实用性。
比如,1.5B-2B 规模的蒸馏版 R1 模型可以嵌入 DeFi 协议,用于智能合约决策,或部署在 DePIN(去中心化物理基础设施网络) 的计算节点中。此外,我们可能会看到更多基于去中心化计算网络的低成本推理服务崛起。
值得注意的是,推理领域的一个重要趋势是小型模型和大型模型的性能差距正在缩小。这为 Web3 提供了一个全新的机会,让去中心化推理变得更加高效、灵活,并且更加经济可行。
4) 推理数据的可追溯性
推理模型的一大优势在于能够生成完整的推理链(reasoning traces),让用户不仅看到最终答案,还能了解 AI 是如何得出这个结论的。DeepSeek-R1 强化了这一能力,将推理过程直接作为推理结果的一部分,突出了数据来源和可追溯性的重要性。
如今的互联网主要依赖最终输出,但很少提供生成这些结果的中间推理过程。Web3 正好能弥补这一缺陷,利用区块链等去中心化技术,跟踪并验证 AI 推理的每一个步骤。
这为构建一个全新的“推理互联网” 提供了可能性,在这个体系下,透明度和可验证性将成为标准,确保 AI 生成的内容更加可信、安全,并具备可审计性。
Web3-AI在后R1推理时代大有可为
DeepSeek-R1 的发布,标志着生成式 AI 发展的重要转折点。它在沿用成熟的预训练方法的同时,融入了创新技术,不仅挑战了传统 AI 训练方式,也开启了一个以推理能力为核心的新 AI 时代。与以往的基础模型不同,DeepSeek-R1 让生成式 AI 与 Web3 的结合变得更加自然。
R1 的核心特点——合成推理数据集、更高效的并行训练,以及对可追溯性的需求增长——与 Web3 的理念高度契合。尽管 Web3-AI 过去一直难以取得突破,但后 R1 时代的到来,或许是 Web3 在 AI 领域迎来真正机遇的关键时刻。
Twitter: https://twitter.com/BitpushNewsCN
比推 TG 交流群: https://t.me/BitPushCommunity
比推 TG 订阅: https://t.me/bitpush
免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。
你也可能喜欢
DeepSeek爆红启示录:AI如何让DeFi走向主流
DOGE 难题:马斯克要裁员 10%,只有 1% 的美国「公务员」接受「买断」劝退
现在只有超过 2 万名员工、约占美国联邦政府劳动者总人数的 1% 签署了辞职协议,接受政府提供约八个月薪资补偿的所谓延期退休「买断计划」。