Galaxy Research：Decentralization人工智能训练架构、机遇与挑战

2025年9月17日 23:37

作者：LucasTcheyan、ArjunYenamandra，来源：GalaxyResearch，编译：金色财经简介

去年，GalaxyResearch发表了首篇关于Crypto与人工智能交叉领域的文章。文章探讨了Crypto无需信任和无需许可的基础设施如何成为人工智能创新的基础。其中包括：为应对图形处理器(GPU)短缺而兴起的处理能力（或称计算）去中心化市场的出现；零知识机器学习(zkML)早期在可验证的链上推理方面的应用；以及自主人工智能代理简化复杂交互并使用Crypto作为原生交换媒介的潜力。

当时，许多此类举措尚处于萌芽阶段，只是一些引人注目的概念验证，暗示着其相比中心化方案具有实际优势，但规模尚未扩大到足以重塑人工智能格局。然而，自那以后的一年里，去中心化人工智能在实现方面取得了有意义的进展。为了抓住这一势头并发掘最具前景的进展，GalaxyResearch将在未来一年发布一系列文章，深入探讨加密+人工智能前沿领域的特定垂直领域。

本文首发于去中心化训练，重点介绍致力于在全球范围内实现基础模型无许可训练的项目。这些项目的动机是双重的。从实践角度来看，他们认识到全球大量闲置的GPU可以用于模型训练，从而为世界各地的AI工程师提供原本难以承受的训练流程，并使开源AI开发成为现实。从理念角度来看，这些团队的动机在于领先的中心化AI实验室对我们这个时代最重要的技术革命之一的严格控制，以及创造开放替代方案的迫切需求。

更广泛地讲，对于加密领域而言，实现基础模型的去中心化训练和后续训练，是构建完全链上AI堆栈的关键一步，该堆栈无需许可，且在每一层均可访问。GPU市场可以接入模型，提供训练和推理所需的硬件。zkML提供商可用于验证模型输出并保护隐私。AI代理可以作为可组合的构建块，将模型、数据源和协议组合成更高阶的应用程序。

本报告探讨了去中心化人工智能协议的底层架构、其旨在解决的技术问题以及去中心化训练的前景。Crypto与人工智能的底层前提与一年前相比保持不变。Crypto为人工智能提供了一个无需许可、无需信任且可组合的价值转移结算层。现在的挑战是证明去中心化方法能够比中心化方法带来实际优势。模型训练基础

在深入了解去中心化训练的最新进展之前，有必要先对大型语言模型（LLM）及其底层架构有一个基本的了解。这将有助于读者理解这些项目的工作原理，以及它们试图解决的主要问题。 Transformer

大型语言模型(LLM)（例如ChatGPT）由一种称为Transformer的架构提供支持。Transformer最早在2017年谷歌的一篇论文中提出，是人工智能开发领域最重要的创新之一。简而言之，Transformer会提取数据（称为token），并应用各种机制来学习这些token之间的关系。

词条之间的关系使用权重进行建模。权重可以被认为是构成模型的数百万到数万亿个旋钮，它们不断被调整，直到能够一致地预测序列中的下一个词条。训练完成后，模型基本上可以捕捉人类语言背后的模式和含义。

Transformer训练的关键组成部分包括：

前向传递：在训练过程的第一步，Transformer会从更大的数据集中输入一批token。基于这些输入，模型会尝试预测下一个token应该是什么。在训练开始时，模型的权重是随机的。

损失计算：前向传播预测随后会用于计算损失分数，该分数衡量这些预测与输入模型的原始数据批次中实际标记的差距。换句话说，模型在前向传播过程中产生的预测与用于训练它的更大数据集中的实际标记相比如何？在训练过程中，目标是降低这个损失分数，以提高模型的准确性。

反向传播：然后使用损失分数计算每个权重的梯度。这些梯度告诉模型如何在下一次前向传播之前调整权重以减少损失。

Optimizer更新：Optimizer算法读取这些梯度并调整每个权重以减少损失。

重复：重复上述步骤，直到所有数据都已消耗并且模型开始达到收敛-换句话说，当进一步的优化不再产生显著的损失减少或性能改进时。训练（预训练和后训练）

完整的模型训练过程包含两个独立的步骤：预训练和后训练。上述步骤是预训练过程的核心组成部分。完成后，它们会生成一个预先训练的基础模型，通常称为基础模型。

然而，模型在预训练后通常需要进一步改进，这被称为后训练。后训练用于以各种方式进一步改进基础模型，包括提高其准确性或针对特定用例（例如翻译或医学诊断）进行定制。

后训练是让大型语言模型(LLM)成为如今强大工具的关键一步。后训练有几种不同的方法。其中最流行的两种是：

监督微调(SFT)： SFT与上述预训练过程非常相似。主要区别在于，基础模型基于更精心策划的数据集或提示和答案进行训练，因此它可以学习遵循特定指令或专注于某个领域。

强化学习(RL)： RL并非通过输入新数据来改进模型，而是通过对模型的输出进行奖励评分，并让模型更新权重以最大化该奖励。最近，推理模型（下文将介绍）已使用RL来改进其输出。近年来，随着预训练扩展问题不断涌现，在训练后使用RL和推理模型取得了重大进展，因为它无需额外数据或大量计算即可显著提升模型性能。

具体来说，RL后训练非常适合解决分散训练中面临的障碍（如下所述）。这是因为在RL中大多数时间，模型使用前向传递（模型进行预测但尚未改变自身）生成大量输出。这些前向传递不需要机器之间的协调或通信，并且可以异步完成。它们也是可并行的，这意味着它们可以分解为可在多个GPU上同时执行的独立子任务。这是因为每个rollout都可以独立计算，只需添加计算即可通过训练运行来扩大吞吐量。只有在选出最佳答案后，模型才会更新其内部权重，从而降低机器需要同步的频率。

模型训练完成后，使用它来生成输出的过程称为推理。与需要调整数百万甚至数十亿个权重的训练不同，推理会保持这些权重不变，并简单地将它们应用于新的输入。对于大型语言模型(LLM)来说，推理意味着获取一个提示，将其运行到模型的各个层，并一步一步地预测最可能的下一个标记。由于推理不需要反向传播（根据模型的误差调整权重的过程）或权重更新，因此它在计算方面的要求远低于训练，但由于现代模型的规模庞大，它仍然是资源密集型的。

简而言之：推理是聊天机器人、代码助手和翻译工具等应用程序的驱动力。在这个阶段，模型将其“学到的知识”付诸实践。训练开销

促进上述训练过程需要资源密集型，并且需要高度专业化的软件和硬件才能大规模运行。世界领先的人工智能实验室的投入已达到前所未有的水平，从数亿美元到数十亿美元不等。OpenAI首席执行官SamAltman表示，GPT-4的训练成本超过1亿美元，而Anthropic首席执行官DarioAmodei则表示，超过10亿美元的训练项目已在进行中。

这些成本的很大一部分来自GPU。像NVIDIA的H100或B200这样的顶级GPU，单价高达3万美元，据报道，OpenAI计划到2025年底部署超过一百万个GPU。然而，仅有GPU的强大功能是不够的。这些系统必须部署在配备超高速通信基础设施的高性能数据中心。NVIDIANVLink等技术支持服务器内GPU之间的快速数据交换，而InfiniBand则连接服务器集群，使它们能够作为单一、统一的计算结构运行。

NousResearc

背景

NousResearch成立于2022年，是一家开源AI研究机构。该团队最初是一个由开源AI研究人员和开发者组成的非正式团体，致力于解决开源AI代码的局限性。其使命是“创造并提供最佳的开源模型”。

团队很早就将去中心化训练视为主要障碍。具体来说，他们意识到，GPU的访问以及协调GPU之间通信的工具主要是为了迎合大型中心化AI公司而开发的，这使得资源受限的组织几乎没有空间参与到有意义的开发中。例如，NVIDIA最新的BlackwellGPU（例如B200）可以使用NVLink交换系统以高达每秒1.8TB的速度相互通信。这可与主流互联网基础设施的总带宽相媲美，并且只有在中心化、数据中心规模的部署中才能实现。因此，小型或分布式网络几乎不可能在不重新思考通信策略的情况下达到大型AI实验室的性能。

在着手解决去中心化训练问题之前，Nous已经为人工智能领域做出了重大贡献。2023年8月，Nous发表了《YaRN：大型语言模型的高效上下文窗口扩展》。这篇论文解决了一个简单但重要的问题：大多数人工智能模型一次只能记住和处理固定数量的文本（即它们的“上下文窗口”）。例如，一个以2,000字为限制进行训练的模型，如果输入的文档更长，很快就会开始忘记或丢失信息。YaRN引入了一种进一步扩展此限制的方法，而无需从头开始重新训练模型。它调整了模型跟踪单词位置的方式（就像书中的书签一样），这样即使文本长达数万字，它仍然可以跟踪信息流。该方法允许模型处理最多128,000个标记的序列——大约相当于马克·吐温的《哈克贝利·费恩历险记》的长度——同时使用的计算能力和训练数据比旧方法少得多。简而言之，YaRN使AI模型能够一次性“阅读”并理解更长的文档、对话或数据集。这是AI能力扩展的一大进步，并已被包括OpenAI和中国的Deepseek在内的更广泛的研究社区所采用。

DeMo和DisTro

2024年3月，Nous发表了一项分布式训练领域的突破性成果，名为“DecoupledMomentumOptimization”（DeMo）。DeMo由Nous研究人员BowenPeng和JeffreyQuesnelle与DiederikP.Kingma（OpenAI联合创始人兼AdamW优化器发明者）合作开发。它是Nous去中心化训练栈的主要构建模块，通过减少GPU之间交换的数据量，降低了分布式数据并行模型训练设置中的通信开销。在数据并行训练中，每个节点都保存模型权重的完整副本，但数据集会被拆分成由不同节点处理的块。

AdamW是模型训练中最常用的优化器之一。AdamW的一个关键功能是平滑所谓的动量（momentum），即模型权重过去变化的运行平均值。本质上，AdamW有助于消除数据并行训练过程中引入的噪声，从而提高训练效率。NousResearch基于AdamW和DeMo创建了一个全新的优化器，将动量拆分为本地部分和跨不同训练器的共享部分。这通过限制节点之间必须共享的数据量，减少了节点之间所需的通信量。

DeMO选择性地关注每个GPU迭代过程中变化最快的参数。其逻辑很简单：变化较大的参数对学习至关重要，应该在优先级更高的工作器之间同步。同时，变化较慢的参数可以暂时滞后，而不会显著影响收敛。实际上，这可以过滤掉噪声更新，同时保留最有意义的更新。Nous还采用了压缩技术，包括一种类似于JPEG压缩图像的离散余弦变换(DCT)方法，以进一步减少发送的数据量。通过仅同步最重要的更新，DeMO将通信开销降低了10倍到1,000倍（具体取决于模型大小）。

2024年6月，Nous团队推出了他们的第二项重大创新，即DistributedTrainingOptimizer（DisTro）。DeMo提供了核心的优化器创新，而DisTro则将其整合到一个更广泛的优化器框架中，该框架进一步压缩了GPU之间共享的信息，并解决了GPU同步、容错和负载平衡等问题。2024年12月，Nous利用DisTro在类似LlaMA的架构上训练了一个包含150亿个参数的模型，证明了该方法的可行性。

Psyche

今年五月，Nous发布了Psyche，这是一个用于协调去中心化训练的框架，在DeMO和DisTro优化器架构上进行了进一步的创新。Psyche的主要技术升级包括：通过允许GPU在开始下一步训练时发送模型更新，改进了异步训练。这最大限度地减少了空闲时间，并使GPU的利用率更接近集中式、紧密耦合的系统。Psyche还进一步改进了DisTro引入的压缩技术，将通信负载进一步缩小了3倍。

Psyche可以通过完全链上（通过Solana）或链下设置实现。它包含三个主要参与者：协调器、客户端和数据提供者。协调器存储所有必要的信息以促进训练运行，包括模型的最新状态、参与的客户端以及数据分配和输出验证。客户端是实际的GPU提供者，在训练运行期间执行训练任务。除了模型训练之外，它们还参与见证过程（如下所述）。数据提供者（客户端可以自行存储）提供训练所需的数据。

2025年5月，NousResearch启动了迄今为止规模最大的训练运行：Consilience，这是一个拥有400亿个参数的Transformer，正在Psyche去中心化训练网络中对约20万亿个token进行预训练。训练仍在进行中。到目前为止，运行基本平稳，但出现了一些损失峰值，表明优化轨迹短暂偏离了收敛。为此，团队回滚到最后一个健康检查点，并使用OLMo的Skip-Step保护措施对优化器进行封装，该保护措施会自动跳过任何损失或梯度范数与均值相差几个标准差的更新，从而降低未来出现损失峰值的风险。

Solana的角色

虽然Psyche可以在链下环境中运行，但它旨在在SolanaBlockchain上使用。Solana充当训练网络的信任和问责层，在链上记录客户承诺、见证人证明和训练元数据。这为每一轮训练创建了不可篡改的审计跟踪，从而能够透明地验证谁做出了贡献、完成了哪些工作以及是否通过了验证。

Nous还计划使用Solana来促进训练奖励的分配。尽管该项目尚未发布正式的Tokens经济学，但Psyche的文档概述了一个系统，其中协调员将跟踪客户的计算贡献并根据已验证的工作分配积分。然后，这些积分可以通过充当链上托管的财务智能合约兑换成Tokens。完成有效训练步骤的客户可以根据其贡献直接从该合约中领取奖励。Psyche尚未在训练运行中使用奖励机制，但一旦正式启动，该系统预计将在Nous加密Tokens的分配中发挥核心作用。

Hermes模型系列

除了这些研究贡献外，Nous还凭借其Hermes系列指令调优的大型语言模型(LLM)，确立了其领先的开源模型开发者地位。2024年8月，该团队推出了Hermes-3，这是一套基于Llama3.1进行微调的全参数模型套件，在公开排行榜上取得了颇具竞争力的成绩，尽管规模相对较小，却足以与规模更大的专有模型相媲美。

最近，Nous在2025年8月发布了Hermes-4模型系列，这是迄今为止最先进的模型系列。Hermes-4专注于提升模型的逐步推理能力，同时在常规指令执行方面也表现出色。它在数学、编程、理解和常识测试中均表现出色。团队秉承Nous的开源使命，公开发布了所有Hermes-4模型权重，供所有人使用和构建。此外，Nous还发布了一个名为NousChat的模型无障碍界面，并在发布后的第一周内免费开放。

Hermes模型的发布不仅巩固了Nous作为模型构建组织的信誉，也为其更广泛的研究议程提供了实践验证。Hermes的每一次发布都证明了尖端能力可以在开放环境中实现，为团队的去中心化训练突破（DeMo、DisTrO和Psyche）奠定了基础，并最终促成了雄心勃勃的Consilience40B运行。

Atropos

如上所述，由于推理模型的进步以及预训练的扩展限制，强化学习在后训练中发挥着越来越重要的作用。Atropos是Nous在去中心化环境下针对强化学习的解决方案。它是一个适用于LLM的即插即用模块化强化学习框架，可适应不同的推理后端、训练方法、数据集和强化学习环境。

当使用大量GPU以去中心化的方式进行强化学习后训练时，模型在训练过程中生成的即时输出将具有不同的完成时间。Atropos充当一个rollout处理器，即一个中央协调器，用于协调跨设备的任务生成和完成，从而实现异步强化学习训练。

Atropos的初始版本于4月发布，但目前仅包含一个协调强化学习任务的环境框架。Nous计划在未来几个月内发布补充的训练和推理框架。 PrimeIntellect

背景

PrimeIntellect成立于2024年，致力于构建大规模去中心化AI开发基础设施。该团队由VincentWeisser和JohannesHagemann共同创立，最初专注于整合来自中心化和去中心化提供商的计算资源，以支持高级AI模型的协作式分布式训练。PrimeIntellect的使命是实现AI开发的民主化，使全球的研究人员和开发者能够访问可扩展的计算资源，并共同拥有开放式AI创新。

OpenDiLoCo、INTELLECT-1和PRIME

2024年7月，PrimeIntellect发布了OpenDiLoCo，这是谷歌DeepMind为数据并行训练开发的低通信模型训练方法DiLoCo的开源版本。谷歌基于以下观点开发了该模型：“在现代规模下，通过标准反向传播进行训练带来了前所未有的工程和基础设施挑战……难以协调和紧密同步大量加速器。”虽然这种说法侧重于大规模训练的实用性，而非开源开发的精神，但它默认了长期集中式训练的局限性以及对分布式替代方案的需求。

DiLoCo减少了GPU之间在训练模型时共享信息的频率和数量。在集中式设置下，GPU会在训练的每个步骤后彼此共享所有更新后的梯度。而在DiLoCo中，更新梯度的共享频率较低，以减少通信开销。这创建了一个双重优化架构：各个GPU（或GPU集群）运行内部优化，在每一步后更新自身模型的权重；以及外部优化，内部优化在GPU之间共享，然后所有GPU都会根据所做的更改进行更新。

OpenDiLoCo在其初始版本中展示了90%至95%的GPU利用率，这意味着尽管分布在两大洲和三个国家，但几乎没有任何机器处于闲置状态。OpenDiLoCo能够重现相当的训练结果和性能，而通信量却减少了500倍（如下图紫色线追赶蓝色线所示）。

训练步骤中的活跃训练节点，展示了训练架构处理动态节点参与的能力

INTELLECT-1是对PrimeIntellect去中心化训练方法的重要验证，并获得了杰克·克拉克（Anthropic联合创始人）等人工智能思想领袖的称赞，被认为是去中心化训练的可行示范。

Protocol

今年2月，PrimeIntellect在其堆栈上又增添了一层，推出了Protocol。Protocol将PrimeIntellect的所有训练工具连接在一起，创建一个用于去中心化模型训练的点对点网络。其中包括：

计算交换GPU以促进训练运行。

PRIME训练框架减少了通信开销并提高了容错能力。

一个名为GENESYS的开源库，用于RL微调中有用的合成数据生成和验证。

一种名为TOPLOC的轻量级验证系统，用于验证模型执行和参与节点的输出。

Protocol 扮演的角色与Nous的Psyche类似，有四个主要参与者：

Workers：一种软件，使用户能够贡献他们的计算资源用于训练或其他PrimeIntellectAI相关产品。

验证者：验证计算贡献并防止恶意行为。PrimeIntellect正在努力将最先进的推理验证算法TOPLOC应用于去中心化训练。

编排器：计算池创建者管理工作器的一种方式。它的作用与Nous的编排器类似。

智能合约：追踪计算资源提供者，削减恶意参与者的质押，并自主支付奖励。目前，PrimeIntellect已在EthereumL2Base的Sepolia测试网上运行，但PrimeIntellect已表示最终计划迁移到自己的Blockchain上。

Intellect-2分布式强化学习训练础设施

对于INTELLECT-2，贡献者还需要质押测试网加密Tokens才能参与训练运行。如果他们贡献了有效的工作，将自动获得奖励。如果没有，他们的质押可能会被削减。虽然此次测试运行期间没有涉及任何实际资金，但这凸显了一些加密经济实验的初步形式。该领域还需要进行更多的实验，我们预计加密经济在安全性和激励机制方面的应用将有进一步的改变。除了INTELLECT-2之外，PrimeIntellect还在继续开展本报告未涵盖的几项重要计划，包括：

SYNTHETIC-2，用于生成和验证推理任务的下一代框架；

PrimeCollectiveCommunicationsLibrary，它实现了高效、容错的集体通信操作（例如通过IP进行缩减），并提供共享状态同步机制以保持对等点同步，并允许在训练期间的任何时候动态加入和离开对等点，以及自动带宽感知拓扑优化；

持续增强TOPLOC的功能，以实现可扩展、低成本的推理证明，从而验证模型输出；

基于INTELLECT2和SYNTHETIC1的经验教训，对PrimeIntellect协议和加密经济层进行改进 PluralisResearch

亚历山大·朗（AlexanderLong）是一位澳大利亚机器学习研究员，拥有新南威尔士大学的博士学位。他认为开源模型训练过度依赖领先的人工智能实验室为其他人提供基础模型进行训练。2023年4月，他创立了PluralisResearch，旨在开辟一条不同的道路。

PluralisResearch采用一种名为“协议学习”的方法来解决去中心化训练问题，该方法被描述为“低带宽、异构多参与者、模型并行的训练和推理”。Pluralis的一个主要显著特征是其经济模型，该模型为训练模型的贡献者提供类似股权的收益，以激励计算贡献并吸引顶级开源软件研究人员。该经济模型以“不可提取性”的核心属性为前提：即没有任何一个参与者能够获得完整的权重集，而这又与训练方法和模型并行性的使用息息相关。

模型并行性

Pluralis的训练架构利用了模型并行性，这与NousResearch和PrimeIntellect在初始训练运行中实施的数据并行方法不同。随着模型规模的增长，即使是H100机架（最先进的GPU配置之一）也难以承载完整的模型。模型并行性通过将单个模型的各个组件拆分到多个GPU上，为这一问题提供了一种解决方案。

模型并行化主要有三种方法。

流水线并行：模型的各层被划分到不同的GPU上。训练过程中，每个小批量数据都像流水线一样流经这些GPU。

张量（层内）并行性：不是为每个GPU提供整个层，而是将每个层内的繁重数学运算分开，以便多个GPU可以同时共享单个层的工作。

混合并行：在实践中，大型模型会混合使用各种方法，同时使用管道和张量并行，通常还会结合数据并行。

模型并行性是分布式训练的一个重要进步，因为它允许训练前沿规模的模型，使较低层级的硬件能够参与，并确保没有任何一个参与者可以访问全套模型权重。

ProtocolLearning和ProtocolModels

协议学习(ProtocolLearning)是Pluralis在去中心化训练环境中用于模型所有权和货币化的框架。Pluralis强调了构成协议学习框架的三个关键原则——去中心化、激励和去信任化。

Pluralis与其他项目的主要区别在于其对模型所有权的关注。鉴于模型的价值主要源于其权重，协议模型(ProtocolModels)尝试对模型的权重进行拆分，使模型训练过程中的任何单个参与者都无法拥有全部权重。最终，这将赋予训练模型的每个贡献者一定的所有权，从而分享模型产生的收益。

Templar去中心化训练架构

Templar迄今已启动三轮训练：TemplarI、TemplarII和TemplarIII。TemplarI是一个包含12亿个参数的模型，在全球部署了近200块GPU。TemplarII正在进行中，正在训练一个包含80亿个参数的模型，并计划很快启动更大规模的训练。Templar现阶段专注于训练参数较小的模型，这是经过深思熟虑的选择，旨在确保去中心化训练架构的升级（如上所述）在扩展到更大模型规模之前能够有效发挥作用。从优化策略和调度到研究迭代和激励机制，在参数较小的80亿个模型上验证这些想法，使团队能够快速且经济高效地进行迭代。继近期取得进展并正式发布训练架构后，团队于9月推出了TemplarIII，这是一个包含700亿个参数的模型，也是迄今为止去中心化领域规模最大的预训练运行。

TAO和激励机制

Templar的一个关键特色是其与TAO绑定的激励模型。奖励根据模型训练的技能加权贡献进行分配。大多数协议（例如Pluralis、Nous、PrimeIntellect）都已构建了许可运行或原型，而Templar则完全在Bittensor的实时网络上运行。这使得Templar成为唯一一个已将实时、无需许可的经济层集成到其去中心化训练框架中的协议。这种实时的生产部署使Templar能够在实时训练运行场景中迭代其基础设施。

每个Bittensor子网都使用其自己的“alpha”Tokens运行，该Tokens充当奖励机制和子网感知价值的市场信号。Templar的alphaTokens称为gamma。alphaTokens不能在外部市场上自由交易；它们只能通过其子网专用的流动性池，使用自动做市商(AMM)兑换TAO。用户可以质押TAO来获得gamma，也可以将gamma赎回为TAO，但不能直接将gamma兑换成其他子网的alphaTokens。Bittensor的动态TAO(dTAO)系统使用alphaTokens的市场价格来确定子网之间的发行分配。当gamma的价格相对于其他alphaTokens上涨时，这表明市场对Templar去中心化训练能力的信心增强，从而导致子网的TAO发行量增加。截至9月初，Templar的每日发行量约占TAO发行量的4%，在TAO网络的128个子网中排名前六。

子网的发行机制具体如下：在每个12秒的区块中，Bittensor链会根据子网alphaTokens相对于其他子网的价格比例，向其流动性池发行TAO和alphaTokens。每个区块最多向子网发行一个完整的alphaTokens（初始发行率，可能会减半），用于激励子网贡献者，其中41%分配给矿工，41%分配给验证者（及其质押者），18%分配给子网所有者。

这种激励机制通过将经济奖励与参与者提供的价值挂钩，推动对Bittensor网络的贡献。矿工有动力提供高质量的AI输出，例如模型训练或推理任务，从而获得验证者更高的评分，从而获得更大的产出份额。验证者（及其质押者）因准确评估和维护网络完整性而获得奖励。

AlphaTokens的市场估值由质押活动决定，确保表现出更高实用性的子网能够吸引更多TAO的流入和发行，从而营造一个鼓励创新、专业化和持续发展的竞争环境。子网所有者将获得一定比例的奖励，从而受到激励去设计有效的机制并吸引贡献者，最终构建一个无需许可的去中心化AI生态系统，让全球参与共同促进集体智慧的进步。

该机制还引入了新的激励挑战，例如保持验证者的诚实、抵御女巫攻击以及减少串谋。Bittensor子网经常受到验证者或矿工与子网创建者之间猫鼠游戏的困扰，前者试图玩弄系统，后者试图阻挠他们。从长远来看，随着子网所有者学会如何智胜恶意行为者，这些斗争应该会使该系统成为最强大的系统之一。 Gensyn

Gensyn于2022年2月发布了其首篇精简版白皮书，阐述了去中心化训练的框架（Gensyn是我们去年首篇关于理解加密技术与人工智能交集的文章中唯一涵盖的去中心化训练协议）。当时，该协议主要侧重于AI相关工作负载的验证，允许用户向网络提交训练请求，由计算提供商处理，并确保这些请求按承诺执行。

最初的愿景还强调了加速应用机器学习(ML)研究的必要性。2023年，Gensyn在此愿景的基础上，明确提出了在全球范围内获取机器学习计算资源的更广泛需求，以服务于特定AI应用。Gensyn引入了GHOSTLY原则作为此类协议必须满足的框架：通用性、异构性、开销、可扩展性、去信任性和延迟。Gensyn一直专注于构建计算基础设施，此次合作标志着其正式扩展至计算之外的其他关键资源。

Gensyn的核心将其训练技术栈分为四个不同的部分——执行、验证、通信和协调。执行部分负责处理世界上任何能够执行机器学习操作的设备上的操作。通信和协调部分使设备能够以标准化的方式相互发送信息。验证部分则确保所有操作无需信任即可进行计算。

执行—RLSwarm

Gensyn在这个堆栈中的第一个实现是一个名为RLSwarm的训练系统，这是一种用于训练后强化学习的分散协调机制。

RLSwarm旨在允许多个计算提供商在无需许可、信任最小化的环境中参与单个模型的训练。该协议基于一个三步循环：回答、评审和解决。首先，每个参与者根据提示生成模型输出（答案）。然后，其他参与者使用共享奖励函数评估该输出并提交反馈（评审）。最后，这些评审将用于选出最佳答案，并将其纳入模型的下一个版本（解决）。整个过程以点对点的方式进行，无需依赖中央服务器或可信机构。

Verde验证协议架构

今年8月，Gensyn发布了Judge，这是一个可验证的AI评估系统，包含两个核心组件：Verde和可复现的运行时，后者可保证跨硬件的逐位相同结果。为了展示它，Gensyn推出了一款“渐进式揭示游戏”，其中AI模型在信息揭示的过程中对复杂问题的答案进行押注，Judge会确定性地验证结果，并对准确的早期预测进行奖励。

Judge意义重大，因为它解决了AI/ML中的信任和可扩展性问题。它能够实现可靠的模型比较，在高风险环境下提升透明度，并通过允许独立验证来降低偏见或操纵的风险。除了推理任务之外，Judge还可以支持其他用例，例如去中心化争议解决和预测市场，这与Gensyn构建可信分布式AI计算基础设施的使命相契合。最终，像Judge这样的工具可以增强可重复性和可问责性，这在AI日益成为社会核心的时代至关重要。

沟通与协调：Skip-Pipe和多元化专家集成

Skip-Pipe是Gensyn针对单个巨型模型在多台机器上进行切片时出现的带宽瓶颈问题而提出的解决方案。如前所述，传统的流水线训练强制每个微批次按顺序遍历所有层，因此任何速度较慢的节点都会导致流水线停滞。Skip-Pipe的调度程序可以动态跳过或重新排序可能造成延迟的层，从而将迭代时间缩短高达55%，并且即使一半节点发生故障也能保持可用性。通过减少节点间流量并允许根据需要删除层，它使训练器能够将非常大的模型扩展到地理位置分散、带宽较低的GPU上。

多样化专家集成解决了另一个协调难题：如何构建一个强大的“混合专家”系统，避免持续的串扰。Gensyn的异构领域专家集成(HDEE)完全独立地训练每个专家模型，并仅在最后进行合并。出乎意料的是，在相同的总体计算预算下，最终集成在21个测试领域中的20个领域中超越了统一的基准。由于训练期间机器之间没有梯度或激活函数的流动，因此任何空闲的GPU都可以贡献计算能力。

Skip-Pipe和HDEE共同为Gensyn提供了高效的通信方案。该协议可以在必要时在单个模型内进行分片，或者在独立性成本更低的情况下并行训练多个小型专家，并且无需像传统方式那样对完美、低延迟的网络进行操作。

测试网

三月份，Gensyn在一个定制的Ethereumrollup上部署了测试网。团队计划逐步更新测试网。目前，用户可以参与Gensyn的三项产品：RLSwarm、BlockAssist和Judge。如上所述，RLSwarm允许用户参与RL训练后流程。八月，团队推出了BlockAssist，“这是辅助学习的第一个大规模演示，它是一种直接从人类行为中训练代理的方法，无需手动标记或RLHF”。用户可以下载Minecraft，并使用BlockAssist来训练Minecraft模型，从而畅玩游戏。

其他值得关注的项目

以上章节概述了为实现去中心化训练而实施的主流架构。然而，新的项目也层出不穷。以下是去中心化训练领域的一些新项目：

Fortytwo： Fortytwo构建于MonadBlockchain之上，专注于群体推理(SLM)，其中多个小型语言模型(SLM)在节点网络中协作处理查询并生成同行评审的输出，从而提高准确性和效率。该系统利用闲置笔记本电脑等消费级硬件，无需像集中式AI那样使用昂贵的GPU集群。该架构包含去中心化的推理执行和训练功能，例如为专用模型生成合成数据集。该项目已在Monad开发网络上线。

Ambient： Ambient是即将上线的“有用工作量证明”Layer -1Blockchain，旨在为链上始终在线、自主运行的AI代理提供支持，使其能够在无需中心化监管的无许可生态系统中持续执行任务、学习和演进。它将采用单一开源模型，该模型由网络矿工协作训练和改进，贡献者将因其在训练、构建和使用AI模型方面的贡献而获得奖励。虽然Ambient强调去中心化推理，尤其是在代理方面，但网络上的矿工也将负责持续更新支撑网络的基础模型。Ambient采用了一种新颖的p roof- o f-logits机制（在该系统中，验证者可以通过检查矿工的原始输出值（称为logits）来验证其是否正确运行了模型计算）。该项目基于Solana的一个分叉构建，尚未正式上线。

FlowerLabs： FlowerLabs正在开发一个用于联邦学习的开源框架Flower，该框架支持跨去中心化数据源进行协作式AI模型训练，无需共享原始数据，从而在聚合模型更新的同时保护隐私。Flower的成立旨在解决数据集中化问题，它允许机构和个人使用本地数据（例如医疗保健或金融领域）训练模型，同时通过安全的参数共享为全球改进做出贡献。与强调Tokens奖励和可验证计算的加密原生协议不同，Flower优先考虑在实际应用中保护隐私的协作，使其成为无需Blockchain的受监管行业的理想之选。

Macrocosmos： Macrocosmos在Bittensor网络上运行，正在开发涵盖五个子网的完整AI模型创建流程，这些子网专注于预训练、微调、数据收集和去中心化科学。它引入了激励编排训练架构(IOTA)框架，用于在异构、不可靠且无需许可的硬件上对大型语言模型进行预训练，并已启动超过10亿次参数训练，并计划很快扩展到更大的参数模型。

Flock.io：Flock是一个去中心化的AI训练生态系统，将联邦学习与Blockchain基础设施相结合，从而在一个模块化、Tokens激励的网络中实现隐私保护的协作模型开发。参与者可以贡献模型、数据或计算资源，并获得与其贡献成比例的链上奖励。为了保护数据隐私，该协议采用了联邦学习。这使得参与者能够使用未与他人共享的本地数据来训练全局模型。虽然这种设置需要额外的验证步骤，以防止无关数据（通常称为数据中毒）进入模型训练，但它对于医疗保健应用等用例来说是一个有效的推广方案，在这些应用中，多个医疗保健提供者可以在不泄露高度敏感的医疗数据的情况下训练全局模型。前景与风险

在过去的两年里，去中心化训练已经从一个有趣的概念转变为一个在实际环境中运行的有效网络。虽然这些项目距离预期的最终状态还很远，但在实现去中心化训练的道路上，它们正在取得有意义的进展。回顾现有的去中心化训练格局，一些趋势开始显现：

实时概念验证已不再是空想。在过去一年中，Nous的Consilience和PrimeIntellect的INTELLECT-2等早期验证已进入生产规模运行。OpenDiLoCo和ProtocolModels等突破性进展正在分布式网络上实现高性能AI，促进经济高效、弹性且透明的模型开发。这些网络正在协调数十个甚至数百个GPU，实时预训练和微调中型模型，证明了去中心化训练可以超越封闭式演示和临时黑客马拉松。虽然这些网络仍非无需许可的网络，但Templar在这方面脱颖而出；它的成功强化了这样一种观点：去中心化训练正在从简单地证明底层技术有效，发展到能够扩展以匹配中心化模型的性能，并吸引大规模生产基础模型所需的GPU资源。

模型规模不断扩大，但差距依然存在。从2024年到2025年，去中心化项目的参数模型数量从个位数跃升至300亿至400亿。然而，领先的人工智能实验室已经发布了数万亿参数的系统，并凭借其垂直整合的数据中心和最先进的硬件持续快速创新。去中心化训练能够利用来自世界各地的训练硬件，弥补这一差距，尤其是在中心化训练方法因需要越来越多的超大规模数据中心而面临越来越大的限制的情况下。但缩小这一差距将取决于高效通信的优化器和梯度压缩方面的进一步突破，以实现全球规模，以及不可操纵的激励和验证层。

训练后工作流程正日益成为关注的领域。监督式微调、RLHF和特定领域强化学习所需的同步带宽远低于全面的预训练。PRIME-RL和RLSwarm等框架已在不稳定的消费级节点上运行，让贡献者能够利用闲置的周期获利，同时项目也能快速将定制模型商业化。鉴于RL非常适合去中心化训练，它作为去中心化训练项目关注领域的重要性可能会日益凸显。这使得去中心化训练有可能率先在RL训练中找到规模化的产品市场契合点，越来越多的团队推出RL专用训练框架就证明了这一点。

激励和验证机制落后于技术创新。激励和验证机制仍然落后于技术创新。只有少数网络，尤其是Templar，提供实时Tokens奖励和链上罚没机制，从而有效地遏制不良行为，并已在实际环境中进行测试。尽管其他项目正在试验声誉评分、证人证明或训练证明方案，但这些系统仍未经验证。即使技术障碍得以克服，治理也将带来同样艰巨的挑战，因为去中心化网络必须找到制定规则、执行规则和解决争议的方法，而不会重复加密DAO中出现的低效现象。解决技术障碍只是第一步；长期生存能力取决于将其与可靠的验证机制、有效的治理机制以及引人注目的货币化/所有权结构相结合，以确保人们对所开展工作的信任，并吸引扩大规模所需的人才和资源。

堆栈正在融合成端到端的流水线。如今，大多数领先的团队都将带宽感知优化器（DeMo、DisTrO）、去中心化计算交换（PrimeCompute、Basilica）和链上协调层（Psyche、PM、PRIME）结合在一起。最终形成了一个模块化的开放流水线，它反映了中心化实验室从数据到部署的工作流程，只是没有单一的控制点。即使项目没有直接集成自己的解决方案，或者即使集成了，它们也可以接入其他专注于去中心化训练所需垂直领域的加密项目，例如数据供应协议、GPU和推理市场以及去中心化存储主干网。这种周边基础设施为去中心化训练项目提供了即插即用的组件，可以进一步利用这些组件来增强其产品，并更好地与中心化同行竞争。风险

硬件和软件优化是一个不断变化的目标——中央实验室也在不断拓展这一领域。Nvidia的BlackwellB200芯片刚刚公布，在MLPerf基准测试中，无论是4050亿个参数的预训练还是700亿个LoRA微调，其训练吞吐量都比上一代快了2.2到2.6倍，为巨头们大幅降低了时间和能源成本。在软件方面，PyTorch3.0和TensorFlow4.0引入了编译器级图融合和动态形状内核，从而在同一块芯片上进一步提升性能。随着硬件和软件优化的改进，或新的训练架构的出现，去中心化训练网络也必须跟上步伐，不断更新其堆栈，以适应最快、最先进的训练方法，从而吸引人才并激励有意义的模型开发。这将要求团队开发出能够确保持续高性能的软件（无论底层硬件如何），以及使这些网络能够适应底层训练架构变化的软件堆栈。

现有企业开源模型，模糊了去中心化和中心化训练之间的界限。中心化人工智能实验室大多保持模型封闭，这进一步证明了去中心化训练是保证开放性、透明度和社区治理的一种方式。尽管最近发布的DeepSeek、GPT开源版本和Llama等项目表明了其向更高开放性的转变，但在竞争、监管和安全担忧日益加剧的背景下，这种趋势能否持续尚不明朗。即使权重被公开，它们仍然反映了原始实验室的价值观和选择——独立训练的能力对于适应性、与不同优先事项的协调以及确保访问不受少数现有企业的限制至关重要。

人才招聘依然困难重重。许多团队都告诉我们这一点。虽然加入去中心化训练项目的人才质量有所提升，但他们缺乏领先人工智能实验室那样的雄厚资源（例如，OpenAI最近为每位员工提供数百万美元的“特别奖励”，或者Meta为挖角研究人员而提供的2.5亿美元报价）。目前，去中心化项目吸引的是那些重视开放性和独立性的使命驱动型研究人员，同时也能从更广泛的全球人才库和充满活力的开源社区中汲取人才。然而，为了在规模上竞争，他们必须通过训练出与现有企业相当的模型，并完善激励和货币化机制来证明自己，从而为贡献者创造有意义的收益。虽然无需许可的网络和加密经济激励措施提供了独特的价值，但无法获得分销并建立可持续的收入来源可能会阻碍该领域的长期增长。

监管阻力确实存在，尤其对于未经审查的模型而言。去中心化训练面临着独特的监管挑战：从设计上来说，任何人都可以训练任何类型的模型。这种开放性固然是优势，但也引发了安全隐患，尤其是在生物安全、虚假信息或其他敏感领域滥用方面。欧盟和美国的政策制定者已发出信号，表示将加强审查：欧盟《人工智能法案》对高风险的基础模型规定了额外义务，而美国机构正在考虑对开放系统进行限制，并可能采取出口式管控措施。单单涉及将去中心化模型用于有害目的的事件，就可能引发全面的监管，从而威胁到无需许可的训练的根本原则。

分发和货币化：分发仍然是一项重大挑战。包括OpenAI、Anthropic和Google在内的领先实验室，通过品牌知名度、企业合同、云平台集成以及直接接触消费者，拥有巨大的分发优势。相比之下，去中心化训练项目缺乏这些内置渠道，必须付出更多努力才能让模型被采用、获得信任并嵌入到实际工作流程中。鉴于Crypto在加密应用之外的整合仍处于萌芽阶段（尽管这种情况正在迅速改变），这可能会更具挑战性。一个非常重要且尚未解决的问题是，谁将真正使用这些去中心化训练模型。高质量的开源模型已经存在，一旦新的先进模型发布，其他人提取或调整它们并不特别困难。随着时间的推移，去中心化训练项目的开源性质应该会产生网络效应，从而解决分发问题。然而，即使他们能够解决分发问题，团队也将面临产品货币化的挑战。目前，Pluralis的项目经理似乎最直接地应对这些货币化挑战。这不仅仅是一个加密xAI问题，而是一个更广泛的加密问题，凸显了未来的挑战。结论

去中心化训练已迅速从一个抽象概念演变为协调全球实际训练运行的有效网络。过去一年，包括Nous、PrimeIntellect、Pluralis、Templar和Gensyn在内的项目已经证明，将去中心化GPU连接在一起、高效压缩通信，甚至开始在实际环境中试验激励机制是可能的。这些早期演示证明了去中心化训练可以超越理论，尽管在前沿规模上与中心化实验室竞争的道路仍然艰难。

即使去中心化项目最终训练出的基础模型足以与当今领先的人工智能实验室相媲美，它们也面临着最严峻的考验：证明其在理念诉求之外的现实优势。这些优势可能通过卓越的架构或奖励贡献者的全新所有权和货币化方案内生显现。或者，如果中心化现有参与者试图通过保持权重封闭或注入不受欢迎的对齐偏差来扼杀创新，这些优势也可能外生显现。

除了技术进步之外，人们对该领域的态度也开始转变。一位创始人这样描述过去一年主要人工智能会议上人们情绪的变化：一年前，人们对去中心化训练几乎没有兴趣，尤其是与Crypto结合使用时；六个月前，与会者开始认识到潜在的问题，但对大规模实施的可行性表示怀疑；而近几个月来，人们越来越认识到，持续的进步可以使可扩展的去中心化训练成为可能。这种观念的演变表明，不仅在技术领域，而且在合法性方面，去中心化训练的势头也在增强。

风险是真实存在的：现有企业仍保持着硬件、人才和分销优势；监管审查迫在眉睫；激励和治理机制仍未得到大规模检验。然而，其优势也同样引人注目。去中心化训练不仅代表着一种替代的技术架构，更代表着一种构建人工智能的根本性理念：无需许可、全球所有，并与多元化社区而非少数几家公司保持一致。即使只有一个项目能够证明开放性能够转化为更快的迭代、新颖的架构或更具包容性的治理，这也将标志着Crypto和人工智能的突破性时刻。未来的道路漫长，但成功的核心要素如今已牢牢掌握。