读取、索引到分析简述Web3数据索引赛道

2024年9月17日 22:58

1引言

从2017年的第一波dAppEtheroll、ETHLend与CryptoKitties开始，到如今各式各样基于不同Blockchain的金融、游戏与社交dApp百花齐放，当我们谈论Decentralization的链上应用时，是否曾思考过这些dApp在交互中所采纳的各类数据的源头？

2024年，热点聚焦于AI与Web3，在人工智能的世界里，数据就像是其成长与进化的生命源泉。正如植物依赖阳光和水分才能茁壮成长，AI系统同样依赖海量的数据来不断「学习」和「思考」。没有数据，AI的算法再精妙也不过是空中楼阁，无法发挥其应有的智能与效能。

本文从Blockchain数据可访问性（DataAccessibility）的角度，深入分析了行业发展过程中Blockchain数据索引的演变，并对比了老牌数据索引协议TheGraph与新兴的Blockchain数据服务协议Chainbase和SpaceandTime，特别探讨了这两个结合AI技术的新晋协议在数据服务与产品架构特色的异同。2数据索引的繁与简：从BlockchainNode到全链数据库

2.1数据源头：BlockchainNode

从一开始了解「Blockchain是什么」时，我们就常看到这样一句话：Blockchain是Decentralization的记账本。BlockchainNode是整个Blockchain网络的基础，承担着记录、存储和传播链上所有交易数据的责任。每个Node都拥有一份完整的Blockchain数据副本，确保网络的Decentralization特性得以维持。然而，对于普通用户来说，自建和维护一个BlockchainNode并非易事。这不仅需要专业的技术能力，还伴随着高昂的硬件和带宽成本。同时，普通的Node查询能力也有限，无法以开发人员需要的格式查询数据。因此，尽管理论上每个人都可以运行自己的Node，但实际操作中，用户通常更倾向于依赖第三方服务。

为了解决这一问题，RPC（远程过程调用）Node提供商应运而生。这些提供商负责Node的成本和管理，并通过RPC端点提供数据。使得用户可以无需自建Node，便可轻松访问Blockchain数据。公共RPC端点是免费的，但有速率限制，可能会对dApp的用户体验产生负面影响。私有RPC端点通过减少拥塞提供更好的性能，但即使是简单的数据检索也需要大量的来回通信。这使得它们请求繁重，对于复杂的数据查询效率低下。此外，私有RPC端点通常难以扩展，并且缺乏跨不同网络的兼容性。但Node提供商标准化的API接口给予了用户访问链上的数据更低的门槛，为后续的数据解析和应用打下了基础。

2.2数据解析：从原型数据到可用数据

从BlockchainNode获取的数据往往是经过加密和编码处理的原始数据。这些数据虽然保留了Blockchain的完整性和安全性，但其复杂性也增加了数据解析的难度。对于普通用户或者开发者来说，直接处理这些原型数据需要大量的技术知识和计算资源。

数据解析的过程在这一背景下显得尤为重要。通过将复杂的原型数据进行解析，转换为更易理解和操作的格式，用户可以更直观地理解和利用这些数据。数据解析的成功与否直接决定了Blockchain数据应用的效率和效果，是整个数据索引流程中的关键一步。

2.3数据索引器的演进

随着Blockchain数据量的增加，数据索引器的需求也日益增加。索引器在组织链上数据并将其发送到数据库以便于查询方面起着至关重要的作用。索引器的工作原理是索引Blockchain数据并通过类似于SQL的查询语言（GraphQL等API）使其随时可用。通过提供查询数据的统一界面，索引器允许开发人员使用标准化查询语言快速准确地检索所需的信息，从而大大简化了流程。

不同类型的索引器通过各种方式优化数据检索：

完整Node索引器：这些索引器运行完整的BlockchainNode并直接从中提取数据，确保数据完整准确，但需要大量的存储和处理能力。

轻量级索引器：这些索引器依靠完整Node根据需要获取特定数据，从而减少存储要求但可能会增加查询时间。

专用索引器：这些索引器专门针对某些类型的数据或特定的Blockchain，可优化特定用例的检索，例如NFT数据或DeFi交易。

聚合索引器：这些索引器从多个Blockchain和来源提取数据，包括链下信息，提供统一的查询界面，这对于多链dApp特别有用。

目前，Ethereum档案Node（ArchiveNode）在Geth客户端中的存档模式占用了约13.5TB的存储空间，而在Erigon客户端下，存档需求约为3TB。随着Blockchain的不断增长，档案Node的数据存储量也会随之增加。面对如此庞大的数据量，主流索引器协议不仅支持多链索引，还针对不同应用的数据需求，定制了数据解析框架。例如，TheGraph的「子图」（Subgraph）框架就是一个典型案例。

索引器的出现大大提升了数据的索引和查询效率。与传统的RPC端点相比，索引器可以高效地索引大量数据，并支持高速查询。这些索引器允许用户执行复杂的查询，轻松过滤数据，并在提取后进行分析。此外，一些索引器还支持聚合来自多个Blockchain的数据源，避免在多链dApp中需要部署多个API的问题。通过在多个Node上分布式运行，索引器不仅提供了更强的安全性和性能，也减少了集中式RPC提供商可能带来的中断和停机风险。

相比之下，索引器通过预先定义的查询语言，使得用户可以在无需处理底层复杂数据的情况下，直接获取所需信息。这种机制显著提高了数据检索的效率和可靠性，是Blockchain数据访问的重要创新。

2.4全链数据库：向流优先对齐

使用索引Node查询数据通常意味着API成为消化链上数据唯一门户。然而，当一个项目进入扩展阶段时，往往需要更灵活的数据源，而这是标准化的API无法提供的。随着应用需求的复杂化，初级数据索引器与其标准化的索引格式逐渐难以满足越来越多样化的查询需求，例如搜索、跨链访问或链下数据映射。

读取，索引到分析，简述Web3数据索引赛道

这些服务旨在解决对Blockchain交易进行实时解析和提供更全面查询能力的需求。正如「流优先」架构通过降低延迟和增强响应能力，革新了传统数据管道中的数据处理和消费方式一样，这些Blockchain数据流服务商也希望通过更先进且成熟的数据源，支持更多应用程序的发展并辅助链上数据分析。

通过现代数据管道的视角重新定义链上数据的挑战，我们得以从全新的角度看待链上数据的管理、存储和提供的全部潜力。当我们开始将子图和EthereumETL等索引器视为数据管道中的数据流而非最终输出时，便可以设想一个能够为任何业务用例量身定制高性能数据集的可能世界。3AI+Database?深入对比TheGraph,Chainbase,SpaceandTime

3.1TheGraph

TheGraph网络通过一个Decentralization的Node网络来实现多链数据索引和查询服务，促进开发者便捷地索引Blockchain数据并构建Decentralization应用。其主要的产品模式为数据查询执行市场和数据索引缓存的市场，这两个市场本质都是服务于用户的产品查询需求，其中数据查询执行市场具体指消费者为所需的数据选择合适的提供数据的索引Node付费，数据索引缓存的市场则是索引Node依据子图的历史索引热度、收取的查询费、链上策展人对子图输出的需求调动资源分配的市场。

子图（Subgraphs）是TheGraph网络中的基础数据结构。它们定义了如何从Blockchain中提取并转换数据为可查询的格式（例如GraphQL模式）。任何人都可以创建子图，且多个应用可以重复使用这些子图，这提升了数据可复用性和使用效率。

TheGraph网络由四个关键角色构成：索引器、策展人、委托人和开发者，他们共同为web3应用提供数据支持。以下是他们各自的职责：

索引器（Indexer）：索引器是TheGraph网络中的Node运营商，索引节通过质押GRT（TheGraph的原生Tokens）参与网络，提供索引和查询处理服务。

委托者（Delegator）：委托者是那些将GRTTokens质押给索引Node以支持其运营的用户。委托者通过他们所委托的索引Node赚取部分奖励。

策展人（Curator）：策展人负责信号哪些子图应该被网络索引。策展人帮助确保有价值的子图被优先处理。

开发者（Developer）：与前三者作为供应方不同，开发者是需求方，是TheGraph的主要用户。他们创建并提交子图至TheGraph网络，等待网络满足需求数据。

读取，索引到分析，简述Web3数据索引赛道

索引Node奖励：索引Node通过消费者的查询费用和部分GRTTokens区块奖励来赚取收益。

委托者奖励：委托者通过他们所支持的索引Node获得部分奖励。

策展人奖励：如果策展人信号了有价值的子图，他们可以从查询费用中获得部分奖励。

事实上，TheGraph的产品也在AI浪潮中迅速发展。作为TheGraph生态系统的核心开发团队之一，SemioticLabs一直致力于利用AI技术优化索引定价和用户查询体验。当前，SemioticLabs开发的AutoAgora、AllocationOptimizer和AgentC工具分别在多个方面提升了生态系统的性能。

AutoAgora引入动态定价机制，基于查询量和资源使用情况实时调整价格，优化定价策略，确保索引器的竞争力和收入最大化。

AllocationOptimizer解决了子图资源分配的复杂问题，帮助索引器实现资源的最佳配置，以提升收入和性能。

AgentC是一个实验性工具，允许用户通过自然语言访问TheGraph的Blockchain数据，从而提升用户体验。

这些工具的应用使得TheGraph结合AI辅助进一步提升了系统的智能化和用户友好度。

3.2Chainbase

Chainbase是一个全链数据网络，将所有Blockchain数据整合到一个平台，方便开发者更轻松地构建和维护应用程序。它的独特功能包括：

实时数据湖：Chainbase提供了一个专门用于Blockchain数据流的实时数据湖，使得数据在生成时即可被即时访问。

双链架构：Chainbase基于EigenlayerAVS构建了一个执行层，与CometBFT的共识算法形成并行的双链架构。这种设计增强了跨链数据的可编程性和可组合性，支持高吞吐量、低延迟和最终性，并通过双重质押模型提升了网络安全性。

创新数据格式标准：Chainbase引入了一种名为「manuscripts」的全新数据格式标准，优化了加密行业中数据的结构化和利用方式。

加密世界模型：凭借其庞大的Blockchain数据资源，Chainbase结合AI模型技术，打造了能够有效理解、预测Blockchain交易并与之交互的AI模型。目前已推出基础版模型Theia，供公众使用。

读取，索引到分析，简述Web3数据索引赛道

Chainbase的AI模型Theia是其区别于其他数据服务协议的关键亮点。Theia基于NVIDIA开发的DORA模型，结合链上和链下数据以及时空活动，学习并分析加密模式，并通过因果推理做出响应，从而深入挖掘链上数据的潜在价值和规律，为用户提供更加智能化的数据服务。

AI赋能的数据服务使Chainbase不再仅仅是一个Blockchain数据服务平台，而成为一个更具竞争力的智能化数据服务商。通过强大的数据资源和AI的主动分析，Chainbase能够提供更广泛的数据洞察，并优化用户的数据处理过程。

3.3SpaceandTime

SpaceandTime(SxT)意在打造可验证的计算层，在Decentralization数据仓库上扩展零知识证明，从而为智能合约、大语言模型和企业提供可信的数据处理。目前SpaceandTime已获得2000万美元最新一轮的A轮融资，由FrameworkVentures、LightspeedFaction、ArringtonCapital和HivemindCapital领投。

在数据索引和验证领域，SpaceandTime引入了一种全新的技术路径——ProofofSQL。这是SpaceandTime开发的一种创新零知识证明（ZKP）技术，确保在Decentralization数据仓库上执行的SQL查询是防篡改的和可验证的。当运行查询时，ProofofSQL会生成一个加密证明，验证查询结果的完整性和准确性。这个证明附加在查询结果上，使任何验证者（如智能合约等）都可以独立确认数据在处理过程中未被篡改。传统的Blockchain网络通常依赖共识机制来验证数据的真实性，而SpaceandTime的ProofofSQL实现了一种更为高效的数据验证方式。具体来说，在SpaceandTime的系统中，一个Node负责数据的获取，而其他Node则通过zk技术验证该数据的真实性。这种方式改变了共识机制下多个Node重复索引相同数据的到最终达成共识获取数据的资源损耗，提升了系统的整体性能。随着这项技术的成熟，它为着重数据可靠性的一系列传统行业使用Blockchain上数据构造产品打造了落脚石。

读取，索引到分析，简述Web3数据索引赛道

3.4差异对比

读取，索引到分析，简述Web3数据索引赛道结论与展望

综上所述，Blockchain数据索引技术从最初的Node数据源头，经过数据解析和索引器的发展，最终演进到AI赋能的全链数据服务，经历了一个逐步完善的过程。这些技术的不断演进，不仅提高了数据访问的效率和准确性，还为用户带来了前所未有的智能化体验。

展望未来，随着AI技术和零知识证明等新技术的不断发展，Blockchain数据服务将进一步智能化和安全化。我们有理由相信，Blockchain数据服务将在未来作为基础设施继续发挥重要作用，为行业的进步和创新提供有力支持。