Clickhouse分布式表引擎（Distributed）写入核心原理解析

文章详细解析了Clickhouse的Distributed表引擎在数据写入时的核心流程，包括数据如何分片、如何路由到各节点以及分布式写入的异步与同步模式。此外，还探讨了副本复制的两种方式，一是Distributed表引擎同时负责分片和副本，二是利用ReplicatedMergeTree引擎进行内部复制，减轻Distributed表的压力。在大规模数据写入时，直接写本地表可能是更好的选择，以避免单点瓶颈和网络拥塞问题。

Clickhouse分布式表引擎（Distributed）写入核心原理解析

Distributed表引擎是分布式表的代名词，它自身不存储任何数据，而是作为数据分片的透明代理，能够自动路由数据至集群中的各个节点，所以Distributed表引擎需要和其他数据表引擎一起协同工作。

从实体表层面来看，一张分片表由两部分组成：

本地表：通常以_local为后缀进行命名。本地表是承载数据的载体，可以使用非Distributed的任意表引擎，一张本地表对应了一个数据分片。
分布式表：通常以_dist为后缀进行命名。分布式表只能使用Distributed表引擎，它与本地表形成一对多的映射关系，日后将通过分布式表代理操作多张本地表。

对于分布式表与本地表之间表结构的一致性检查，Distributed表引擎采用了读时检查的机制，这意味着如果它们的表结构不兼容，只有在查询时才会抛出错误，而在创建表时并不会进行检查。

定义形式

Distributed表引擎的定义形式如下所示：

ENGINE = Distributed(cluster, database, table, [,sharding_key])

其中，各个参数的含义分别如下：

cluster：集群名称，与集群配置中的自定义名称相对应。在对分布式表执行写入和查询的过程中，它会使用集群的配置信息来找到相应的host节点。
database和table：分别对应数据库和表的名称，分布式表使用这组配置映射到本地表。
sharding_key：分片键，选填参数。在数据写入的过程中，分布式表会依据分片键的规则，将数据分布到各个host节点的本地表。

比如如下分布式表：

CREATE TABLE test_shard_dist on cluster ch_cluster(
    `id` Int8
) ENGINE=Distributed('ch_cluster', 'test', 'test_shard_local', rand());