Clickhouse分布式表引擎(Distributed)写入核心原理解析
Distributed表引擎是分布式表的代名词,它自身不存储任何数据,而是作为数据分片的透明代理,能够自动路由数据至集群中的各个节点,所以Distributed表引擎需要和其他数据表引擎一起协同工作。
从实体表层面来看,一张分片表由两部分组成:
- 本地表:通常以_local为后缀进行命名。本地表是承载数据的载体,可以使用非Distributed的任意表引擎,一张本地表对应了一个数据分片。
- 分布式表:通常以_dist为后缀进行命名。分布式表只能使用Distributed表引擎,它与本地表形成一对多的映射关系,日后将通过分布式表代理操作多张本地表。
对于分布式表与本地表之间表结构的一致性检查,Distributed表引擎采用了读时检查的机制,这意味着如果它们的表结构不兼容,只有在查询时才会抛出错误,而在创建表时并不会进行检查。
定义形式
Distributed表引擎的定义形式如下所示:
ENGINE = Distributed(cluster, database, table, [,sharding_key])
其中,各个参数的含义分别如下:
- cluster:集群名称,与集群配置中的自定义名称相对应。在对分布式表执行写入和查询的过程中,它会使用集群的配置信息来找到相应的host节点。
- database和table:分别对应数据库和表的名称,分布式表使用这组配置映射到本地表。
- sharding_key:分片键,选填参数。在数据写入的过程中,分布式表会依据分片键的规则,将数据分布到各个host节点的本地表。
比如如下分布式表:
CREATE TABLE test_shard_dist on cluster ch_cluster(
`id` Int8
) ENGINE=Distributed('ch_cluster', 'test', 'test_shard_local', rand());

文章详细解析了Clickhouse的Distributed表引擎在数据写入时的核心流程,包括数据如何分片、如何路由到各节点以及分布式写入的异步与同步模式。此外,还探讨了副本复制的两种方式,一是Distributed表引擎同时负责分片和副本,二是利用ReplicatedMergeTree引擎进行内部复制,减轻Distributed表的压力。在大规模数据写入时,直接写本地表可能是更好的选择,以避免单点瓶颈和网络拥塞问题。
写入核心原理解析&spm=1001.2101.3001.5002&articleId=129978693&d=1&t=3&u=ed05db5e16494177854d05b3393fd143)

被折叠的 条评论
为什么被折叠?



