Clickhouse分布式表引擎(Distributed)写入核心原理解析

文章详细解析了Clickhouse的Distributed表引擎在数据写入时的核心流程,包括数据如何分片、如何路由到各节点以及分布式写入的异步与同步模式。此外,还探讨了副本复制的两种方式,一是Distributed表引擎同时负责分片和副本,二是利用ReplicatedMergeTree引擎进行内部复制,减轻Distributed表的压力。在大规模数据写入时,直接写本地表可能是更好的选择,以避免单点瓶颈和网络拥塞问题。

Clickhouse分布式表引擎(Distributed)写入核心原理解析

Distributed表引擎是分布式表的代名词,它自身不存储任何数据,而是作为数据分片的透明代理,能够自动路由数据至集群中的各个节点,所以Distributed表引擎需要和其他数据表引擎一起协同工作。

从实体表层面来看,一张分片表由两部分组成:

  • 本地表:通常以_local为后缀进行命名。本地表是承载数据的载体,可以使用非Distributed的任意表引擎,一张本地表对应了一个数据分片。
  • 分布式表:通常以_dist为后缀进行命名。分布式表只能使用Distributed表引擎,它与本地表形成一对多的映射关系,日后将通过分布式表代理操作多张本地表。

对于分布式表与本地表之间表结构的一致性检查,Distributed表引擎采用了读时检查的机制,这意味着如果它们的表结构不兼容,只有在查询时才会抛出错误,而在创建表时并不会进行检查。

定义形式

Distributed表引擎的定义形式如下所示:

ENGINE = Distributed(cluster, database, table, [,sharding_key])

其中,各个参数的含义分别如下:

  • cluster:集群名称,与集群配置中的自定义名称相对应。在对分布式表执行写入和查询的过程中,它会使用集群的配置信息来找到相应的host节点。
  • database和table:分别对应数据库和表的名称,分布式表使用这组配置映射到本地表。
  • sharding_key:分片键,选填参数。在数据写入的过程中,分布式表会依据分片键的规则,将数据分布到各个host节点的本地表。

比如如下分布式表:

CREATE TABLE test_shard_dist on cluster ch_cluster(
    `id` Int8
) ENGINE=Distributed('ch_cluster', 'test', 'test_shard_local', rand());
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JermeryBesian

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值