Flink SQL实战：5分钟搞定ClickHouse数据实时同步（附完整配置代码）

最新推荐文章于 2026-06-23 10:47:53 发布

原创

最新推荐文章于 2026-06-23 10:47:53 发布 · 54 阅读

标签

#Flink #ClickHouse #数据同步 #实时计算

Flink SQL实战：5分钟搞定ClickHouse数据实时同步（附完整配置代码）

最近在几个实时数仓项目里，我频繁地需要把Flink处理完的流数据快速灌进ClickHouse做实时分析。一开始我也试过自己写JDBC Sink，但很快就遇到了写入性能瓶颈、连接管理复杂、Exactly-Once语义难保证这些头疼问题。后来发现社区有个专门为Flink SQL设计的ClickHouse连接器，用起来简直像打开了新世界的大门——配置简单，性能稳定，最关键的是，它把那些底层的脏活累活都封装好了。今天我就把自己在项目里趟过的路、踩过的坑，以及最终稳定运行的配置方案，整理成这篇实战指南。如果你也在找一种快速、可靠的方式把Flink和ClickHouse打通，这篇文章应该能帮你省下不少折腾的时间。

1. 环境准备与依赖引入

在开始写SQL之前，我们得先把“武器”准备好。这个连接器目前还没有发布到Maven中央仓库，所以第一步需要我们自己从源码构建。别担心，过程很简单。

首先，打开终端，克隆项目仓库并切换到与你Flink版本匹配的分支。我用的Flink 1.16，所以对应地检出flink-1.16分支。

git clone https://github.com/itinycheng/flink-connector-clickhouse.git
cd flink-connector-clickhouse/
git checkout flink-1.16

接着，执行Maven命令进行本地安装。这里我强烈建议加上-DskipTests参数跳过测试，能节省大量时间，毕竟我们的目标是快速验证功能。

mvn clean install -DskipTests

构建成功后，在你的Flink项目pom.xml文件中添加依赖。版本号注意使用SNAPSHOT后缀。

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-clickhouse</artifactId>
    <version>1.16.0-SNAPSHOT</version>
</dependency>

注意：如果你是在生产环境的集群上使用，需要将这个连接器的JAR包及其所有依赖（可以通过mvn dependency:copy-dependencies获取）放到Flink集群每个节点的lib目录下，或者通过-C参数在提交作业时指定。

依赖搞定后，我们还需要一个正在运行的ClickHouse实例。你可以用Docker快速拉起一个单机版用于测试：

docker run -d --name some-clickhouse-server -p 8123:8123 -p 9000:9000 clickhouse/clickhouse-server:latest

确保你能通过jdbc:ch://localhost:8123这个地址连接到ClickHouse。准备工作到此结束，接下来我们进入核心的配置环节。

2. 核心配置解析与调优实战

连接器的强大之处在于它提供了丰富的配置项，但面对这么多参数，怎么组合才能达到最佳性能？我结合几次压测的结果，总结出了一套针对不同场景的配置策略。我们先从最基础的建表语句看起。

一个最简化的Flink SQL建表语句如下，它定义了一个到ClickHouse表user_actions的映射：

CREATE TABLE ch_sink_user_actions (
    `user_id` BIGINT,
    `action_time` TIMESTAMP(3),
    `page_url` STRING,
    `device_type` STRING,
    PRIMARY KEY (`user_id`) NOT ENFORCED
) WITH (
    'connector' = 'clickhouse',
    'url' = 'jdbc:ch://192.168.1.100:8

最低0.47元/天解锁文章