Hive 数据同步ClickHouse

原创

已于 2022-02-09 18:10:08 修改 · 8k 阅读

标签

#hive #hadoop #hdfs

收录于

于 2022-02-09 18:06:10 首次发布

本文探讨了三种将Hive表数据同步到ClickHouse的方法：通过HDFS引擎表、导出CSV文件和使用clickhouse-client直接插入。每种方法都有其优缺点，如HDFS引擎表可能因Hadoop集群压力导致超时，CSV导出适合小数据量但效率低，clickhouse-client方式则依赖于直接读取HDFS数据的主机。选择合适的数据同步策略需根据实际场景权衡。

需求：按条件筛选Hive表中的数据同步到ClickHouse中

方法一：
按照ClickHouse 官方文档提供的方法，在ClickHouse 中创建HDFS引擎表，读取Hive的数据，将读取的数据插入到ClickHouse本地表中。

缺点：
1.需要在clickhouse中创建两张表
2.如果Hadoop集群压力比较大，在读取HDFS数据的时候会出现超时的情况

方法二：
将Hive中的数据导出为csv格式后，加载到clickhouse中。

缺点
1.数据量大的时候导出时间比较长

方法三：
在能直接读取HDFS数据的主机上安装clickhouse-client，读取HDFS数据后直接插入ClickHouse。

#!/bin/bash
#######################################
#  功能：同步hdfs数据到clickhouse
#  usage：sh  shell_name  table_name
#######################################

current_dir=