需求:按条件筛选Hive表中的数据同步到ClickHouse中
方法一:
按照ClickHouse 官方文档提供的方法,在ClickHouse 中创建HDFS引擎表,读取Hive的数据,将读取的数据插入到ClickHouse本地表中。
缺点:
1.需要在clickhouse中创建两张表
2.如果Hadoop集群压力比较大,在读取HDFS数据的时候会出现超时的情况
方法二:
将Hive中的数据导出为csv格式后,加载到clickhouse中。
缺点
1.数据量大的时候导出时间比较长
方法三:
在能直接读取HDFS数据的主机上安装clickhouse-client,读取HDFS数据后直接插入ClickHouse。
#!/bin/bash
#######################################
# 功能:同步hdfs数据到clickhouse
# usage:sh shell_name table_name
#######################################
current_dir=

本文探讨了三种将Hive表数据同步到ClickHouse的方法:通过HDFS引擎表、导出CSV文件和使用clickhouse-client直接插入。每种方法都有其优缺点,如HDFS引擎表可能因Hadoop集群压力导致超时,CSV导出适合小数据量但效率低,clickhouse-client方式则依赖于直接读取HDFS数据的主机。选择合适的数据同步策略需根据实际场景权衡。

2103

被折叠的 条评论
为什么被折叠?



