记录
该脚本目的结合公司大数据导数平台,实现每日将hive表中的数据同步至Clickhouse,使用Seatunnel实现导入
#!/bin/bash
set -x -e
mapping_name=$1
hive_partition=hive -e "show partitions rp_sdk_gapoi_mid.rp_barrack_${mapping_name}_device_info_yf" |tail -n 1 |awk -F '=' '{print $2}' | awk -F '/' '{print $1}'
ck_partition=date -d "${hive_partition}" +%Y-%m-%d
current_ck_partition=echo "SELECT max(day) FROM ga_barrack_mid.${mapping_name}_applist_full_v6 " | curl "http://ga_reader:WLPWkpYxidjB1Li9@10.90.45.39:8 123/?" --data-binary @-
work_home='/home/ops/seatunnel_work'
num_ck_partition=date -d "${ck_partition}" +%Y%m%d
num_current_ck_partition=date -d "${current_ck_partition}" +%Y%m%d
if [ $num_current_ck_partition -ge $num_ck_partition ]; then
echo "no new data,exit====="
exit 0
fi
echo "sync data : $hive_partition"
/opt/seatunnel/apache-seatunnel-incubating-2.1.3/bin/start-seatunnel-spark.sh
--master local[4]
--deploy-mode client
--config ${work_home}/config/yunjia/yunjia_${mapping_name}.conf
--variable hive_day=${hive_partition}
--variable ck_day=${ck_partition}
文章描述了一个bash脚本,用于自动化将Hive表中的数据每日同步到ClickHouse,利用Seatunnel连接,并检查新数据的存在,仅在有新数据时执行Spark任务。

1326

被折叠的 条评论
为什么被折叠?



