基于dolphinscheduler的增量数据同步至hive分区表

最新推荐文章于 2026-04-29 17:09:07 发布

原创

最新推荐文章于 2026-04-29 17:09:07 发布 · 6.2k 阅读

标签

#大数据 #hive #hdfs

本文介绍如何使用DolphinScheduler配合DataX实现增量数据同步至Hive分区表的过程。包括创建Hive分区表、通过Shell命令增加分区、DataX同步增量数据及创建定时任务等内容。

实战派 ESP32-S3，双模无线开发板

ESP32-S3 原生支持 ESP-IDF，WiFi + 蓝牙一次搞定

点击查看

基于dolphinscheduler的增量数据同步至hive分区表

前言
一、创建新的hive分区表
二、hive分区表创建好后需要增加分区，使用shell命令创建分区
三、datax同步增量数据只分区中
四、创建定时任务
总结

前言

本文主要介绍dolphinsccheduler集成datax以及hive后增量数据的集成问题

提示：以下是本篇文章正文内容，下面案例可供参考

一、创建新的hive分区表

1.外部分区表sql准备

示例：创建外部表

CREATE EXTERNAL TABLE `repair_bi`(
	`id` INT COMMENT 'id', 
	`product_order_id` STRING COMMENT '产品序列号', 
	`RMA_id` STRING COMMENT 'RMA单号')
 COMMENT 'This is the repair table'
 partitioned by(`statis_date` string)
 ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
 STORED AS TEXTFILE
 LOCATION 'hdfs://nncluster/hivedata/repairdata/repair/'