DataX 数据脱敏平台
开发与实验 中国大陆 谨慎参考 单机 并发
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
以星型结构进行数据传输。
环境搭建
软件和环境一览
DataX 主机: Ubuntu 16.04 1Ghz CPU 1GB RAM
openjdk version “1.8.0_162”
DataX
数据接收主机: Ubuntu 16.04 1Ghz CPU 1GB RAM
openjdk version “1.8.0_162”
sudo apt-get install openjdk-8-jdk
apache-hive-1.2.2
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/stable/apache-hive-1.2.2-bin.tar.gz
tar -zxvf apache-hive-1.2.2-bin.tar.gz
hadoop-2.9.0
wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz
tar -zxvf hadoop-2.9.0.tar.gzMySQL Server 5.7.21
sudo apt-get install mysql-server
apt-get install mysql-client
sudo apt-get install libmysqlclient-dev
请参考官方介绍
Hadoop 相关配置
安装参考网页
至于是集群还是SingleCluster请自选
Hive 相关配置
参考[博客](
https://blog.csdn.net/pucao_cug/article/details/71773665)
这一步需要耐心,认真配置
DataX 相关配置
作业文件 mysqlToHDFS.json
请认真参阅:https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md
请有意识地针对你自己的机器修改数据库名和表名
{
"job": {

本文介绍了DataX作为阿里巴巴的离线数据同步工具,用于在不同异构数据源间进行数据同步,包括MySQL、HDFS、Hive等。在Ubuntu环境下,详细阐述了如何搭建DataX、Hadoop和Hive的环境,以及如何配置DataX进行数据脱敏。在使用DataX过程中遇到的问题,如Hive查询不到数据,通过fileName与text_table匹配解决。

1897

被折叠的 条评论
为什么被折叠?



