Sqoop 概述

最新推荐文章于 2024-10-07 07:34:40 发布

原创最新推荐文章于 2024-10-07 07:34:40 发布 · 998 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Sqoop 专栏收录该内容

6 篇文章

订阅专栏

Sqoop是SQL-to-Hadoop的工具，作为连接传统数据库与Hadoop的桥梁，实现数据高效传输。它支持多种数据库，具备数据类型映射转换功能，并可通过调整任务数控制并发度。尽管 Sqoop2引入了更先进的管理和安全机制，但许多企业仍选择稳定且能满足基本需求的Sqoop1。在Hadoop生态中，Sqoop用于数据导入导出，其原理包括根据split-by参数进行数据切分和MapReduce任务分配。

Sqoop 产生背景

1、目前很多使用hadoop技术的企业，有大量的数据存储在传统关系型数据库中。

2、早期由于工具的缺乏，hadoop与传统数据库之间的数据传输非常困难。

1）传统数据库中的数据导入到hadoop中，便于廉价的分析与处理

2）hadoop中的数据导入传统数据库，可利用强大的sql进一步分析和展示。

什么是Sqoop

1、sqoop 名字的来源：SQL-to-Hadoop

2、我们可以把它看做成连接传统数据库和Hadoop的桥梁

1）把关系型数据库中的数据导入到hadoop或者与其相关的系统比如HDFS 、hive 、Hbase

2）把hadoop中的数据抽取出来，导入到关系型数据库中

3、它的设计思想就是：利用MapReduce加快数据传输速度

Sqoop 的优势

1、sqoop可以高效的可控的利用资源，比如它可以通过调整任务数，来控制任务的并发度，另外还可以配置数据库的访问时间等等

2、sqoop能自动的完成数据类型的映射与转换

3、它支持多种数据库，比如mysql oracle，postgresql

Sqoop1与Sqoop2的比较

1、sqoop1和sqoop2是两个不同的版本，它们是完全不兼容的

2、版本划分方式：Apache 1.4.x 之后的版本属于sqoop1,1.99.x之上的版本属于sqoop2

3、与sqoop1相比，sqoop2的优势

1）它引入的sqoop Server，便于集中化的管理Connector或者其它的第三方插件

2）多种访问方式：CLI、Web UI、REST API

3）它引入了基于角色的安全机制，管理员可以在sqoopServer上，配置不同的角色。

为什么选择Sqoop1

1）大部分企业还在使用sqoop1版本

2）sqoop1能满足公司的基本需求

3）sqoop2 功能还不是很成熟和完善

4）sqoop只是一个工具而已，相对比较简单

Sqoop 在Hadoop生态体系中的位置

Sqoop 的基本架构

Sqoop Import 原理

Sqoop Import 详细流程

Sqoop在import时，需要指定split-by参数。Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中。

每个map中再处理数据库中获取的一行一行的值，写入到HDFS中(由此也可知，导入导出的事务是以Mapper任务为单位)。

同时split-by根据不同的参数类型有不同的切分方法，如比较简单的int型，Sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域。

比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分别为1000和1，而num-mappers为2的话，则会分成两个区域(1,500)和(501-1000),同时也会分成2个sql给2个map去进行导入操作，分别为select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最后每个map各自获取各自SQL中的数据进行导入工作。

Sqoop Export 原理

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。