DataX系列3-TxtFileReader介绍

本文详细介绍了DataX的TxtFileReader组件,它用于从本地文件系统读取数据,支持CSV格式,列转换,配置参数详解,以及功能限制。掌握这些有助于高效数据迁移和处理。

一.快速介绍

  实际生产中,鉴于数据安全、不同够公司数据交互等原因,很多时候会使用txt、csv等文件格式来交互数据。

  TxtFileReader提供了读取本地文件系统数据存储的能力。在底层实现上,TxtFileReader获取本地文件数据,并转换为DataX传输协议传递给Writer。

  本地文件内容存放的是一张逻辑意义上的二维表,例如CSV格式的文本信息。

二. 功能与限制

  TxtFileReader实现了从本地文件读取数据并转为DataX协议的功能,本地文件本身是无结构化数据存储,对于DataX而言,TxtFileReader实现上类比OSSReader,有诸多相似之处。

目前TxtFileReader支持功能如下:

  1. 支持且仅支持读取TXT的文件,且要求TXT中shema为一张二维表。

  2. 支持类CSV格式文件,自定义分隔符。

  3. 支持多种类型数据读取(使用String表示),支持列裁剪,支持列常量

  4. 支持递归读取、支持文件名过滤。

  5. 支持文本压缩,现有压缩格式为zip、gzip、bzip2。

  6. 多个File可以支持并发读取。

我们暂时不能做到:

  1. 单个File支持多线程并发读取,这里涉及到单个File内部切分算法。二期考虑支持。

  2. 单个File在压缩情况下,从技术上无法支持多线程并发读取。

三. 功能说明

3.1 配置样例

{
    "setting": {},
    "job": {
        "setting": {
            "speed": {
                "channel": 2
            }
        },
        "content": [
            {
                "reader": {
                    "name": "txtfilereader",
                    "parameter": {
                        "path": ["/home/haiwei.luo/case00/data"],
                        "encoding": "UTF-8",
                        "column": [
                            {
                             
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值