文章目录
一.快速介绍
实际生产中,鉴于数据安全、不同够公司数据交互等原因,很多时候会使用txt、csv等文件格式来交互数据。
TxtFileReader提供了读取本地文件系统数据存储的能力。在底层实现上,TxtFileReader获取本地文件数据,并转换为DataX传输协议传递给Writer。
本地文件内容存放的是一张逻辑意义上的二维表,例如CSV格式的文本信息。
二. 功能与限制
TxtFileReader实现了从本地文件读取数据并转为DataX协议的功能,本地文件本身是无结构化数据存储,对于DataX而言,TxtFileReader实现上类比OSSReader,有诸多相似之处。
目前TxtFileReader支持功能如下:
-
支持且仅支持读取TXT的文件,且要求TXT中shema为一张二维表。
-
支持类CSV格式文件,自定义分隔符。
-
支持多种类型数据读取(使用String表示),支持列裁剪,支持列常量
-
支持递归读取、支持文件名过滤。
-
支持文本压缩,现有压缩格式为zip、gzip、bzip2。
-
多个File可以支持并发读取。
我们暂时不能做到:
-
单个File支持多线程并发读取,这里涉及到单个File内部切分算法。二期考虑支持。
-
单个File在压缩情况下,从技术上无法支持多线程并发读取。
三. 功能说明
3.1 配置样例
{
"setting": {},
"job": {
"setting": {
"speed": {
"channel": 2
}
},
"content": [
{
"reader": {
"name": "txtfilereader",
"parameter": {
"path": ["/home/haiwei.luo/case00/data"],
"encoding": "UTF-8",
"column": [
{

本文详细介绍了DataX的TxtFileReader组件,它用于从本地文件系统读取数据,支持CSV格式,列转换,配置参数详解,以及功能限制。掌握这些有助于高效数据迁移和处理。

5071

被折叠的 条评论
为什么被折叠?



