flume监听文件

最新推荐文章于 2024-11-10 19:30:27 发布

原创最新推荐文章于 2024-11-10 19:30:27 发布 · 517 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#flume #大数据 #hadoop

收录于

该博客详细介绍了Apache Flume的数据流配置，包括一个source（netcat）监听本地端口26001，两个sinks（Kafka和HDFS）。数据首先被发送到内存channel c1，然后被Kafka sink处理，发布到order主题。同时，数据也会通过另一个内存channel c2流向HDFS，文件以DataStream格式存储，并设置特定的滚动策略。

a3.sources=r1
a1.sinks=k1 k2
a1.channels=c1 c2

a1.sources.r1.type=netcat
a1.sources.r1.bind=localhost
a1.sources.r1.port=26001

a1.sinks.k1.type=org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers=192.168.23.69:9092
a1.sinks.k1.kafka.topic=order
a1.sinks.k1.kafka.producer.acks=1

a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100

a1.sources.r1.channels=c1 c2
a1.sinks.k1.channel=c1

a1.sinks.k2.type=hdfs
a1.sinks.k2.hdfs.path=hdfs://192.168.23.69:9000/user/test/flumebackup
a1.sinks.k2.hdfs.fileType=DataStream
a1.sinks.k2.hdfs.writeFormat=text
a1.sinks.k2.hdfs.rollIntervall=0
a1.sinks.k2.hdfs.rollSize=134217728
a1.sinks.k2.hdfs.rollCount=0
a1.sinks.k2.hdfs.bachSize=0
a1.sinks.k2.hdfs.useLocalTimeStamp=true

a1.channels.c2.type=memory
a1.channels.c2.capacity=1000000
a1.channels.c2.keep-alive=60

a1.sinks.k2.channel=c2