hadoop杂记

在这里插入图片描述
要保证hdfs的根目录下是有文件的,不然总是连接失败。
在这里插入图片描述
该过程分为三个大部分:数据采集、数据仓库(数据分析)和数据可视化。数据采集是将业务数据库(含有业务数据和行为数据)更新到HDFS中;数据仓库是对HDFS中的数据源进行加工、统计和分析,并输出至数据库中;数据可视化是将数据库中的数据进行可视化。

做了一个大数据项目,包括数据采集与数据仓库两部分。数据分为两部分,分别是业务数据(数据库)和用户行为数据(日志)。

用户行为数据采集使用到了Flume、Kafka、Hadoop和Zookpeeper。
Flume:把分散在不同服务器上的日志数据,实时高效地集中到中央存储中。
完整流程:日志文件是实时滚动写入的,Flume 的 TaildirSource 会实时监控这些日志文件,读取新增的日志行,经过拦截器的处理后通过KafkaChannel 写入 Kafka。

业务数据采集 Maxwell 实时监听 MySQL 业务表的变动,并存储进Kafka中,然后离线数仓和实时数仓
各自消费数据。

实时数仓由Flink源源不断从Kafka当中读数据计算,所以不需要手动同步数据到实时数仓。

离线数仓通过 Flume 从 Kafka 中消费用户行为日志数据,按天分区写入 HDFS ,实现按天分区的离线数据存储和查询。

HDFS Sink优化 Flume 写入 HDFS 时,通过将 hdfs.rollInterval 设为 3600 秒、hdfs.rollSize 设为 128MB、hdfs.rollCount 设为 0,使文件在达到 128MB 或写入满 1 小时时才滚动,从而有效减少 HDFS 小文件数量,保护 NameNode 内存并提升计算性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值