hadoop杂记

原创于 2026-06-22 22:29:09 发布 · 58 阅读

·

4

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#hadoop #大数据 #分布式

在这里插入图片描述
要保证hdfs的根目录下是有文件的，不然总是连接失败。

该过程分为三个大部分：数据采集、数据仓库（数据分析）和数据可视化。数据采集是将业务数据库（含有业务数据和行为数据）更新到HDFS中；数据仓库是对HDFS中的数据源进行加工、统计和分析，并输出至数据库中；数据可视化是将数据库中的数据进行可视化。

做了一个大数据项目，包括数据采集与数据仓库两部分。数据分为两部分，分别是业务数据（数据库）和用户行为数据（日志）。

用户行为数据采集使用到了Flume、Kafka、Hadoop和Zookpeeper。
Flume：把分散在不同服务器上的日志数据，实时高效地集中到中央存储中。
完整流程：日志文件是实时滚动写入的，Flume 的 TaildirSource 会实时监控这些日志文件，读取新增的日志行，经过拦截器的处理后通过KafkaChannel 写入 Kafka。

业务数据采集 Maxwell 实时监听 MySQL 业务表的变动，并存储进Kafka中，然后离线数仓和实时数仓
各自消费数据。

实时数仓由Flink源源不断从Kafka当中读数据计算，所以不需要手动同步数据到实时数仓。

离线数仓通过 Flume 从 Kafka 中消费用户行为日志数据，按天分区写入 HDFS ，实现按天分区的离线数据存储和查询。

HDFS Sink优化 Flume 写入 HDFS 时，通过将 hdfs.rollInterval 设为 3600 秒、hdfs.rollSize 设为 128MB、hdfs.rollCount 设为 0，使文件在达到 128MB 或写入满 1 小时时才滚动，从而有效减少 HDFS 小文件数量，保护 NameNode 内存并提升计算性能。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。