了解Hadoop输入输出系统

最新推荐文章于 2024-09-18 10:39:18 发布

原创最新推荐文章于 2024-09-18 10:39:18 发布 · 333 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#java #大数据 #hadoop #分布式

Java 同时被 2 个专栏收录

40 篇文章

订阅专栏

编程

25 篇文章

订阅专栏

本文介绍了Hadoop的输入输出系统，重点讨论了数据完整性、压缩、序列化和文件的数据结构。Hadoop通过校验和确保数据完整性，使用压缩节省存储和加速传输，序列化用于进程间通信和数据持久化，SequenceFile和MapFile等容器则提供了特殊数据结构的支持。

与任何I/O子系统不同，Hadoop还带有一组原语。这些原始的考虑因素虽然本质上是通用的，但与Hadoop IO系统一起也具有一些特殊的含义。Hadoop处理数TB的数据集；对这些原语的特殊考虑将使你了解Hadoop如何处理数据输入和输出。本文快速浏览了这些原语，以提供有关Hadoop输入输出系统的观点。

本文来自国内专业IT教育学院【优锐课】。Java学习资料交流qq群：907135806，在接下来的学习如果过程中有任何疑问，欢迎进群探讨。

数据的完整性

数据完整性意味着数据在其存储，处理和检索操作中应保持准确和一致。为了确保在持久性和处理过程中不会丢失或破坏任何数据，Hadoop维护了严格的数据完整性约束。每次读/写操作都在磁盘中进行，因此通过网络更容易出错。而且，Hadoop处理的数据量只会加剧这种情况。检测损坏数据的通常方法是通过校验和。当数据首次进入系统并在检索过程中通过通道发送时，将计算校验和。检索端再次计算校验和并与接收到的校验和匹配。如果完全匹配，则认为数据无错误，否则包含错误。但是问题是-如果发送的校验和本身已损坏怎么办？这是极不可能的，因为这是一个很小的数据，但并非不可否认。使用正确的硬件（例如ECC存储器）可以缓解这种情况。

这仅仅是检测。因此，为了纠正错误，使用了另一种称为CRC（循环冗余校验）的技术。

Hadoop更进一步，并为每512（默认）字节的数据创建一个不同的校验和。由于CRC-32仅4个字节，因此存储开销不是问题。进入系统的所有数据均由数据节点验证，然后再转发以进行存储或进一步处理。通过校验和验证发送到datanode管道的数据，并使用ChecksumException将发现的任何损坏立即通知给客户端。从datanode读取的客户端也进行相同的钻取。数据节点维护校验和验证日志，以跟踪已验证块。一旦从客户端接收到块验证成功信号，数据节点将更新日志。这种类型的统计信息有助于避免损坏的磁盘。

除此之外，借助与后台运行的datanode线程一起运行的DataBlockScanner对块存储进行定期Hadoop维护数据的副本或副本。这专门用于从大规模损坏中恢复数据。一旦客户端在读取块时检测到错误，它将立即向datanode报告有关namenode的坏块的信息，然后抛出ChecksumException。然后，namenode将其标记为坏块，并将对该块的任何进一步引用安排到其副本。这样，该副本将与其他副本一起维护，并且标记的坏块将从系统中删除。

对于在Hadoop LocalFileSystem中创建的每个文件，将在同一目录中以扩展名.crc创建一个具有相同名称的隐藏文件。该文件维护文件中每个数据块（512字节）的校验和。元数据的维护有助于在LocalFileSystem引发ChecksumException之前检测读取错误。

压缩

考虑到Hadoop处理的数据量，压缩并非奢侈，而是必要条件。Hadoop正确使用文件压缩有许多明显的好处。它节省了存储需求，并且是加快通过网络和磁盘的数据传输的必备功能。Hadoop通常使用许多工具，技术和算法。它们中的许多非常流行，并且在很长时间以来就已用于文件压缩。例如，经常使用gzip，bzip2，LZO，zip等。

序列化

将结构化对象转换为字节流的过程称为序列化。这是通过网络传输数据或将原始数据保存在磁盘中时特别需要的。反序列化只是反向过程，在此过程中，字节流被转换为结构化对象。这对于原始字节的对象实现特别需要。因此，分布式计算在几个不同的领域中使用它就不足为奇了：进程间通信和数据持久性。

Hadoop使用RPC（远程过程调用）来实现节点之间的进程间通信。因此，RPC协议使用序列化和反序列化过程将消息呈现到字节流，反之亦然，并通过网络发送它。但是，该过程必须足够紧凑以充分利用网络带宽，并且必须快速，可互操作且灵活以适应协议随时间的更新。

Hadoop具有自己的紧凑而快速的序列化格式Writables，MapReduce程序使用该格式来生成键和值类型。

文件的数据结构

有几个高级容器详细说明了Hadoop中的特殊数据结构，以保存特殊类型的数据。例如，为了维护二进制日志，SequenceFile容器提供了用于保留二进制键值对的数据结构。然后，我们可以使用键，例如由LongWritable表示的时间戳和由Writable表示的值，它表示记录的数量。

还有另一个容器，即SequenceFile的排序派生，称为MapFile。它提供了一个索引，可通过键方便地查找。

这两个容器可以互操作，并且可以相互转换。

结论

这只是Hadoop输入/输出系统的快速概述。在后续文章中，我们将深入研究许多复杂的细节。如果总体上对I/O系统有基本的了解，那么理解Hadoop输入/输出系统并不是很困难。Hadoop只是简单地添加一些额外的精力，以适应其在海量数据中工作的分布式特性。就这样。
——————————————————————————————————
本文来自国内专业IT教育学院【优锐课】

Java学习资料交流qq群：907135806，在接下来的学习如果过程中有任何疑问，欢迎进群探讨。

也可以添加vx：ddmsiqi，有更多JVM、Mysql、Tomcat、Spring Boot、Spring Cloud、Zookeeper、Kafka、RabbitMQ、RockerMQ、Redis、ELK、Git等Java学习资料和视频课程！抽丝剥茧细说架构那些事——【优锐课】