HDF5数据的打包与使用（以图像数据为例）

原创已于 2023-04-25 22:13:13 修改 · 3.5k 阅读

33 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #开发语言

于 2023-01-08 00:50:19 首次发布

深度学习专栏收录该内容

14 篇文章

订阅专栏

本文是使用PyTorch构建GAN生成对抗网络博客中HDF5数据类型的补充介绍。介绍了HDF5数据，它是存储在二进制文件格式中的多维数据，适合存大量数值型数据。还说明了其生成方法，以CelebA数据集为例给出代码，最后讲解了查看HDF5数据的方式。

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

注：此篇内容主要作为使用PyTorch构建GAN生成对抗网络博客中，HDF5数据类型的补充介绍。

1 什么是HDF5数据

HDF5 数据是存储在一种名为 Hierarchical Data Format version 5 (HDF5) 的二进制文件格式中的数据。这种文件格式可以用来存储大量的多维数据，并且提供了很多的功能来帮助用户组织和管理数据。

HDF5 数据文件中包含了一系列的数据集，每个数据集都是一个多维数组。数据集的维度可以是任意的数量，并且每个数据集都可以有自己的属性。这使得 HDF5 文件格式非常适合用来存储大量的数值型数据，比如图像、音频、视频等。
在这里插入图片描述
HDF5文件格式主要有以下特点：

大小：HDF5 数据文件可以非常大，可以达到几十 GB 甚至几 TB。
数据类型：HDF5 文件可以存储各种各样的数据类型，包括整数、浮点数、字符串、布尔值等。
多维数组：HDF5 文件中的数据集是多维数组，每个数据集都可以有任意数量的维度。
数据压缩：HDF5 文件支持数据压缩，可以使用不同的压缩算法来压缩数据集。
数据分块：HDF5 文件中的数据集可以被分成若干个数据块，每个数据块可以单独读取。这使得 HDF5 文件在处理大型数据集时非常高效。
索引：HDF5 文件可以使用索引来快速访问数据集中的元素。
属性：HDF5 文件中的数据集可以有自己的属性，每个属性都是一个键-值对。

2 HDF5数据格式的生成

以CelebA数据集为例，在官网下载时，我们将会得到一个压缩包，里面包含人脸图片与属性标注，如果希望将人脸图片转入到HDF5中的数据集中，可参考的代码如下：

hdf5_file = '你希望的h5py存放地'
Celeba_file='你的数据存放地'
total_images = 10000 # 你需要打包的图片数量

with h5py.File(hdf5_file, 'w') as hf:
    count = 0

    with zipfile.ZipFile(Celeba_file, 'r') as zf:
        for i in zf.namelist():
            if (i[-4:] == '.jpg'):
                # 图片提取
                ofile = zf.extract(i)
                img = imageio.imread(ofile)
                os.remove(ofile)

                # 添加数据到HDF5文件
                hf.create_dataset('img_align_celeba/' + str(count) + '.jpg', data=img, compression="gzip", compression_opts=9)

                # 停止控制
                if (count == total_images):
                    break

对上面的代码进行一下讲解：首先我们打开了你下载的人脸数据 zip 文件（官方提供的数据格式就是压缩包的形式，我们下载后也不需要对其解压），并遍历文件中的所有文件名。如果文件名的扩展名是 .jpg，则提取该文件并将其读取为一个图像数组。将图像数组写入一个 HDF5 文件中，保存在你希望的h5py存放地目录下，文件名为递增的数字。
当读取了指定数量的图像时，停止读取过程。之所以设置了停止功能，是因为这个数据集的数据量比较大，有时实验并不需要数据集的全部内容。在处理大型数据集时，也可以添加计数器功能，每处理一定量的文件进行打印进程。

3 HDF5数据的查看

打开数据集可以使用常规的with…as语法：

with h5py.File('数据集位置.h5py', 'r') as file_object:  
	  for group in file_object:
		    print(group)

这段代码用于查看HDF5文件中的数据组名，输出是img_align_celeba，这是因为我们前面在制作HDF5文件时，指定的路径就是保存在img_align_celeba下，所以这些保存进去的数据都被认为是img_align_celeba组中的数据。

with h5py.File('数据集位置.h5py', 'r') as file_object:
	  dataset = file_object['img_align_celeba']
	  image = numpy.array(dataset['1.jpg'])
	  plt.imshow(image, interpolation='none')
	  plt.show()