CelebA数据集介绍以及预处理代码

最新推荐文章于 2026-05-11 12:02:42 发布

原创

最新推荐文章于 2026-05-11 12:02:42 发布 · 7.8k 阅读

标签

#深度学习

收录于

本文介绍了CelebA数据集的详细内容，包括数据地址、文件类别和各个文件的作用。数据集分为Anno、Eval和img文件夹，提供了人脸标注信息和图片。在数据处理部分，作者分享了将图片按身份ID归类的预处理代码，并展示了处理后的效果。

第一个文件夹Anno，存放的是各类标签

比如第一个identity_CelebA.txt是图片与所对应的身份id
list_bbox标签，是人脸标注框坐标注释文件，包含每一张图片对应的bbox起点坐标及其宽高
list_landmarks_align_celeba.txt则是对应人脸对齐后的landmark坐标

Eval文件夹

这里是将数据集分成了三部分

train(标0的部分)
valid(标1的部分)
test(标2的部分)

img文件夹

文件包括这三部分

img_align_celeba 是裁剪过的并以.jpg结尾的图片，占内存较小
img_align_celeba_png.7z
img_celeba.7z是未经裁剪的图片，故称野生照片

数据处理及详细代码

因为我这里需要将每个人的图片放到对应的id文件下，所以我需要通过代码进行预处理，下面就直接贴代码了，以及效果图

# -*- coding: utf-8 -*-
# !/usr/bin/env python3

'''
Divide face accordance CelebA Id type.
'''


import shutil
import os

output_path_train = r"C:\Users\rugu\Desktop\train"
output_path_valid = r