深度学习中大数据整理问题

最新推荐文章于 2025-09-16 08:03:06 发布

原创

最新推荐文章于 2025-09-16 08:03:06 发布 · 3.2k 阅读

标签

#大数据 #shell #深度学习 #数据 #脚本

本文介绍了在深度学习中如何处理和整理大规模数据集，特别是人脸年龄数据集。作者分享了使用Shell脚本在Linux环境下自动化整理数据的过程，包括创建按人物命名的子文件夹和处理文件名的技巧，以适应训练需求。文章还提到了解决‘augment list too long’错误的两种方法，并提供了示例脚本。

————————————————————————————————————————————
这段时间一直在整理数据用于训练，但是从网上找到的数据集往往很凌乱，不能满足使用要求。这些数据集少则几万，多则几十万几百万。如果手动去整理这些数据集无疑是一个繁重的工作，甚至无法去做！
这个时候则需要我们写脚本去帮助我们做这件事情！本文作者使用的是shell脚本在linux下面进行文件整理。其他脚本诸如javascript，PHP，Python等应该也可以。
作者仅仅是为了工作而去学习的，作为初学者也是充满了迷茫，写的不好，但是问题总算解决了，现在将个人感悟和学习总结如下。
————————————————————————————————————————————+

一、本文作者整理的数据集

三个关于人脸年龄的数据集：分别是FG-NET，MORPH和CACD2000.
拿MORPH数据集为例，下载的原始数据是所有人物数据都在一个文件夹内。如下图所示：
这里写图片描述

而我所需要的结果是：

这里写图片描述
也就是说，我需要将一个人放在一个子文件夹内，并以其名字命名。

本文所写的脚本是以处理CACD2000数据集为例子，该数据集有2000人，照片共计有16w张。
所写shell脚本主要思路如下：
1.观察数据集合的各个文件名字特点，比如CACD中名字命名规则为：
这里写图片描述

2.命名规则如，42_Adam_Baldwin_0001.jpg, 则我只需要该子文件名字为Adam_Baldwin，那么在检测的时候就需要读取该文件的名字，然后删除左边数第一个左边的字符和从右边数第一个出现符号的字符。

3.删除之后，则该字符串只剩下Adam_Baldwin这个名字，以这个名字为变量mkdir建立新的子文件夹，然后mv，将文件移到该文件夹内即可。

具体shell脚本代码如下：

#！/bin/bash

echo "start..."

#定义文件的路径
folder="/media/cc/科研盘/2016春季科研2/dataset/age data/CACD2000/CACD2000/1"

#这里注意加上

最低0.47元/天解锁文章