图片转tfrecord格式的优化

最新推荐文章于 2024-09-04 14:27:28 发布

原创

最新推荐文章于 2024-09-04 14:27:28 发布 · 4.3k 阅读

收录于

博客讲述了在将图片转换为tfrecord格式时遇到的问题，原始方法导致转换后的文件大小是原始图片的9-10倍。作者探讨了两种方案：方案1是将图片转为numpy矩阵再保存为字符串，而方案2则是直接保存图片的二进制数据。方案2显著减少了文件大小并提高了读写速度，将505M的文件降至73M。

前两天在用一个开源代码的时候，发现他把数据转tfrecord以后特别大，本来硬盘空间就有些紧张，这下更不够了。看了一下转完以后的大小，是原始数据的9、10倍，这就有些夸张了。之前用tfrecord的时候没有特别注意这个事情，这次看到了还是研究一下。

方案1：

这是原来代码里的写法，为了简便，就只挑重要部分的写了：

import tensorflow as tf
import numpy as np
import os,sys
import PIL.Image

def _int64_feature(value):
    return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

def _bytes_feature(value):
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

def get_file_list(input_dir):
    res = []
    files = os.listdir(input_dir)
    for file in files:
        res.append(file)
    return res