前两天在用一个开源代码的时候,发现他把数据转tfrecord以后特别大,本来硬盘空间就有些紧张,这下更不够了。看了一下转完以后的大小,是原始数据的9、10倍,这就有些夸张了。之前用tfrecord的时候没有特别注意这个事情,这次看到了还是研究一下。
方案1:
这是原来代码里的写法,为了简便,就只挑重要部分的写了:
import tensorflow as tf
import numpy as np
import os,sys
import PIL.Image
def _int64_feature(value):
return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))
def _bytes_feature(value):
return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))
def get_file_list(input_dir):
res = []
files = os.listdir(input_dir)
for file in files:
res.append(file)
return res

博客讲述了在将图片转换为tfrecord格式时遇到的问题,原始方法导致转换后的文件大小是原始图片的9-10倍。作者探讨了两种方案:方案1是将图片转为numpy矩阵再保存为字符串,而方案2则是直接保存图片的二进制数据。方案2显著减少了文件大小并提高了读写速度,将505M的文件降至73M。

1331

被折叠的 条评论
为什么被折叠?



