Pickle 序列化python对象，pickle.dump()以及pickle.load()

最新推荐文章于 2026-05-15 07:28:01 发布

原创最新推荐文章于 2026-05-15 07:28:01 发布 · 4k 阅读

本内容遵循CC 4.0 BY-SA版权协议

Python的pickle模块用于对象的序列化和反序列化，可以将Python对象转换为字节流并存储在文件中，或者从字节流中恢复对象。pickle.dumps()用于字符串序列化，pickle.load()和pickle.loads()用于从文件或字符串中恢复对象。然而，pickle不适用于长期数据存储，因为它依赖于源码，且不是跨语言标准。在处理大型数据结构时，如数组或numpy数组，pickle效率较低，建议使用更高效的编码格式如HDF5。此外，某些对象如打开的文件和网络连接无法被pickle序列化。

将python对象序列化为一个字节流，最常见的方法就是使用pickle模块，为了将序列化后的字节流对象保存在一个文件中，可以这样做：

import pickle

data = ...... # some python object

f =open('somefile','wb')

pickle.dump( data, f )

data对象将以字节流的操作存储在某个文件中

为了将一个对象转储为一个字符串，可以使用 pickle.dumps() ：

s = pickle.dumps(data)

为了从字节流中恢复一个对象，使用 pickle.load() 或 pickle.loads() 函数。比如：

# Restore from a file
f = open('somefile', 'rb')
data = pickle.load(f)

# Restore from a string
data = pickle.loads(s)

对于大多数应用程序来讲，dump() 和 load() 函数的使用就是你有效使用 pickle 模块所需的全部了。它可适用于绝大部分Python数据类型和用户自定义类的对象实例。如果你碰到某个库可以让你在数据库中保存/恢复Python对象或者是通过网络传输对象的话，那么很有可能这个库的底层就使用了 pickle 模块。

pickle 是一种Python特有的自描述的数据编码。通过自描述，被序列化后的数据包含每个对象开始和结束以及它的类型信息。因此，你无需担心对象记录的定义，它总是能工作。

你还能序列化函数，类，还有接口，但是结果数据仅仅将它们的名称编码成对应的代码对象。

有些类型的对象是不能被序列化的。这些通常是那些依赖外部系统状态的对象，比如打开的文件，网络连接，线程，进程，栈帧等等。用户自定义类可以通过提供 __getstate__() 和 __setstate__() 方法来绕过这些限制。如果定义了这两个方法，pickle.dump() 就会调用 __getstate__() 获取序列化的对象。

pickle 对于大型的数据结构比如使用 array 或 numpy 模块创建的二进制数组效率并不是一个高效的编码方式。如果你需要移动大量的数组数据，你最好是先在一个文件中将其保存为数组数据块或使用更高级的标准编码方式如HDF5 (需要第三方库的支持)。

由于 pickle 是Python特有的并且附着在源码上，所有如果需要长期存储数据的时候不应该选用它。例如，如果源码变动了，你所有的存储数据可能会被破坏并且变得不可读取。坦白来讲，对于在数据库和存档文件中存储数据时，你最好使用更加标准的数据编码格式如XML，CSV或JSON。这些编码格式更标准，可以被不同的语言支持，并且也能很好的适应源码变更。