在机器学习中使用pickle
1. Python之pickle的用法(用于序列化和反序列化数据)
该pickle模块实现了二进制协议,用于对Python对象结构进行序列化和反序列化Pickling是将Python对象层次结构转换为字节流的过程,而 “ unpickling”是逆运算,将字节流(来自二进制文件或类似字节的对象)转换回对象层次结构的过程。
-
python2.7导入
import cPickle; -
python3导入
import pickle -
序列化指的是将对象的状态信息转化为可以存储或传输的形式的过程。(简单理解即将数据存储到相应存储过程,如dict存储到json文件中)
-
常用的四个方法:
dump()、load()、dumps()、loads() -
dump(): 将数据序列化到文件中
import pickle
file = open(filedir,'w+')#以二进制式打开
myData = [{"key": value},[1,2,3,4,5],'str',123]
pickle.dump(myData, file)
- load(): 将序列化后的数据读出(反序列化)
import pickle
file = open(fileDir, 'r+')
print(pickle.load(file)) #假设此处的fileDir是前面dump()的
#打印出来的是[{"key": value},[1,2,3,4,5],'str',123]
#type:list
- dumps()和loads()与上述的区别:无需读入文件,实现str和数据类型的转化
- cPickle和pickle的区别:cPickle是C语言编写的类,执行速度上更快一些
2.Python中训练模型的保存和加载
- 可以使用pickle的方法:
- 模型保存:
import pickle
model.fit(x_data, y_data)
s = pickle.dumps(model)
with open('myModel.model','wb+') as f:#注意此处mode是'wb+',表示二进制写入
f.write(s)
- 模型加载
import pickle
f = open('myModel.model','rb') #注意此处model是rb
s = f.read()
model = pickle.loads(s)
# 之后就可以使用model了
3.Python交叉验证时划分训练集和验证集的方法
主要是使用了numpy中的slice和np.delete()
# data是完整的数据
v_rate = 0.2 #验证集比例
v_size = train_data.shape[0]*v_rate #验证集大小
for v_index in range(int(1/v_rate)):
verify_data = data[v_index*v_size:(v_index+1)*v_size]
train_data = data.delete(data, np.s_[v_index*v_size:(v_index+1)*v_size], axis = 0)
本文介绍了在机器学习中如何使用pickle模块进行序列化和反序列化,详细阐述了pickle的用法,包括dump、load、dumps和loads的操作。此外,讨论了模型的保存和加载,提供了使用pickle保存和加载模型的代码示例。同时,提到了Python中划分训练集和验证集的方法,重点在于numpy的切片操作。

1552

被折叠的 条评论
为什么被折叠?



