Stratified k-fold
StratifiedKFold()这个函数较常用,比KFold的优势在于将k折数据按照百分比划分数据集,每个类别百分比在训练集和测试集中都是一样,这样能保证不会有某个类别的数据在训练集中而测试集中没有这种情况,同样不会在训练集中没有全在测试集中,这样会导致结果糟糕透顶。
train_test_split
随机根据比例分配训练集和测试集。这个函数可以调整随机种子。
本文介绍StratifiedKFold与train_test_split两种数据集划分方法。StratifiedKFold通过确保每个类别在训练集和测试集中的比例一致来避免类别分布不均的情况。train_test_split则按比例随机划分数据。
StratifiedKFold()这个函数较常用,比KFold的优势在于将k折数据按照百分比划分数据集,每个类别百分比在训练集和测试集中都是一样,这样能保证不会有某个类别的数据在训练集中而测试集中没有这种情况,同样不会在训练集中没有全在测试集中,这样会导致结果糟糕透顶。
随机根据比例分配训练集和测试集。这个函数可以调整随机种子。
1943

被折叠的 条评论
为什么被折叠?
