K折交叉验证

最新推荐文章于 2026-04-25 13:22:45 发布

原创最新推荐文章于 2026-04-25 13:22:45 发布 · 929 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

python学习专栏收录该内容

44 篇文章

订阅专栏

如何确定合适的k值

K 值越小，偏误越大，所以越不推荐。(K 值小，则会变得像“验证集法”)
K 值太大，所得结果会变化多端。(K 值大，则会变得像“留一法”（LOOCV)）
通常建议的值是 k=10 。

如何衡量模型的偏误/变化程度？

K 层交叉检验之后，我们得到 K 个不同的模型误差估算值（e1, e2 …..ek）。理想的情况是，这些误差值相加得 0 。要计算模型的偏误，我们把所有这些误差值相加。平均值越低，模型越优秀。

模型表现变化程度的计算与之类似。取所有误差值的标准差，标准差越小说明模型随训练数据的变化越小。

from sklearn import cross_validation
model = RandomForestClassifier(n_estimators=100)
#简单K层交叉验证，10层。
cv = cross_validation.KFold(len(train), n_folds=10, indices=False)
results = []
# "Error_function" 可由你的分析所需的error function替代
for traincv, testcv in cv:
        probas = model.fit(train[traincv], target[traincv]).predict_proba(train[testcv])
        results.append( Error_function )
print "Results: " + str( np.array(results).mean() )