基于树的机器学习方法:随机森林与广义提升回归建模
1. 随机森林(RF)
1.1 变量选择与模型准确性评估
不同的变量选择方法会产生不同的预测变量集,进而影响随机森林模型的预测准确性。可以使用 spm 包中的 RFcv 函数,通过交叉验证的方法对模型进行评估。 RFcv 函数关键参数如下:
- trainx :包含预测变量列的数据框或矩阵。
- trainy :响应变量的向量,长度必须等于 trainx 的行数。
- cv.fold :交叉验证的折数。
- predacc :预测准确性的度量方式,可选“VEcv”或“ALL”。
以下是几种变量选择方法对应的随机森林模型准确性评估的R代码:
# 1. Boruta方法
# 数值数据
library(Boruta)
set.seed(1234)
n <- 100
VEcv.b <- NULL
for (i in 1:n) {
rfcv1 <- RFcv(sponge2[, getSelectedAttributes(sponge.bor)], sponge2[, 3],
predacc = "VEcv")
VEcv.b[i] <- rfcv1
}
# 分类数据
library(Boruta)
set.seed(1234)
超级会员免费看
订阅专栏 解锁全文

4295

被折叠的 条评论
为什么被折叠?



