数据文件 Insurance csv包含1338条观测,即目前已经登记过的保险计划受益者以及表示病人特点和历年计划入的总的医疗费用的特征。这些特征是
Age.表示主要受益者的年龄
Sex:性别sex=1,表示男性;sex=0表示女性
Bmi:身体质量指数,BMI指数等于体重(公斤)除以身高(米)的平方。理想的BM指数在18.5-24.9
Children:整数,表示保险计划中所包括的孩子受抚养者的数量
Smoker:是否吸烟, smoker=1表示吸烟, smoker=0表示不吸烟
Region:四个居任地,1,2,3,4
Charges:已结算的医疗费用如何将这些变量与已结算的医疗费用联系在一起是非常重较的。
结合本学期所学的回归预测方法,建立这些变量与 Charges的关系,并说明为什么选择该模型,并从预测误差角度说明该型的好坏。
data <- read.csv("insurance.csv")
选择的回归方法:线性回归,决策树回归,随机森林回归,SVM 回归,然后通过比较RMSE来判断 模型 的好坏
划分训练集和测试集
index
博客探讨了Insurance csv数据集,包含1338个保险计划受益者的年龄、性别、BMI、孩子数量、吸烟状况、居住地区和医疗费用等特征。文章通过线性回归、决策树、随机森林和SVM四种回归方法预测医疗费用,并使用RMSE评估模型性能。结果显示,随机森林回归在预测误差上表现最佳。
订阅专栏 解锁全文

755

被折叠的 条评论
为什么被折叠?



