多元线性回归——boston房价预测

本文介绍了在Python Jupyter环境中,使用statsmodels库对波士顿房价数据集进行多元线性回归分析的过程。内容包括数据集特征描述、数据处理、模型建立、异常值检测、Lasso回归模型的应用,以及模型结果解读,揭示了环保指标、房间数、就业中心距离等因素对房价的影响。

python 多元线性回归boston房价预测

jupyter python3环境下利用处理后的boston房价数据集建立多元线性回归模型

数据集各特征描述:

在这里插入图片描述

导入使用到的相关包

在这里插入图片描述
将使用statsmodels库的ols函数建模,variance_inflation_factor函数用于检验自变量间的相关性。

数据集存放在csv文本中,先读取数据集为数据框
在这里插入图片描述
数据集形状为506条观测,14个特征变量,各特征变量的数据类型如上。

接下来,要检查数据集是否存在缺失值以及是否存在重复观测
在这里插入图片描述
数据集各变量缺失值情况以及存在的观测数情况如上图,由此可知数据集不存在缺失值以及重复观测

我们要建模的因变量为MEDV,自住房价的中位数,由于建模的因变量如果不近似正态分布,将会造成很大的影响,因此绘制MEDV变量的直方图以及核密度曲线,对比正态分布曲线。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值