python 多元线性回归boston房价预测
jupyter python3环境下利用处理后的boston房价数据集建立多元线性回归模型
数据集各特征描述:

导入使用到的相关包

将使用statsmodels库的ols函数建模,variance_inflation_factor函数用于检验自变量间的相关性。
数据集存放在csv文本中,先读取数据集为数据框

数据集形状为506条观测,14个特征变量,各特征变量的数据类型如上。
接下来,要检查数据集是否存在缺失值以及是否存在重复观测

数据集各变量缺失值情况以及存在的观测数情况如上图,由此可知数据集不存在缺失值以及重复观测
我们要建模的因变量为MEDV,自住房价的中位数,由于建模的因变量如果不近似正态分布,将会造成很大的影响,因此绘制MEDV变量的直方图以及核密度曲线,对比正态分布曲线。

本文介绍了在Python Jupyter环境中,使用statsmodels库对波士顿房价数据集进行多元线性回归分析的过程。内容包括数据集特征描述、数据处理、模型建立、异常值检测、Lasso回归模型的应用,以及模型结果解读,揭示了环保指标、房间数、就业中心距离等因素对房价的影响。


被折叠的 条评论
为什么被折叠?



