基于多元线性回归的Boston房价数据分析

本文通过对Boston房价数据进行分析,运用R语言进行多元线性回归,通过最小二乘估计确定参数,进行显著性检验,识别异常值并删除,处理多重共线性问题,最终筛选出影响房价的关键因素,如RM(房间数)、LSTAT(人口中地位较低者比例)等,建立准确的回归模型,揭示各因素与房价的关系。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

Boston房价数据是R语言中一类重要的数据,常被用来做各种方法分析,即它是波士顿不同地区的506个家庭住房信息,其中包括影响房价的14个因素如城镇的人均犯罪率、氮氧化合物浓度、城镇黑人的比例、低教育程度的人口比例等,而且每个因素对房价的影响都是不同显著程度的,因此,本文对Boston房价数据进行多元线性回归,运用R语言中一些函数对数据进行分析,筛选出对房价影响程度比较显著的因素,从而建立正确的回归模型。

线性回归模型

线性回归模型是众多回归模型中最常见、最基础的一类模型,因此,在我们数据分析、模型建立过程中都起到了非常重要的作用,基于该模型的研究也是十分重要的课题。下面对该模型进行简单的阐述。线性回归模型从自变量个数来说,分为两种:一种是一元线性回归模型,另一种是多元线性回归模型,顾名思义,一元线性回归模型是指在回归分析中有且仅有一个自变量和一个因变量,并且两者是近似呈线性关系的;多元线性回归模型是指在回归分析中有多个(两个及两个以上)自变量和一个因变量,并且因变量与自变量之间的关系是近似呈线性关系的。

 1.多元线性回归模型

 2.线性回归模型中参数估计

一般地我们采用最小二乘估计,所谓最小二乘估计,就是寻找参数的估计值,使其离差平方和达到极小值,即寻找满足:

3.显著性检验

在我们将线性回归模型中的系数估计出来之后,我们不知道模型估计的效果如何,尤其是在实际问题中。因此,我们要对回归方程和回归系数进行显著性检验。在实际问题中,起初我们是不知道因变量y与自变量之间是线性还是非线性关系,当我们建立了线性回归模型,这也就意味着我们假设它们之间的关系是线性的,但也有可能它们之间的关系是非线性的,因此我们在求出经验回归方程以后要对回归方程进行显著性检验。

4.Boston房价数据分析

本节选取Boston房价数据,Boston房价数据是波士顿不同地区的506个家庭住房信息,其中包括决定房价的多种因素。Boston房价数据共有506个观测样本、14个变量,其中各个变量的解释如下:

 结果分析:

首先,识别数据中有没有缺失值,根据R语言中语句is.na(  ),结果可以看出,数据中是没有缺失值的。多元线性回归要求自变量与因变量存在线性关系,故我们利用散点图和相关 系数图来判断自变量与因变量之间存在的关系,使之后可以更好地建立模型。其中散点图和相关系数图分别如下的图1和图2、3,方阵散点图看着比较费劲,而且很难看出来各个变量之间的影响程度,因此,可以观察各变量的相关性矩阵系数图,有图3

                                                  &n

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值