统计学 一元线性回归
回归(Regression):假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量
-
线性回归:因变量和自变量之间是线性关系
-
非线性回归:因变量和自变量之间是非线性关系
变量间的关系
变量间的关系:往往分为函数关系和相关关系;函数关系是确定的关系(例如 y=x2y=x^2y=x2 中 yyy 和 xxx 的关系),而相关关系是不确定的关系(例如家庭储蓄额和家庭收入)
相关系数:度量两个变量之间线性关系强度的统计量,样本相关系数记为 rrr (也称为 Pearson 相关系数),总体相关系数记为 ρ\rhoρ :
r=∑(X−Xˉ)(Y−Yˉ)∑(X−Xˉ)2⋅∑(Y−Yˉ)2 r=\frac{\sum(X-\bar{X})(Y-\bar{Y})}{\sqrt{\sum(X-\bar{X})^2\cdot\sum(Y-\bar{Y})^2}} r=∑(X−Xˉ)2⋅∑(Y−Yˉ)2∑(X−Xˉ)(Y−Yˉ)
- r∈[−1, 1]r\in[-1,\,1]r∈[−1,1] ,越接近 111 代表两个变量之间正线性相关关系越强,越接近 −1-1−1 代表两个变量之间负线性相关关系越强,等于 000 表示两个变量之间不存在线性关系;
- rrr 具有对称性,即 rXY=rYXr_{XY}=r_{YX}rXY=rYX ;很显然,若 XXX 与 YYY 之间是线性关系,那么 YYY 和 XXX 之间也是线性关系;
- rrr 不具有量纲,对 XXX 和 YYY 的缩放不敏感,其数值大小与 XXX 和 YYY 的尺度以及原点无关;
- rrr 不能用于描述非线性关系,可以结合散点图得出结论;
- rrr 是两个变量之间线性关系的度量,但不一定意味着 XXX 与 YYY 有因果关系。
相关系数的检验:采用 R.A.Fisher 提出的 t 分布检验,既可用于小样本,也可用于大样本:
① 提出假设:H0H_0H0 :ρ=0\rho=0ρ=0 ;H1H_1H1 :ρ=1\rho=1ρ=1 ;
② 计算样本相关系数 rrr 以及检验统计量 t=rn−21−r2∼t(n−2)t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t(n-2)t=1−r2rn−2∼t(n−2)
③ 算出 PPP 值,进行决策
一元线性回归模型的估计
一元回归:当回归分析只涉及一个自变量时称为一元回归
回归模型:描述因变量 yyy 如何依赖于自变量 xxx 和误差项 ε\varepsilonε 的方程;一元线性回归模型可表示为:
y=β0+β1x+ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε
模型参数为 β0\beta_0β0 和 β1\beta_1β1 ;随机变量 ε\varepsilonε 被称为误差项,对其需要作出以下假定:
- 正态性:ε\varepsilonε 服从期望为 0 的正态分布;
- 方差齐性:对于所有的 XXX 值,ε\varepsilonε 的方差值 σ2\sigma^2σ2 都相同;
- 独立性:两个不同 XXX 值对应的 ε\varepsilonε 不相关
估计的回归方程:总体的 β1\beta_1β1 和 β0\beta_0β0 是未知的,需要用样本数据去估计,为:y^=β0^+β1^x\hat{y}=\hat{\beta_0}+\hat{\beta_1}xy^=β0^+β1^x (β1^\hat{\beta_1}β1^ 称为回归系数)
最小二乘法:使离差 ∣y^−y∣|\hat{y}-y|∣y^−y∣ 的平方和最小的估计方法,即:
Q=∑(yi−y^i)2=∑(yi−β^0−β1^xi)2=min Q=\sum(y_i-\hat{y}_i)^2=\sum(y_i-\hat{\beta}_0-\hat{\beta_1}x_i)^2=min Q=∑(yi−y^i)2=∑(yi−β^0−β1^xi)2=min
求导得到:
{
∂Q∂β0∣β0=β^0=−2∑(yi−β^0−β^1xi)=0∂Q∂β1∣β1=β^1=−2∑xi(yi−β^0−β^1xi)=0 \left\{ \begin{array}{l} \frac{\partial Q}{\partial \beta_0}\lvert_{\beta_0=\hat{\beta}_0}=-2\sum(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)=0 \\ \frac{\partial Q}{\partial \beta_1}\lvert_{\beta_1=\hat{\beta}_1}=-2\sum x_i(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)=0 \end{array} \right. {
∂β0∂Q∣β0=β^0=−2∑(yi−β^0−β^1xi)=0∂β1∂Q∣β1=β^<

本文详细介绍了统计学中的一元线性回归模型,包括线性回归的概念、相关系数的计算及其意义、最小二乘法估计参数的方法、决定系数在评估模型拟合优度中的作用,以及线性关系和回归系数的显著性检验。此外,还探讨了如何利用回归方程进行预测和残差分析来检验模型假设。

4万+

被折叠的 条评论
为什么被折叠?



