应用回归分析（知识点整理）（二）

最新推荐文章于 2026-06-16 18:52:50 发布

原创最新推荐文章于 2026-06-16 18:52:50 发布 · 5.4k 阅读

79 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#回归

本文详细阐述了多元线性回归的基本假设、参数估计及显著性检验，并介绍了中心化、标准化等预处理方法，同时对比了多种相关系数的概念及计算。

文章目录

多元线性回归

多元线性回归

基本假定，参数估计，显著性检验公式

多元回归的基本假定有以下几个方面：
（1）解释变量x(i)是确定性变量，非随机变量；且rank(X) = p+1 < n***(矩阵列不相关,表明设计矩阵X*为满秩矩阵)
（2）误差项具备高斯马尔科夫条件
（3）误差项服从正态分布

多元线性回归方程的解释：
对一般情况下含有p个自变量的多元线性回归方程，每个回归系数（记为B(i)）表示的是在回归方程中其它自变量保持不变的情况下，自变量x(i)每增加一个单位时，因变量y的平均增加幅度。（即多元回归的回归系数被称作偏回归系数[对回归方程求偏导可知]）

一元线性回归中已经证明过参数估计，模型诊断和预测，不再证明；列出公式
在这里插入图片描述

要注意的是，拟合优度R也被称作复相关系数，表示的是回归方程对原有数据的拟合程度，R方与回归方程中的自变量的数目以及样本量n有关，当样本量n与自变量个数接近的时候，R方接近1，其中会隐含虚假成分，因此不能完全根据R方就判定模型的优劣程度。

中心化和标准化

自变量x(i)所用单位大多不同，数据的大小差异也往往非常大，这就不利于在同一个标准上进行比较，为了消除量纲不同和数量级差异所带来的差异，将样本数据做中心化和标准化处理。

中心化

中心化即将坐标原点移动到样本中心，样本中心即为（x(j)_m,y(j)_m）【x_m,y_m表示的是对应列向量的均值】
做对应坐标变换：
x(ij)’ = x(ij) - x(j)_m ; i = 1,…… ,n ; j = 1,……,p (1)
y(i)’ = y(i) - y(i)_m ; i = 1,……,n (2)
其中(2)式即为所求的中心化经验回归方程，方程中的常数项为0，回归系数的最小二乘估计保持不变。

标准化

样本标准化的公式为数值减去它的对应列均值再除以列标准差
标准化过程包括了中心化，因此常数项也为0

相关系数

简单相关系数

由样本观测值x(ip)分别计算x(i)与x(j)之间的简单相关系数，得到自变量样本相关阵
[1 r12 … r1p
r21 1 … r2p
…
rp1 rp2 … 1]
相关阵为对称矩阵

复相关系数

即拟合优度R=SSR/SST

偏相关系数

即偏决定系数的平方根，偏相关系数可以度量p+1个变量y,x§之中的任意两个变量的线性相关程度，这种相关程度是固定在其余p-1个变量的影响下的线性相关。
例如：
模型中只含有x1和y时，它们的残差平方和记为SSE(x1)
模型中含有x1,x2和y时，它们的残差平方和为SSE(x1,x2)
则此时的加入x2的偏决定系数为r21 = [SSE(x1)-SSE(x1,x2)] / SSE(x1)
二者的偏相关系数再对偏决定系数开平方根即可