多元线性回归
基本假定,参数估计,显著性检验公式
多元回归的基本假定有以下几个方面:
(1)解释变量x(i)是确定性变量,非随机变量;且rank(X) = p+1 < n***(矩阵列不相关,表明设计矩阵X*为满秩矩阵)
(2)误差项具备高斯马尔科夫条件
(3)误差项服从正态分布
多元线性回归方程的解释:
对一般情况下含有p个自变量的多元线性回归方程,每个回归系数(记为B(i))表示的是在回归方程中其它自变量保持不变的情况下,自变量x(i)每增加一个单位时,因变量y的平均增加幅度。(即多元回归的回归系数被称作偏回归系数[对回归方程求偏导可知])
一元线性回归中已经证明过参数估计,模型诊断和预测,不再证明;列出公式


要注意的是,拟合优度R也被称作复相关系数,表示的是回归方程对原有数据的拟合程度,R方与回归方程中的自变量的数目以及样本量n有关,当样本量n与自变量个数接近的时候,R方接近1,其中会隐含虚假成分,因此不能完全根据R方就判定模型的优劣程度。
中心化和标准化
自变量x(i)所用单位大多不同,数据的大小差异也往往非常大,这就不利于在同一个标准上进行比较,为了消除量纲不同和数量级差异所带来的差异,将样本数据做中心化和标准化处理。
中心化
中心化即将坐标原点移动到样本中心,样本中心即为(x(j)_m,y(j)_m)【x_m,y_m表示的是对应列向量的均值】
做对应坐标变换:
x(ij)’ = x(ij) - x(j)_m ; i = 1,…… ,n ; j = 1,……,p (1)
y(i)’ = y(i) - y(i)_m ; i = 1,……,n (2)
其中(2)式即为所求的中心化经验回归方程,方程中的常数项为0,回归系数的最小二乘估计保持不变。
标准化
样本标准化的公式为数值减去它的对应列均值再除以列标准差
标准化过程包括了中心化,因此常数项也为0
相关系数
简单相关系数
由样本观测值x(ip)分别计算x(i)与x(j)之间的简单相关系数,得到自变量样本相关阵
[1 r12 … r1p
r21 1 … r2p
…
rp1 rp2 … 1]
相关阵为对称矩阵
复相关系数
即拟合优度R=SSR/SST
偏相关系数
即偏决定系数的平方根,偏相关系数可以度量p+1个变量y,x§之中的任意两个变量的线性相关程度,这种相关程度是固定在其余p-1个变量的影响下的线性相关。
例如:
模型中只含有x1和y时,它们的残差平方和记为SSE(x1)
模型中含有x1,x2和y时,它们的残差平方和为SSE(x1,x2)
则此时的加入x2的偏决定系数为r21 = [SSE(x1)-SSE(x1,x2)] / SSE(x1)
二者的偏相关系数再对偏决定系数开平方根即可
部分相关系数
部分相关系数可以表示为:SSR(x2) = SSR(x1,x2) - SSR(x1)
即先引入x1再引入x2,SSR因此而产生的增量。
此时y对x2的部分相关系数的平方即为:SSR(x2) / SST
SPSS判断四种相关系数

上图中相关性(Correlations)中
简单相关系数(Zero-order)
ry2 = 0.746 ; ry1 = 0.807
其决定系数是对应简单相关系数的平方
1 - (1 - ry2^2)(1 - ry1^2) = R方(复相关系数的平方)
偏相关系数(Partial)
r21 = 0.739 ; r12 = 0.802
偏决定系数是对应偏相关系数的平方
部分相关系数(Part)
ry2 = 0.436 ; ry1 = 0.534
本文详细阐述了多元线性回归的基本假设、参数估计及显著性检验,并介绍了中心化、标准化等预处理方法,同时对比了多种相关系数的概念及计算。
(二)&spm=1001.2101.3001.5002&articleId=121453649&d=1&t=3&u=370b21804bc7473f955955dbdc702c93)
1万+

被折叠的 条评论
为什么被折叠?



