Spss 学习笔记（八）-CSDN博客

博客介绍了变量划分，包括名义、序次、间距、比率测度。阐述多元回归，涉及因变量、自变量确定及回归模型构建、检验。还介绍确定系数R2、偏确定系数等统计量，以及综合测量、正态性检验等方法，最后讲解多元方差分析用途、模型及数据要求。

乱七八糟的摘录了好多，都贴这里吧，时间长了，都不太记得了。

这本书里提到的变量的划分是：名义测度（定名测度）、序次测度、间距测度、比率测度。

多元回归将所研究的变量分为一个被影响的变量（称为因变量）和一组影响变量（称为自变量）。要求因变量必须是艰巨测度以上等级的变量（连续变量），自变量可以是间距测度变量、也可以是名义测度等级的变量（也称为分类变量）。

因变量和自变量的确定是建立回归模型的主要任务。在回归模型中，研究人员以规定因变量和自变量的方式确定研究变量之间的因果关系，加以量化描述，并根据实测数据求解这一模型的各个参数，评价回归模型是否能很好的拟合实测数据，检验各自变量的作用事否符合预先的构想。如果模型可以很好的拟合实测数据，回归模型还可以用于预测。

一个自变量的回归称为一元回归或简单回归。

确定系数R2：

我们想知道，一个解释性或者预测性的方程效率如何，也就是说，所得到的回归方程在多大程度上解释了因变量的变化，或者说方程对观察值得拟合程度如何。

R2称为方程确定系数，它取值在[0，1]之间。R2越接近1，表明方程中的变量对y的解释能力越强。通常将R2乘以100%表示回归方程解释y变化的百分比。

当采用曲线拟合数据时，R2可以作为选择不同模型的标准。当模型中的变量是线性关系时，R2是方程拟合优度的度量。R2越大，说明回归方程拟合数据越好，或者说x与y线性关系越强。即回归方程中的自变量对y的解释能力越强。当R2等于1时，所有的观察值都落在拟合平面上。R2越小。说明x与y的线性关系越弱，它们之间的独立性越强，或者说对x的了解无助于对y的预测。当R2接近于0时，说明x与几乎不存在线性关系，但可能存在很强的非线性关系。

但是R2高并不表示模型选择食正确的，在建立回归方程之前，通常应该先观察散点图以确定合适的模型，这时的R2才是有意义的。

随着自变量个数的增加，余差平方和逐渐减少，R2随之增大，尽管有的自变量与y线性关系不显著，将其引入方程后，也会使R2增加。所以，R2是一个受自变量个数与样本规模之比影响的系数，一般的常规是1：10以上为好。当这个比值小于1：5的时候，R2倾向于高估实际的拟合优度。为了避免这种情形，常用调整地R2代替R2。

对于R2开平方，就得到多元相关系数R：

R又被称为复相关系数，它的值域为[0，1]，R值越接近1，表明y与所有x之间的线性关系越密切。当R=1时，所有的观察值都落在拟合平面上；当R等于0时，这时y的线性变化与x的变化无关。

偏确定系数：

方程的确定系数R2表示方程中所有变量解释y的变化占y总变化的比例，但是有时我们还想知道方程中的每一个变量对减少余差平方和的边际贡献。这就是偏确定系数，它的值域也在[0，1]中变化。

偏确定系数可以用于判断自变量的重要性。如果它的分母改为总余差平方和，并将分子分母分别除以相应得自由度，即可以用于偏F检验，在逐步回归和向后回归中，它的数值用以确定保留在方程中的变量。

注意偏确定系数是在原有方程的基础上增加一个新的变量时计算出来的。根据同一原理，还可以计算偏多元确定系数。即在原有方程的基础上增加多个变量时所计算出来的，表示的是新增的若干变量对y的边界贡献。

它在分析一个不可分割或研究人员不愿加以分裂的变量组时是非常有用的。比如，在遇到表示多个不同类别的虚拟变量时，虽然它们是多个，但其实代表的是一个多分类的名义测度变量，因此单个计算偏确定系数实际上是意义不大的。

偏相关系数：

对于偏确定系数开方，即得到偏相关系数的绝对值。这里所说的偏相关是控制其它变量条件下两个变量之间的相关，因此这一偏相关是有正负之分的，其符号与对应偏回归系数的符号一致。通常称控制变量的个数为阶。由于简单相关没有控制变量，因此也称为零阶相关。

偏相关系数可以检验在控制了其它变量之后，某一个变量x是否与y确有相关关系及关系得强弱，因此是研究分析中十分重要的内容。

回归方程的检验和回归系数的推断统计

一般情况下，我们是通过抽样样本观测数据来推断总体的情况。因此，样本中计算的各统计量都服从一定的抽样误差。检验样本回归方程各统计量，就是为了根据样本统计量来判断总体各参数的情况。

当回归方程检验显著的时候，就可以认为回归方程中至少有一个回归系数是显著的，但是并不一定所有的回归系数都是显著的，我们希望在方程中保留最重要的变量，删除不显著的变量，为此必须对每个变量的回归系数进行检验。

在多元回归分析中，一个经常遇到的问题是如何判别在所考察的因素中，哪些是影响的主要因素，哪些是次要因素。

直接比较回归系数是不行的，因为它们的值分别与各变量的单位有关系。在测量单位不一致的时候，就不存在可比性。如果将自变量和因变量进行标准化，得到的标准化的回归方程，得到的回归系数称为标准化回归系数。

当自变量之间高度相关时，回归方程中的自变量会相互削弱各自对y的边界影响，使本身的回归系数的数值下降而其标准误差扩大，于是就会出现回归方程整体显著，但是各个自变量都不显著的现象，称为多重共线性。这时候，方程的回归系数是不可靠的。

当方程中的自变量高度线性相关，出现严重的多重共线性时，会对回归分析产生如下影响：

1、回归系数的置信区间变宽，系数变得不稳定，即不同样本计算得到的回归系数将会差别很大，从而将由一个样本得到的回归系数推广到总体时，是不可靠的。

2、回归系数不能反映自变量的独立作用，因为当一个自变量变化时，会反映其它相关变量的变化，从而该变量的回归系数不能很好代表其它变量不变时，该变量的变化对y的影响。

3、使新增变量产生的回归平方和的增量小于方程中未含有与其相关变量时产生的增量，从而使变量的偏确定系数变小，或者变量的边界作用下降。

4、。。。。回归结果不可靠。

需要指出的是，多重共线性指的是自变量之间的线性相关，当自变量之间非线性相关时，不一定产生严重的多重共线性问题。

最优方程的选择：

为了使回归方程中的自变量都变得显著，同时这个方程的R2又尽可能的大，就会想到找一个最优的回归方程，这个方程包含了尽可能夺得对y有较大影响的变量，同时这些变量又都是显著的。一个直观的办法，就是算出所有不同自变量组合的回归方程，从中挑选最优者。

尽管频率表、条形图和直方图对数据的概括和描述很有帮助，但是通过各种综合测量，进一步描述数据也非常重要。

所谓综合测量，首先要决定数据的测量水平，测量水平分为四类：标称（定类）、次序（定序）、区间（定距）、比例（定比）。

给数据确定测量水平之后，接着要选择合适的统计量。综合统计量有集中趋势的统计量、离散趋势的统计量和形状测量的统计量三种。

集中趋势的统计量用于内部差异较小的数据，它的统计量主要有均值、中位数、众数三种。

众数：最常发生的频次。通常只用于标称数据的测量中，不用于次序数据的测量。

中位数：分为奇数的中位数和偶数的中位数。中位数只用于定序变量的测量中。

奇数的中位数：观察值排序后其一半落在中位数之上，观察值的另一半落在中位数之下。

偶数的中位数：等于两个中心值之和除以2所得的商。

均值：均值是所有观察值的平均值。只用于区间以上（定距以上）数据的测量，不用于标称数据和次序数据的测量。

均值受远离中心的那些数据的影响很大，而中位数则不然。

在对分变量（0，1编码）中，均值对这类变量有特殊的解释。

在对称分布中，采用集中趋势测量时，变量的均值、众数、中位数三者往往很接近。

离散趋势的测量：

当甲乙两种分布可能相同时，应该采用集中趋势的统计量，当两种数据分布有明显的差别时，应该采用离散趋势的统计量进行测量。

统计量分为全距和方差。

当两端点的数据相同时（没有差异），方差S2=0；当两端点的数据差异越大，方差S2也越大。

形状测量的统计量：

形状测量可以用来检测一组数据分布是否呈现对称分布。当一组数据为对称分布时，绝大多数观测值都将集中于图形的中部；当一组数据为非对称分布时，则有更多的观测值偏向分布的一侧，而形成偏态分布。

对称分布的种类：

钟形分布：这种分布，越远离中心点，观测值出现的频率就越少。

正态分布：在自然界和现实生活中，大多数现象都呈现着正态分布。正态分布是统计学中最总要的分布，也是描述各种样本分布的基本参考点。当把图形沿中间线折叠起来，两端是重合的：均值、中位数、众数三者将分别对应得重叠在一起。

非对称分布：

偏态分布：如果曲线的尾部朝向较大的值时，称为正偏态或右偏态；如果曲线的尾部朝向较小的值时，称为负偏态或左偏态。

峰态分布：以标准偏态曲线为基准，当观测值向中心点的聚集程度较大时，称为峰态分布。

尖峰态：比峰态分布更陡峭、更聚集。与正态分布相比，更趋向于有更多的观测值落在两端。

低峰值：它的峰态分布的聚集程度，要比正态分布平坦和分散。

从一张直方图可看到某种峭度和偏斜度。但要得到景区值，需要通过spss。

标准分（z值）的均值为0、标准偏差为1。Z值指出一个观测值有多少标准偏差落在了均值之上或均值之下。

Levene检验：

检验两个样本的数据是否具有相等方差时，虽然可以采用多种检测方法，但是多数都是基于数据必须服从正态分布这一假设，否则就失去数据检验的意义。Levene检验则较少依赖于正态性的假设，因而，它是等方差性检验的特别有效的方法。

Spread-level（幅度-水平）检验：

幅度-水平图，是指框图的高度与各变量的水平或均值之间的关系。

幂转换：

将每个数据做特定乘方运算，通常被用于稳定方差。当幂指数为零时，则是对数据求自然对数。

确定幂转换所用的指数，是把每组数据的中位数求对数及框顶（四分位级差）求对数，再将两种对数值作为坐标，画在坐标图上。

正态性检验：

1、图示法：

偏态图

可以描绘这些点偏离直线的实际偏差，这种偏离直线的偏差则构成了偏态图。如果样本来自正态总体，这些点应该分布在一条过原点的水平线上，且没有任何模式；如果有一个明显的模式，则意味着总体并非正态分布。

正态概率图：

对于正态概率图，每个观察值与其来自正态分布中的期望值组成数据点，这些数据点多数应落在一条直线上。

2、显著性水平检验法：

Shapiro-wilks检验：

当均值与方差均未知而必须从数据中估计时使用。

Lilliefors正态检验法：

当显著性水平significance<0.05时，固然可以拒绝正态假设。但是，当样本规模比较大时，任何拟合度的检验，几乎都认为有理由拒绝原假设。因此难以找到一个服从正态分布的数据。所以，对于大规模的样本数据，不仅要考察观察值的显著性水平，而且还必须考察其对正态分布的实际偏离程度。

集中趋势分布的三种较佳的平稳测量：

一、中位数：

1、中位数

中位数和均数、众数不同，中位数依赖于数据的主体部分而非极值。因此，它的值不是过分的受某几个观察值的影响。

2、平稳估计量

如果我们对数据来源的总体做出某个假定，则将会求出更好的分布位置的估计量，这种估计量称为平稳（或稳健）估计量。

二、修正均值：

1、修正均值

由于均值受极值影响很大，因此，可以通过去掉一些远离主体数据的极值，进而获得一个分布位置的简单而平稳的估计量。

修正均值的优点：

与中位数法一样，此法生成的统计量也不受极值的影响。

与中位数不同的是：它并非仅仅基于位于中央的单一值（奇数）或两个数值（偶数），而是基于位于中央的多个数值。

中位数可作为一个50%的修正平均值。高于或低于中位数的各占半数的数据将被忽略。

总之，调整后的均值比中位数可更好的描述数据。

M估计

修正平均值，是把个案分为两组，一组用来计算均值，另一组则作为比较，然后观测两组频次，并分别赋予其权重1和0，最后计算其加权平均数。

另一种折中的方法，是把极值包括在计算之内，而赋予一个权重较小的。这种方法可以借助M估计或采用广义极大似然度估计。

所有常用的M估计在赋予权重的时候，观察值离分布中心越远，权重就越小，反之亦然。

常见的M估计有4种：Huber的M估计量、Hampel的M估计量、Tukey的M估计量、Andrew的M估计量。

多元方差分析：

主要的用途是同时分析和检验不同类别在多个间距测度等级变量上是否存在显著差别。

当统计分析中需要比较来自两个子总体的样本平均值是否有明显差异时，我们通常应用t检验方法。比如，比较男性和女性的平均初婚年龄时，无差异假设为：

H0:Y1=Y2

即两个子总体各自的平均值之间无差异。于是我们从两个子总体中的随机样本中计算的平均值作为对两个子总体的估计，然后在考虑抽样误差的条件下进行比较，以决定接受或拒绝无差异假设。

在研究中如果同时有多个子总体时，应用t检验需要两两加以比较，显得十分繁琐。因此，我们往往应用综合性更强的方差分析方法而代之。方差分析将提出问题的方式进行了变化，其统计假设为，这些子总体的平均值中是否至少有一个与其他子总体的平均值存在显著差异，表示为无差异假设。

方差分析的思路为，将来自各子总体抽样样本汇合在一起，先假设他们来自一个总体，然后将这个汇合样本的总变动分解为两个部分。一部分是组内变动，代表着本组内各案例值关于组平均值的分布离散程度。另一部分时组间变动，代表着各组平均值关于总平均值的分布离散程度。实际上，组内变动代表了在汇合总体的总变动中不能用分组因素进行解释的部分，组间变动代表了同一总变动中可以用分组因素加以解释的部分。将这两个变动部分除以他们对应得自由度，即得到均方差。组间变动均方差除以组内变动均方差以后的统计量服从F分布，于是我们可以通过统计值对应得显著水平决定接受或者拒绝当初的无差异假设。

由于一个完整的多元回归分析中包含了相关分析、方差分析、回归分析几个方面的内容，因此研究人员越来越愿意使用代表不同分组的虚拟变量（或效应变量）以多元回归的形势进行方差分析，这种以多元回归形势所进行的方差分析不仅可以检验同一无差异假设，而且描述各分组平均值与参照组平均值之间的差异，并且对这些差异分别进行t检验。

多元方差分析是方差分析方法的进一步扩展。无论是单因素方差分析、多因素方差分析、还是多元回归分析，它们的一个共同点是他们只涉及到一个因变量，不管他们的自变量有多少，换句话说，就是其分组有多复杂，最后是通过一个指标上的观测值来反映其所产生的差异和变化的。所以，方差分析或以多元回归形势进行的方差分析是完全等价的。

数学模型：y=x1+x2+x3+…+xk

其中y是因变量，而且必须是间距测度等级的变量；x是表示分组的名义变量；k是分组变量的序号。

当模型中除了分类变量以外，还有其他间距测度等级的自变量时，这一模型就成为协方差分析，其功能是将间距变量作为控制变量的情况下进行方差分析。

相比多元方差分析的一般模型和多元回归的一般模型，这两个名称关于元的定义是完全不同的。多元回归的元是指自变量的数目，而多元方差分析的元时指因变量的数目。

多元方差分析与一般的方差分析类似，用途也是检验不同分组是否存在显著差异。所不同的是，它检验是建立在同时考察多个反映变量的观测值上，而不是仅考察一个反映变量。

多元方差分析的数据要求和假设条件：

多元方差分析是一元方差分析的扩展。它的因变量必须为间距测度等级变量，自变量为名义测度等级的分组变量。

由于存在多个因变量，因此对于因变量之间的关系有专门的要求。首先，因变量之间需要存在一定程度的相关。这里包含两层意思：

其一是因变量之间应该为线性相关，如果是非线性关系，则多元方差关系会失去发现和检验分组之间多元差异的能力。如果已知某些因变量之间存在非线性关系，可以先对因变量进行改造，使非线性关系线性化，然后再用改造得到的变量进行多元方差分析。

其二是变量之间有一定强度的相关，否则不足以发现和检验分组之间的多元差异。因变量之间如果线性相关程度太弱，采用多元方差分析将一无所获。