1.总平方和、回归平方和、残差平方和
因变量体重是一个数值,这个数值一般来说不会太大,也不会太小,是在一个范围内的。我们可以简单认为,这个"范围”越大,人们的体重多样性越大(严格来说,范围大说明极差比较大。如何度量这个多样性呢?人们设计了很多指标。最简单的一种,就是总平方和(total sum of squares, TSS):
TSS = (weight_1 - weight_mean)^2 + (weight_2 - weight_mean)^2+ … + (weight_N - weight_mean)^2
式中weight_mean是真实身高的平均值:
weight_mean = (weight_1 + weight_2 + … + weight_N)/N
假如大家的体重"都"和均值有较大的差距,也就是体重比较多样,就会导致TSS比较大;反之,大家的体重如果集中在均值附近,TSS就比较小。如图1-1,黄色部分的长度,表示的就是单个样本体重与均值的距离,我们可以感觉到,黄线越长,它们的平方和就越大。

TSS实际上就是方差(variance),用来度量数据偏离均值的程度。数据为什么会偏离均值呢?因为个体之间(的自变量取值)是有差异的,导致它们的某个指标(因变量)各不相同。我们训练的多元线性回归模型是用来模拟自变量和因变量之间的关系的,那么,这个模型计算出来的因变量取值,与真实值的均值间,有多大的差距呢?为了度量这个差距,我们构造了一个指标,就是回归平方和(也叫可解释平方和,exlplained sum of suqres, ESS):
ESS = (weight_pred_1 - weight_mean)^2 + (weight_pred_2 - weight_mean)^2+ … + (weight_pred_N - weight_mean)^2
ESS度量的是模型计算出来的体重与真实的体重均值的偏离程度,就是图1-1中绿色线条长度的平方和,实际上是模型里蕴含的关于年龄,身高和体重之间关系的知识的量的大小。
TSS和ESS之间有什么关系呢?TSS = ESS + RSS,式中RSS是残差平方和(residual sum of squares),也就是最小二乘法中的代价函数.而残差平方和的计算方法是:
RSS = (weight_1 -weight_pred_1 )^2 + (weight_2 - weight_pred_2 )^2+ … + (weight_N - weight_pred_N)^2
残差平方和表示的是模型计算得到的因变量取值与真实值的差距,RSS越大,说明计算值与真实值差距越大。
注意在这里,TSS-ESS-RSS = 0
证明:


2万+

被折叠的 条评论
为什么被折叠?



