Pearson相关性系数可以看出是升级版的欧氏距离平方,因为它提供了对于变量取值范围不同的处理步骤。因此对不同变量间的取值范围没有要求(unit free),最后得到的相关性所衡量的是趋势,而不同变量量纲上差别在计算过程中去掉了,等价于z-score标准化。
而未经升级的欧式距离以及cosine相似度,对变量的取值范围是敏感的,在使用前需要进行适当的处理。在低维度可以优先使用标准化后的欧式距离或者其他距离度量,在高维度时Pearson相关系数更加适合。
欧氏距离(Euclidean Distance)是常见的相似性度量方法,可求两个向量间的距离,取值范围为0至正无穷。显然,如果两个向量间的距离较小,那么向量也肯定更为相似。此处需要注意的一点是,欧氏距离计算默认对于每一个维度给予相同的权重,因此如果不同维度的取值范围差别很大,那么结果很容易被某个维度所决定。解决方法除了对数据进行处理以外,还可以使用加权欧氏距离,不同维度使用不同的权重。
公式1:

Pearson相关性系数(Pearson Correlation)是衡量向量相似度的一种方法。输出范围为-1到+1, 0代表无相关性,负值为负相关,正值为正相关。
公式2:

Cosine相似度也是一种相似性度量,输出范围和Pearson相关性系数一致,含义也相似。
公式3:

标准化(Standardization)是一种常见的数据缩放手段,标准化后的数据均值为0,标准差为1。
公式4:

平方和(Summed Square)与样本方差(Sample Variance)之间的关系:
公式5:

公式6:由公式5可得

皮尔逊相关系数是衡量变量间线性相关性的指标,它不受变量取值范围影响,常用于高维数据。与欧氏距离和余弦相似度相比,它在处理量纲不同的数据时更具优势。当需要考虑变量趋势和去除量纲影响时,Pearson系数是理想选择。同时,标准化是数据预处理的重要步骤,确保不同维度的比较公平性。

2636

被折叠的 条评论
为什么被折叠?



