前言
在介绍马氏距离之前,我们首先看如下概念:
- 方差:方差是标准差的平方,而标准差的意义是数据集中各个点到均值点距离的平均值。反应的是数据的离散程度
- 协方差:标准差与方差是描述一维数据的,当存在多维数据时,我们通常需要知道每个维数的变量中间是否存在关联。**协方差就是衡量多维数据集中,变量之间相关性的统计量。**比如说,一个人的身高与他的体重的关系,这就需要用协方差来衡量。如果两个变量之间的协方差为正值,则这两个变量之间存在正相关,若为负值,则为负相关。
- 协方差矩阵:当变量多了,超过两个变量了。那么,就用协方差矩阵来衡量这么多变量之间的相关性。假设X是以n个随机变数组成的列向量:
X = [ X 1 X 2 . . . X n ] X=\left[{\begin{array}{l}X_1\\X_2\\...\\X_n\end{array}}\right] X=⎣⎢⎢⎡X1X2...Xn⎦⎥⎥⎤
其中, μ i \mu_i μi是第i个元素的期望值,即 μ i = E ( X i ) \mu_i=E(X_i) μi=E(Xi)。协方差矩阵 Σ \Sigma Σ的第i,j项被定义为如下形式:
∑ i j = c o v ( X i , X j ) = E [ ( X i − μ i ) ( X j − μ j ) ] \sum_{ij}=cov(X_i,X_j)=E[(X_i-\mu_i)(X_j-\mu_j)] ij∑=cov(Xi,Xj)=E[(Xi−μi)(X

本文详细介绍了马氏距离的概念及其推导过程,强调了它作为欧式距离修正版的重要性,尤其是在处理多维数据时能考虑变量间的相关性和尺度问题。通过协方差矩阵的特征分解,展示了马氏距离如何计算,并解释了其在数据相似度分析中的应用。

6632

被折叠的 条评论
为什么被折叠?



