文本的常用距离测度
在NLP中文本均会被表示为向量的形式,为了给出任何两个文本之间的相似程度,则可以利用各类的距离进行表示,其中最为著名的两种距离就是欧式距离和宇轩相似度,此外还有曼哈顿距离也被广泛使用。而这三个测度方式均是在欧式空间下进行的。
本文以如下的两个向量作为例子进行具体的阐述:
vec1=[x1,x2,x3...xn]
vec2=[y1,y2,y3...yn]
欧氏距离
欧式距离就是最简单最直观的测度方式,两点之间连线最短,把这两个点的连线的距离计算出来就可以得到欧氏距离的结果了。也就是利用如下的公式可以计算出来。
E u c l i d e a n _ D i s t a n c e ( v e c 1 , v e c 2 ) = ∑ i = 1 n ( x i − y i ) 2 Euclidean\_Distance(vec1,vec2)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} Euclidean_Distance(vec1,vec2)=i=1∑n(xi−y<


2789

被折叠的 条评论
为什么被折叠?



