背景
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非常流行的非线性降维技术,主要用来对高维数据进行可视化,了解和验证数据或者模型。t-SNE属于流行学习(manifold learning),假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。
t-SNE 基本理论
假设一个数据集XXX,数据集中每个样本都是DDD维的,X∈RDX\in R^DX∈RD,t-SNE的目的是生成一个低维的特征集Y∈RdY\in R^dY∈Rd来表征样本,其中d<<Dd<<Dd<<D。最典型的为d=2d=2d=2,从而将高维样本数据在二维平面上表示,方便观察数据的分布特性。
在降维过程中,目的是使原始空间中的两个样本点xix_ixi和xjx_jxj在降维后的空间中对应的点yiy_iyi和yjy_jyj保持同样的距离分布。为了达到这样的效果,t-SNE将原始空间的相似性建模为概率密度,并且相似性的分布由高斯分布给出。即,在原始空间中已知样本点iii的情况下,jjj点和iii点间的相似性可以用条件概率分布公式来表示:
pj∣i=exp(−∥xi−xj∥2/2σi2)∑k≠iexp(−∥xi−xk∥2/2σi2) p_{j | i}=\frac{\exp \left(-\|\mathbf{x}_i-\mathbf{x}_j\|^{2} / 2 \sigma_{i}^{2}\right)}{\sum_{k \neq i} \exp \left(-\|\mathbf{x}_i-\mathbf{x}_k\|^{2} / 2 \sigma_{i}^{2}\right)} pj∣i=∑k

本文深入解析了t-SNE(t-Distributed Stochastic Neighbor Embedding)降维技术的基本原理,介绍了其在高维数据可视化中的应用。通过数学公式详细阐述了t-SNE如何通过概率分布保持样本点之间的相对距离,以及如何使用KL散度衡量和优化降维前后数据分布的一致性。

6716

被折叠的 条评论
为什么被折叠?



