t-SNE 可视化

最新推荐文章于 2026-05-16 09:06:02 发布

原创

最新推荐文章于 2026-05-16 09:06:02 发布 · 8.3k 阅读

标签

#t-SNE

本文深入解析了t-SNE（t-Distributed Stochastic Neighbor Embedding）降维技术的基本原理，介绍了其在高维数据可视化中的应用。通过数学公式详细阐述了t-SNE如何通过概率分布保持样本点之间的相对距离，以及如何使用KL散度衡量和优化降维前后数据分布的一致性。

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

背景

t-SNE（t-Distributed Stochastic Neighbor Embedding）是一种非常流行的非线性降维技术，主要用来对高维数据进行可视化，了解和验证数据或者模型。t-SNE属于流行学习（manifold learning），假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。

t-SNE 基本理论

假设一个数据集 $X$ ，数据集中每个样本都是 $D$ 维的， $X∈RDX\in R^D$ ，t-SNE的目的是生成一个低维的特征集 $Y∈RdY\in R^d$ 来表征样本，其中 $d < < D$ 。最典型的为 $d = 2$ ，从而将高维样本数据在二维平面上表示，方便观察数据的分布特性。

在降维过程中，目的是使原始空间中的两个样本点 $x_i$ 和 $x_j$ 在降维后的空间中对应的点 $y_i$ 和 $y_j$ 保持同样的距离分布。为了达到这样的效果，t-SNE将原始空间的相似性建模为概率密度，并且相似性的分布由高斯分布给出。即，在原始空间中已知样本点 $i$ 的情况下， $j$ 点和 $i$ 点间的相似性可以用条件概率分布公式来表示：
$p_{j | i}=\frac{\exp \left(-\|\mathbf{x}_i-\mathbf{x}_j\|^{2} / 2 \sigma_{i}^{2}\right)}{\sum_{k \neq i} \exp \left(-\|\mathbf{x}_i-\mathbf{x}_k\|^{2} / 2 \sigma_{i}^{2}\right)}$