t-SNE 可视化

本文深入解析了t-SNE(t-Distributed Stochastic Neighbor Embedding)降维技术的基本原理,介绍了其在高维数据可视化中的应用。通过数学公式详细阐述了t-SNE如何通过概率分布保持样本点之间的相对距离,以及如何使用KL散度衡量和优化降维前后数据分布的一致性。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

背景

t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非常流行的非线性降维技术,主要用来对高维数据进行可视化,了解和验证数据或者模型。t-SNE属于流行学习(manifold learning),假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。

t-SNE 基本理论

假设一个数据集XXX,数据集中每个样本都是DDD维的,X∈RDX\in R^DXRD,t-SNE的目的是生成一个低维的特征集Y∈RdY\in R^dYRd来表征样本,其中d<<Dd<<Dd<<D。最典型的为d=2d=2d=2,从而将高维样本数据在二维平面上表示,方便观察数据的分布特性。

在降维过程中,目的是使原始空间中的两个样本点xix_ixixjx_jxj在降维后的空间中对应的点yiy_iyiyjy_jyj保持同样的距离分布。为了达到这样的效果,t-SNE将原始空间的相似性建模为概率密度,并且相似性的分布由高斯分布给出。即,在原始空间中已知样本点iii的情况下,jjj点和iii点间的相似性可以用条件概率分布公式来表示:
pj∣i=exp⁡(−∥xi−xj∥2/2σi2)∑k≠iexp⁡(−∥xi−xk∥2/2σi2) p_{j | i}=\frac{\exp \left(-\|\mathbf{x}_i-\mathbf{x}_j\|^{2} / 2 \sigma_{i}^{2}\right)}{\sum_{k \neq i} \exp \left(-\|\mathbf{x}_i-\mathbf{x}_k\|^{2} / 2 \sigma_{i}^{2}\right)} pji=k

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值