对于低维度数据集,或者高维度数据集在使用pca等方法降维后,有时需要根据标签画出3维图,不同类别标签使用不同颜色。
如下图所示,x,y,z为数据特征,根据类别使用不同颜色。

可见,特征混叠严重,需要更换降维方法。以下,将以 kaggle中Instant Gratification数据集(二分类数据集)为例,在使用pca降维后,根据类别使用不同颜色画图。
一.数据集
Instant Gratification数据集(二分类数据集)有256维特征,目标类别为target。
import pandas as pd
import numpy as np
def get_data(path):
df = pd.read_csv(path, index_col=['id'])
# df.head()
x = df.drop('target', axis = 1)
# X_train.head()
y = df['target']
return x, y
x, y = get_data('/kaggle/input/instant-gratification/train.csv')
x.head()

二.选取部分数据并降维
# 截取片段
x = x[:1000]
y = y[:1000]
# pca降维
from sklearn.de


1万+

被折叠的 条评论
为什么被折叠?



