决策树实战:用Fashion-MNIST图像分类,教你用‘区间划分’解决连续值过拟合

决策树在Fashion-MNIST分类中的实战:连续特征分箱与注意力可视化

当工程师尝试用决策树处理Fashion-MNIST这样的图像数据时,往往会遇到一个典型困境:784个像素维度(每个取值0-255)导致决策树疯狂生长,最终在训练集上表现完美却在测试集上惨不忍睹。本文将揭示如何通过连续特征离散化注意力可视化两大核心技术,让决策树在图像分类任务中重获新生。

1. 连续特征分箱:从多叉树到健壮二叉树

1.1 像素值分箱的数学原理

对于取值0-255的像素特征,原始决策树会在每个可能取值处进行分裂,导致树结构极度复杂。我们采用等宽分箱法将连续值转换为离散区间:

# 将像素值二值化(0-127为0,128-255为1)
def binary_binning(pixel_values):
    return np.where(pixel_values < 128, 0, 1)

# 更精细的四等分分箱
def quantile_binning(pixel_values):
    bins = np.linspace(0, 256, 5)  # [0,64,128,192,256]
    return np.digitize(pixel_values, bins) - 1

分箱后的信息增益计算变化(以基尼系数为例):

分箱策略 分裂点数量 训练时间(s) 测试准确率
原始值 255 38.2 0.112
二值化 1 4.7 0.803</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值