Data Mining| 类型变量编码(乳腺癌威斯康星数据集/葡萄酒数据集/鸢尾花数据集)
摘要:本实验使用sklearn库实现了四种类型变量编码方法(OneHot、Helmert、Label和Target Encoding),在乳腺癌、葡萄酒和鸢尾花三个数据集上分别应用随机森林和决策树模型进行分类。实验结果表明,不同编码方法在不同数据集上表现各异:Helmert编码在乳腺癌数据集准确率达96.5%,但存在恶性样本误判;Label编码在葡萄酒数据集实现100%准确率;OneHot和Target编码在鸢尾花数据集均达到完美分类。























