数据挖掘之离散化和概念分层学习笔记

最新推荐文章于 2021-11-03 09:44:33 发布

原创

最新推荐文章于 2021-11-03 09:44:33 发布 · 3.4k 阅读

·

2

·

标签

#数据挖掘 #离散化 #概念分层

本文探讨了数据挖掘中的离散化和概念分层技术，旨在减少连续属性值的数量，提高分类挖掘效率。介绍了五种数值概念分层方法：分箱、直方图分析、聚类分析、基于熵的离散化和自然划分数据分段。这些方法通过创建概念分层，降低数据复杂性，提高数据解释性和存储效率。

离散化和概念分层产生

通过将属性域划分为区间，离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法，减少属性值的数量特别有好处。通常，这种方法是递归的，大量的时间花在每一步的数据排序上。因此，待排序的不同值越少，这种方法就应当越快。许多离散化技术都可以使用，以便提供属性值的分层或多维划分——概念分层

对于给定的数值属性，概念分层定义了该属性的一个离散化。通过收集并用较高层的概念（对

于年龄属性，如young, middle-age 和senior）替换较低层的概念（如，年龄的数值值），概念分层可以用来归约数据。通过这种泛化，尽管细节丢失了，但泛化后的数据更有意义、更容易解释，并且所需的空间比原数据少。在归约的数据上进行挖掘，与在大的、未泛化的数据上挖掘相比，所需的I/O 操作更少，并且更有效

对于用户或领域专家，人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而，许多分层蕴涵在数据库模式中，并且可以在模式定义级定义。概念分层常常自动地产生，或根据数据分布的统计分析动态地加以提炼。

数值属性的概念分层可以根据数据分布分析自动地构造。五种数值概念分层产生方法：分

箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。