数据挖掘导论学习笔记（2）----- 数据（2）

最新推荐文章于 2026-06-24 19:11:55 发布

原创最新推荐文章于 2026-06-24 19:11:55 发布 · 182 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#人工智能 #数据结构与算法

Data Mining 专栏收录该内容

8 篇文章

订阅专栏

本文探讨了数据预处理中的关键概念，包括聚集、抽样、维归约、变量变换等，以及它们如何帮助减少数据量，提升分析效率。同时介绍了特征选择方法，如嵌入、过滤和包装策略，以及离散化和二元化技术，进一步提高数据质量。最后，讨论了如何通过优化数据结构和算法，实现更高效的数据挖掘。

数据预处理

聚集（aggregation）：将两个或多个对象合并成单个对象。例如不同地点的事物数据集，合并。

优点：减少分析的数据可以减少占用空间和处理时间，可以使用更大开销的挖掘算法。

缺点：可能会丢失模式。

抽样：是一种选择对象自己进行分析的常用方法。抽样长期用于数据的事先调查和最终的数据分析。

优点：减少分析的数据可以减少占用空间和处理时间，可以使用更大开销的挖掘算法。

缺点：肯定没有全量数据分析准确，可能会丢失模式。

抽样方法：

1.简单随机抽样（simple random samping）：随机取样。两种变形，无放回抽样，有放回抽样。

2.渐进抽样：随着分析数据集的大小，改变抽样策略。

维归约：减少维度的数量。经常通过创建新属性，将一些旧属性合并到一起的方法降低维度（例如主成分分析PCA，奇异值分解SVD；仅使用特征的一个子集，其实这里说的也就是去除不想关的维度，不过由于子集多达2^n个，大部分情况不适用）

优点：删除不相关的特征并降低噪声，使模型更容易理解。降低数据挖掘算法的时间和内存需求。

特征子集选择方法：嵌入、过滤、包装

1.嵌入方法（embedded approach）：特征选择作为数据挖掘算法的一部分是理所当然的。特别是在数据挖掘算法运行期间，算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式运行。

2.过滤方法（filter approach）：使用魔种独立于数据挖掘人物的方法，在数据挖掘算法运行前进行特征选择，例如我们可以选择属性的集合，它的属性对之间的相关度尽可能低。

3.包装方法（wrapper approach）：这些方法将目标数据挖掘算法作为黑河，使用类似于前面介绍的理想算法，但通常并不灭局所有可能的子集来找出最佳属性子集。

离散化：连续属性转为分类属性

二元化：暂时理解的是转为二进制方式表示，例如m个分类值，转成n=【log2 M】个二元属性标

变量变换（variable transformation）:是指用于变量的所有值的变换。两种重要的变量变换类型：简单函数变换和规范化（标准化）。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。