数据预处理
- 聚集(aggregation):将两个或多个对象合并成单个对象。例如不同地点的事物数据集,合并。
优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。
缺点:可能会丢失模式。
- 抽样:是一种选择对象自己进行分析的常用方法。抽样长期用于数据的事先调查和最终的数据分析。
优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。
缺点:肯定没有全量数据分析准确,可能会 丢失模式 。
抽样方法:
1.简单随机抽样(simple random samping):随机取样。两种变形,无放回抽样,有放回抽样。
2.渐进抽样:随着分析数据集的大小,改变抽样策略。
- 维归约:减少维度的数量。经常通过创建新属性,将一些旧属性合并到一起的方法降低维度(例如主成分分析PCA,奇异值分解SVD;仅使用特征的一个子集,其实这里说的也就是去除不想关的维度 ,不过由于子集多达2^n个,大部分情况不适用)
优点:删除不相关的特征并降低噪声,使模型更容易理解。降低数据挖掘算法的时间和内存需求。
特征子集选择方法:嵌入、过滤、包装
1.嵌入方法 (embedded approach):特征选择作为数据挖掘算法的一部分是理所当然的。特别是在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式运行。
2.过滤方法 (filter approach):使用魔种独立于数据挖掘人物的方法,在数据挖掘算法运行前进行特征选择,例如我们可以选择属性的集合,它的属性对之间的相关度尽可能低。
3.包装方法 (wrapper approach):这些方法将目标数据挖掘算法作为黑河,使用类似于前面介绍的理想算法,但通常并不灭局所有可能的子集来找出最佳属性子集。
离散化:连续属性转为分类属性
二元化:暂时理解的是转为二进制方式表示,例如m个分类值,转成n=【log2 M】个二元属性标
- 变量变换(variable transformation):是指用于变量的所有值的变换。两种重要的变量变换类型:简单函数变换和规范化(标准化)。
本文探讨了数据预处理中的关键概念,包括聚集、抽样、维归约、变量变换等,以及它们如何帮助减少数据量,提升分析效率。同时介绍了特征选择方法,如嵌入、过滤和包装策略,以及离散化和二元化技术,进一步提高数据质量。最后,讨论了如何通过优化数据结构和算法,实现更高效的数据挖掘。
----- 数据(2)&spm=1001.2101.3001.5002&articleId=84363529&d=1&t=3&u=23d60e81c88241e5b9d1587bbb868605)
3717

被折叠的 条评论
为什么被折叠?



