决策树建模过程
1、第一阶段----环境准备
在这个阶段中,我们需要准备SparkSession和SparkContext,以及设置日志级别
必要的时候导入SparkSession隐式转化
2、第二阶段----数据准备
在这个阶段中,不需要太多的操作,只需要把待处理的数据路径准备好即可,一般我们会把待处理的数据放入resource目录下
3、第三阶段----读取数据
在这个阶段中,我们需要将数据处理成DataFrame格式,主要的事情是对这份数据进行结构上的优化,比如加上表头,如果是csv格式是数据还需要将其每一行的内容进行切割,识别类型
这里我们一般使用sc进行数据读取然后再将其转化成DF,转DF时常用手段时通过SparkSession的createDataFrame(rdd:RDD[Row],schema:StructType)方法创建
4、第四阶段----特征工程
在这个阶段中,我们主要需要做的:
a)类别标签索引化(通俗来说就是将字符串类型的类别标签列变成Double类型,以方便后续的使用)
这里用到API:StringIndexer
b) 特征列合并(本质来说是将所有Double类型的特征列,合并为一列Vector类型特征列)
这里用到的API:VectorAssembler
5、第五阶段----算法准备
在这个阶段中,我们需要根据是否有类别标签列采取不同的算法,如果有标签列我们就采用决策树算法,没有就采用聚类算法
这里用到的API:DecisionTreeClassifier
6、第六阶段----模型训练(做模型)
在这个阶段中,我们需要将上个阶段准备的算法和第四阶段处理后的数据集放到一起
算法对象调用fit(trainingSet)方法,将训练集传入
7、第七阶段----模型预测(试模型)
再这个阶段中,干的事就是利用训练好的模型,进行对第四阶段处理后的数据集进行使用(

本文详细介绍了在Spark环境中构建决策树模型的过程,包括环境准备、数据准备、读取数据、特征工程、算法准备、模型训练、模型预测、模型校验和模型保存等9个阶段。每个阶段涉及关键操作如数据读取、DataFrame转换、特征工程处理、模型训练与预测、准确率评估及模型保存。

2947

被折叠的 条评论
为什么被折叠?



