机器学习之决策树
Spark中的决策树模型参数:
model = DecisionTree.trainClassifier( trainData2, 7, Map(10 -> 4, 11 -> 40), impurity, depth, bins)
trainData2:训练集(标签向量数据)
7:分类个数
Map(10 -> 4, 11 -> 40):特征值的类型数量(比如第10个特征有4个类型值,第11个特征有40个类型值)
如果特征值为纯粹的单个数值类型可以不用映射,直接写成 Map[Int,Int]()
impurity:指定不纯度,分类中主要是gini系数和entropy标准熵。
depth:指定树的深度。
bins:指定最大节点数。
本文详细介绍了Spark中决策树模型的参数配置方法,包括训练集、分类个数、特征值类型数量、不纯度指标、树深度及节点数等关键概念。


被折叠的 条评论
为什么被折叠?



