随机森林分类器详解及代码实现

原创

已于 2023-08-03 12:37:20 修改 · 7.1k 阅读

标签

#随机森林 #sklearn #机器学习

收录于

于 2022-05-31 14:00:19 首次发布

本文介绍了随机森林算法，它是一种基于决策树的集成学习方法。随机森林通过构建多个决策树并取其平均结果提高预测准确性。文章详细解释了随机森林的关键参数，如树的数量（n_estimators）、不纯度度量（criterion）、最大深度（max_depth）等，并展示了如何使用Scikit-Learn库实现随机森林。通过与单棵决策树的比较，强调了随机森林在稳定性和准确性上的优势。此外，还探讨了交叉验证在模型选择中的作用以及如何通过调整n_estimators找到最佳模型。最后，提到了随机森林的oob_score属性用于利用未参与建模的数据进行模型测试。

class sklearn.ensemble.RandomForestClassifier(n_estimators='100', criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='sqrt', max_leaf_nodes=None, min_impurity_decrease=0.0, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, cpp_alpha=0.0, max_samples=None)

随机森林是非常具有代表性的Bagging集成算法，它的所有基评估器都是决策树，分类树组成的森林就叫做随机森林分类器，回归树所集成的森林就叫做随机森林回归器。

单个决策树的准确率越高，随机森林的准确率也会越高，因为装袋法是依赖于平均值或者少数服从多数原则来决定集成的结果的。

重要参数

控制基评估器的参数