总结sklearn中常用的机器学习算法

本文通过鸢尾花数据集,演示了多种机器学习算法的应用,包括随机森林、梯度提升树、逻辑斯谛回归和支持向量机等有监督学习方法,以及K-means聚类这一无监督学习方法。

监督学习算法

随机森林(RF)

随机森林算法,是bagging集成学习方式中的一种最具有特色的机器学习方法。它是以决策树为基本分类器,如果为分类问题,则最终采用投票法来决定类别;若为回归问题,则采用平均值的方法决定最终预测值。决策树算法带有剪枝过程,但RF算法没有此步骤。根据回归问题和分类问题,sklearn将RF算法分为:分类RF和回归RF。主要是依据样本特征而确定。可以直接利用RF进行多分类问题。一般情况下,RF做分类用CART决策树中的gini指数来选择最优特征。

利用纸鸢花数据集,进行预测分析,前4列为属性,第五列为类别。共150条数据,三个类别,每个类别50条数据。
纸鸢花数据集

def open_file(file_address):
    data = pd.read_csv(file_address,encoding='utf-8')
    #类别做标签
    data.loc[data.species == 'Iris-setosa', 'species'] = 0
    data.loc[data.species == 'Iris-versicolor', 'species'] = 1
    data.loc[data.species == 'Iris-virginica', 'species'] = 2
    dataset = data.loc[:,("sepal_length","sepal_width",\
                       "petal_length","petal_width")]
    label = data.loc[:,("species")]
    dataset = np.array(dataset) #转成numpy
    label = np.array(label)
    Num = len(dataset)
    ret
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Foneone

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值