sklearn是机器学习中的一个常用的python第三方模块,里面对机器学习的许多方法进行了封装,在进行机器学习的任务时,许多常用的算法可在这个模块中直接调用。并且sklearn中还提供了许多可用于分类、回归的优质数据集。使用好sklearn最直接的方法就是仔细阅读官方http://scikitlearn.org/stable/index.html
sklearn就像是一个模板库,是许多机器学习框架中的基础
首先import datasets在sklearn中加载你需要的数据集
from sklearn import datasets #从sklearn中导入其自带的优质数据集
import numpy as np
import matplotlib.pyplot as plt
'''
例如:
iris=datasets.load_iris() #使用其中的鸢尾花数据集(分类)
X=iris.data #得到数据的特征集,该数据集有四个特征:花萼长、宽和花瓣长、宽
Y=iris.target #该数据的标签集
'''
boston=datasets.load_boston() #波士顿房价数据集(506*13,回归)
#print boston.DESCR #可以查看sklearn数据集的一些属性
X=boston.data #数据有506条,每条数据有十三个特征和一个真实值
Y=boston.target
自己可以将得到的数据集手动划分得到需要的训练集和测试集
sampleRatio=0.5 #划分训练集和测试集各一半
m=len(X)
sampleBoundary=int(m*sampleRatio)
myshuffle=list(range(m)) #注意Python3中

本文介绍了如何利用sklearn库进行最小二乘线性回归。通过加载数据集,划分训练集和测试集,然后使用linear_model中的fit方法进行模型拟合,predict方法进行预测,score方法评估模型性能。sklearn还提供了coef_和intercept_属性获取回归方程,并且包含了丰富的数据预处理和误差验证功能。

9454

被折叠的 条评论
为什么被折叠?



