kaggle真是一个好网站,这里的微课虽然内容非常少,但是却是有着学习加训练的闭环。每次学习都能从实际例子中让我真正学到东西。好了废话不多说,今天继续冲机器学习的微课。
sql已经学完了,sql提高不打算看,因为这些操作可以在更便捷的编程语言上学习到。机器学习入门看了一半,不过不理解数据使得我止步了。但是今天我要重返这里,征服机器学习的高峰。
机器学习搞完看pandas和数据可视化模块。
目录
一、模型是怎么运作的
话题:房价
最基本的思想,决策树根据房子是否有两个卧室来决定房子是否值更多的钱
再提高复杂度,如果一个房子有两个卧室,那么它的面积是否大于一定的值,来判断他是否值更细分区间的价钱。
二、基本数据探索EDA
先使用pandas熟悉一下数据,基本的导入数据然后预览字符格式,行列数,预览前5行都是基本操作了。
iowa_file_path = '../input/home-data-for-ml-course/train.csv'
home_data = pd.read_csv(iowa_file_path)
home_data.describe()
这里还是简单的写一下都已经懂了
三、你的第一个机器学习模型
1、选择数据
2、选择预测目标
3、选择特征
4、建立模型
开始实战
home_data.columns
选择数据:查看一下列名
Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF',
'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC',
'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType',
'SaleCondition', 'SalePrice'],
dtype='object')
其实有很多黑话,简写增加了阅读难度,在以后的步骤里,我会根据需要进行翻译。

本文介绍了kaggle上的机器学习课程,通过实例讲解了模型运作原理、数据探索、建立首个模型、模型验证、过拟合与欠拟合的概念以及随机森林的应用。内容包括数据预处理、模型拟合、训练集验证集划分、平均绝对误差计算等。
&spm=1001.2101.3001.5002&articleId=120303579&d=1&t=3&u=621945903976418da2f29aa5e808eeaf)
2028

被折叠的 条评论
为什么被折叠?



