完整走完一个机器学习项目（end-to-end machine learning project)上

原创

于 2018-12-30 14:37:09 发布 · 935 阅读

·

0

·

标签

#机器学习 #AI #machine learning #Python #数据挖掘

本文是《Hands on Machine Learning with Scikit-learn and TensorFlow》第二章的读书笔记，详述了一个完整的机器学习项目流程，包括理解问题、获取数据、数据预处理、选择模型和评估。讨论了房价预测问题，涉及数据的分层采样、性能度量指标如RMSE和MAE，以及如何使用Scikit-Learn进行数据切分。

Hands on Machine Learning with Scikit-learn and TensorFlow 读书笔记

Chapter 2 End-to-End Machine Learning Project

在这一章，你将会走完一个完整的机器学习项目。主要步骤如下：

对所需解决的问题有一个总体的思路
获取数据
通过数据可视化来得到对数据潜在规律的一些思考
在训练模型之前先对数据进行预处理
选择一个合适的模型进行训练
调整并找到最合适的模型参数
长期监督并维护你的学习系统

接下来我们将详细的走完这一整个项目：

对所需解决的问题有一个总体的思路：
本章节给的任务是一个房价预测问题，训练数据中包含了每个区的人口、中值收入以及该区的中值房价等。
我们首先要弄清楚这个任务的商业目的是什么，公司想要从这个模型中得到什么；这个问题很重要，因为他决定了你怎么设计你的流程，怎样选择算法，怎样选择性能度量指标，以及要花多少时间力气来调整它。
其次我们要知道该问题现有的解决方案以及这些解决方案的实行效果，这可以作为一个性能度量参考。
有了以上信息以后，我们要开始考虑，这是个问题是监督、非监督、还是强化学习？他是一个分类任务还是回归任务？我们要用批量学习还是在线学习？
这个任务很显然是一个监督学习任务，因为我们的训练数据是有标签的（每个实例都是对应的中值房价）；他也是一个回归任务，因为我们需要去预测出一个房价，这是一个准确的值而不是某个分类；在这个任务中我们选用批量学习，因为数据量较小并且输入数据并不总是很快的变化。

做好了以上决定，我们接下来要选择一个合适的性能度量指标，一个经典的用于回归问题的度量指标是

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。