Kaggle｜入门：泰坦尼克号生存预测（线性回归）

最新推荐文章于 2024-12-28 09:00:00 发布

原创

最新推荐文章于 2024-12-28 09:00:00 发布 · 6.2k 阅读

标签

#kaggle #machine learning #linear regression

收录于

前段时间学习了吴恩达的机器学习课程，然后蠢蠢欲动想要有所体验机器学习，于是上kaggle来体验了一下入门比赛-泰坦尼克号生存预测。

在kaggle上下载了项目训练集，就可以开始动手啦

本文仅仅是新手入门，hhh

1.数据初探

import numpy as np
import pandas as pd 
import seaborn as sns

import matplotlib.pyplot as plt

data_train=pd.read_csv('train.csv')
data_train.head()

使用head快速返回前5条消息。可以发现结果如下：

在kaggle页面上，我们找到了每一列的说明：

Variable	Definition	Key
survival	Survival	0 = No, 1 = Yes
pclass	Ticket class	1 = 1st, 2 = 2nd, 3 = 3rd
sex	Sex
Age	Age in years
sibsp	# of siblings / spouses aboard the Titanic
parch	# of parents / children aboard the Titanic
ticket	Ticket number
fare	Passenger fare
cabin	Cabin number
embarked	Port of Embarkation	C = Cherbourg, Q = Queenstown, S = Southampton

大致就是：

# passengerId 乘客编号
# survived 是否存活 1是 0否
# pclass 船舱等级 1=lst 2=2nd 3=3rd
# name 姓名
# sex 性别
# age 年纪
# sibsp ?上的兄弟姐妹/配偶个数
# parch ?上的父母，孩子
# ticket 船票号码
# fare 船票价格
# cabin 船仓号
# embarked 登船港口 C = Cherbourg, Q = Queenstown, S = Southampto

对于样本，我们进行整体把握，查看一下总体的信息：

data_train.info()

# 可以发现age，和cabin有大量缺失
# embarked只有两条缺失

2.数据处理与特征选择

Cabin船舱号有大量空值，对于空值填充可能有较大误差，所以我们先不考虑cabin作为特征

pass

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

watermelon-Lee

关注关注

9
点赞
踩
68

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

泰坦尼克号幸存者预测（案例）----决策树版

weixin_46088152的博客

05-08

1204

因为特征和标签都在一个表上，所以得把特征和标签分开。并且用data.info()去查看数据是否有缺失。这样只能一次调一个参数，所以有了下面的网格搜索。把object处理为数字，因为只能处理数字。训练数据，（这样划分偶然性很强）把数据分为测试集和训练集。所以我们得填补缺失值。把不需要的特征删除。

2 条评论您还未登录，请先登录后发表或查看评论

【机器学习kaggle赛事】泰坦尼克号生存预测

m0_51933492的博客

09-22

6063

回顾这个项目的基本流程：1、查看数据集，合并训练集测试集以一起进行数据清洗2、数据清洗：查看数据集空缺值，并填充空缺值3、探索性可视化：通过透视表和图表，探究各个特征与label（需要预测的值）的相关性，若有相关性则保留。4、特征选择：通过相关系数来选择。

Kaggle泰坦尼克号幸存者预测

qq_45022743的博客

06-07

4220

解析一名金牌选手方案 泰坦尼克号——来自灾难的机器学习 1.数据有两个数据集，分别是训练集train.csv和测试集test.csv。 train.csv包含乘客子集的详细信息（准确地说是 891 人），揭示了他们是否幸存，也称为“基本事实”。test.csv 数据集包含类似的信息，但没有透露每位乘客是否幸存，预测这些结果是你的工作，即：使用你在 train.csv 数据中找到的模式，预测船上的其他 418 名乘客（在 test.csv中找到）是否幸存。下面了解一下train.csv数据集中的变量：

泰坦尼克号生存预测python_Kaggle Titanic 生存预测比赛超完整笔记（下）

weixin_39640085的博客

11-27

366

原标题：Kaggle Titanic 生存预测比赛超完整笔记（下）本文作者大树先生，首发于作者的知乎专栏《机器学习之路》， AI研习社获其授权发布。一直想在Kaggle上参加一次比赛，奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识，断断续续用一段时间做了Kaggle上的入门比赛：Titanic: Machine Learning from Disaster。总的来说收...

经典泰坦尼克数据集生存率预测

ccc_bioinfo的博客

08-18

1566

今天发现投的实习都gg了，正式开始学机器学习啦。之前coursera的吴恩达其实学过的，python基础也有的，所以直接开始搞项目。kaggle登不上去，打算从天池和科赛开始模仿起。第一个项目，泰坦尼克号生存率预测，三种算法： 1、线性回归 2、逻辑回归 3、随机森林【数据预处理】 import pandas as pd import numpy as np path1='D:/data_analysis/jupyter_notebook/machine_learning/dataset//tita

一文搞懂逻辑回归（内附Kaggle实战源码与数据集）

热门推荐

江月的博客

08-09

1万+

Kaggle经典测试，泰坦尼克号的生存预测，机器学习实验----02 文章目录Kaggle经典测试，泰坦尼克号的生存预测，机器学习实验----02一、引言二、问题三、问题分析四、具体操作1、读取数据并且进行预处理2、划分标签以及特征并且初始化参数3、开始线性回归4、测试模型并且进行打分5、保存数据结果五、完整代码六、本算法的核心代码：一、引言 泰坦尼克号（RMS Titanic），又译作铁达尼号，是英国白星航运公司下辖的一艘奥林匹克级游轮，排水量46000吨，泰坦尼克号是当时世界上体积最庞大、内部设施最

kaggle入门学习-1 泰坦尼克号生存预测

weixin_41281151的博客

09-14

437

kaggle入门学习 泰坦尼克号生存预测参考博客：Kaggle｜入门：泰坦尼克号生存预测（线性回归）特征选择 import matplotlib.pyplot as plt import numpy as np import pandas as pd import seaborn as sns import math from sklearn.linear_model import LinearRegression #导入线性回归 #训练集进行交叉验证，得到均值 from sklear

【实战】机器学习Kaggle入门：房价预测比赛(手把手附源代码)

鱼大

03-06

1万+

前面已经有了两篇机器学习Kaggle入门的笔记， 机器学习Kaggle入门，经典又兼具备趣味性的泰坦尼克号问题 机器学习Kaggle入门，自行车租赁预测比赛第一个问题是分类问题，第二个问题是回归问题。两个案例主要是展示了特征工程的魅力，如何利用第三方库快速的实现模型搭建。现在这篇文章，会侧重介绍kaggle的实际操作”现场“，方便大家去跟着思路学习进入到kaggle的真实世界，不...

泰坦尼克号数据集_泰坦尼克号生存率预测

weixin_39560604的博客

12-05

1080

目录一、泰坦尼克号生存率预测 1.提出问题 2.理解数据 2.1采集数据 2.2导入数据 2.3查看数据集信息 3.数据清洗 3.1数据预处理 3.2特征工程 4.构建模型 5.模型评估 6.方案实施 6.1得到预测结果 6.2报告撰写二、学习笔记 ...

kaggle-Titanic训练-线性回归法算法

weixin_44319196的博客

11-25

649

处理数据： import pandas as pd titanic=pd.read_csv("C:/Users/15520/Desktop/AI/kaggle/titanic/train.csv") # titanic.describe()#descrbie()函数只描述含有数据的列，对"sex"这样的列没有描述 #"age"列的数据有缺失，用平局值填充 titanic["Age"]=titan...

Python数据分析与机器学习实战＜九＞titanic数据集分析实例

qq_54809548的博客

11-12

5807

啊啊啊

Lasso回归——基于Kaggle数据集实战操作

weixin_50249953的博客

02-16

3044

特征选择方面的应用在金融、医学等领域应用比较广泛，较常用的步骤是先通过Lasso回归选择出对目标变量影响最大的特征，然后再利用这些特征构建模型，在一定程度上降低了模型的过拟合，提升了模型的泛化能力同时提升了模型的可解释性。在机器学习中，偏差是指模型在不同样本集上真实值和预测值之间的差异，简单地说，偏差衡量了模型对真实关系的拟合能力，如果偏差较低，模型能够相对准确地拟合数据中的关系，在这种情况下，模型可能在训练集上表现得很好，但是在测试集上的性能还需要检验。模型使用的数据来自于Kaggle网站中的。

Kaggle(一)：Titanic 数据集线性回归预测

YUxuaN0721的博客

07-30

1349

import pandas as pd titanic = pd.read_csv ("Desktop/research/Kaggle/Titanic/train.csv") titanic_test = pd.read_csv ("Desktop/research/Kaggle/Titanic/test.csv") titanic.head(5) print(titanic.describe()) #数值型 titanic["Age"] = titanic ["Age"].fillna(titanic["

kaggle--House Price(房价预测）--线性回归模型

查数菇乐园

03-11

4211

相关系数矩阵异常值处理 get_dummies去除量纲交叉验证

线性回归 | Kaggle案例预期寿命影响预期寿命的因素的统计分析（基于torch）

Mrrunsen的博客

05-25

2924

用线性回归预测死亡年龄使用世界卫生组织预期寿命数据集： https://www.kaggle.com/kumarajarshi/life-expectancy-who/data# import torch import torchvision import torch.nn as nn import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import torch.nn.functional as F from

Kaggle时间序列(Time Series)教程1-时间序列的线性回归(Linear Regression with Time Series)

一口气全念对的专栏

02-10

4145

最近学习机器学习，在kaggle看到的简单时间序列教程，于是翻译一下已做记录。渣翻译，请见谅。欢迎评论讨论，指出错误，互相学习！原文地址。欢迎来到时间序列课程! 预测也许是现实世界中机器学习最常见的应用。企业预测产品需求，政府预测经济和人口增长，气象学家预测天气。对未来事物的理解是科学、政府和工业界的迫切需求（更不用说我们的个人生活了！），这些领域的从业者越来越多地应用机器学习来满足这一需求。时间序列预测是一个历史悠久的广阔领域。本课程侧重于将现代机器学习方法应用于时间序列数据，以产生最准确的预测。本

kaggle实战3RossmanStore商店销售额预测XgBoost解决回归问题案例1

AnalogElectronic的博客

10-04

978

kaggle实战2信用卡反欺诈逻辑回归模型案例1数据集下载地址。

Kaggle -Linear Regression with Time Series

m0_56945333的博客

02-26

1511

时间序列的回归拟合的重要特征

机器学习入门之泰坦尼克号预测存活情况（Taggle）

fayoung3568的博客

08-11

7917

目录前言：介绍：过程：提出问题：理解数据：数据清洗：1、数据预处理2、特征提取介绍分类数据：有直接类别的性别(Sex)登船港口(Embarked)客舱等级（Pclass）分类数据：字符串类型姓名（Name）客舱号（Cabin）建立家庭人数和家庭类别(Family)结果：3、特征选择构建模型1、建立训练数据集和测试数据集2、选择机器学习算法3、训练模型评估模型方案实施得到预测结果上传到Kaggle评估模型方案实施得到预测结果上传到Kaggle 前言：本文中的项目是Taggle的入门比赛项目，旨在让大家对