Kaggle|入门:泰坦尼克号生存预测(线性回归)

前段时间学习了吴恩达的机器学习课程,然后蠢蠢欲动想要有所体验机器学习,于是上kaggle来体验了一下入门比赛-泰坦尼克号生存预测。

在kaggle上下载了项目训练集,就可以开始动手啦

本文仅仅是新手入门,hhh

1.数据初探

import numpy as np
import pandas as pd 
import seaborn as sns

import matplotlib.pyplot as plt

data_train=pd.read_csv('train.csv')
data_train.head()

使用head快速返回前5条消息。可以发现结果如下:

在kaggle页面上,我们找到了每一列的说明:

Variable Definition Key
survival Survival 0 = No, 1 = Yes
pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
sex Sex  
Age Age in years  
sibsp # of siblings / spouses aboard the Titanic  
parch # of parents / children aboard the Titanic  
ticket Ticket number  
fare Passenger fare  
cabin Cabin number  
embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton

大致就是:

  1. # passengerId 乘客编号
  2. # survived 是否存活 1是 0否
  3. # pclass 船舱等级  1=lst 2=2nd 3=3rd
  4. # name 姓名
  5. # sex 性别
  6. # age 年纪
  7. # sibsp ?上的兄弟姐妹/配偶个数
  8. # parch ?上的父母,孩子
  9. # ticket 船票号码
  10. # fare 船票价格
  11. # cabin 船仓号
  12. # embarked 登船港口  C = Cherbourg, Q = Queenstown, S = Southampto

对于样本,我们进行整体把握,查看一下总体的信息:

data_train.info()

# 可以发现age,和cabin有大量缺失
# embarked只有两条缺失

2.数据处理与特征选择

Cabin船舱号有大量空值,对于空值填充可能有较大误差,所以我们先不考虑cabin作为特征

pass

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值