前段时间学习了吴恩达的机器学习课程,然后蠢蠢欲动想要有所体验机器学习,于是上kaggle来体验了一下入门比赛-泰坦尼克号生存预测。
在kaggle上下载了项目训练集,就可以开始动手啦
本文仅仅是新手入门,hhh
1.数据初探
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
data_train=pd.read_csv('train.csv')
data_train.head()
使用head快速返回前5条消息。可以发现结果如下:

在kaggle页面上,我们找到了每一列的说明:
| Variable | Definition | Key |
|---|---|---|
| survival | Survival | 0 = No, 1 = Yes |
| pclass | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
| sex | Sex | |
| Age | Age in years | |
| sibsp | # of siblings / spouses aboard the Titanic | |
| parch | # of parents / children aboard the Titanic | |
| ticket | Ticket number | |
| fare | Passenger fare | |
| cabin | Cabin number | |
| embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |
大致就是:
- # passengerId 乘客编号
- # survived 是否存活 1是 0否
- # pclass 船舱等级 1=lst 2=2nd 3=3rd
- # name 姓名
- # sex 性别
- # age 年纪
- # sibsp ?上的兄弟姐妹/配偶个数
- # parch ?上的父母,孩子
- # ticket 船票号码
- # fare 船票价格
- # cabin 船仓号
- # embarked 登船港口 C = Cherbourg, Q = Queenstown, S = Southampto
对于样本,我们进行整体把握,查看一下总体的信息:
data_train.info()
# 可以发现age,和cabin有大量缺失
# embarked只有两条缺失

2.数据处理与特征选择
Cabin船舱号有大量空值,对于空值填充可能有较大误差,所以我们先不考虑cabin作为特征
pass

&spm=1001.2101.3001.5002&articleId=102539278&d=1&t=3&u=b28733f43272447d83fc9c6f32893fe7)
1204

被折叠的 条评论
为什么被折叠?



