(1) 首先我们手里有自己的数据在Excel表格中,有好多列,每一列有自己的名字。如下图,有4列数据,其中有缺失的数据用NA表示。将excel数据另存为CSV格式,这里CSV数据名字为Data。(这里数据列名称,数据名称,保存文件夹名称都用英文且无空格)。

(2) 打开RStudio,新建一个代码窗口。File-New File-R Script


(3) 运行代码查看R语言工作路径,并将CSV数据复制到这个工作路径下。
getwd()
(4) 读取CSV数据,并用df作为数据的名字。
df<-read.csv("Data.csv", header = TRUE)
(5) 查看是否有缺失值,并统计缺失值的个数。
is.na(df)
sum(is.na(df))
(6) 将各列的缺失值NA替换为各列数据的平均值。
as.numeric(df$Name1)
df$Name1[is.na(df$Name1)]<-mean(df$Name1,na.rm=TRUE)
as.numeric(df$Name2)
df$Name2[is.na(df$Name2)]<-mean(df$Name2,na.rm=TR


1207

被折叠的 条评论
为什么被折叠?



