#数据清理 ——dplyr package
加载包
library(dplyr)
library(hflights) #hflights是2011年从休斯顿起飞的航班创建本地数据框
tbl_df用于创建一个”local data frame”,相当于一个包装器,可以把data frame,sql数据类型转换成tbl对象。
优势在于打印的时候显示比较智能化,根据显示屏分辨率来确定显示的变量个数。
flights = tbl_df(hflights)
flights
dplyr包基础函数:
行过滤filter():根据准则筛选行
首参数是tbl对象;后面接着是筛选条件;返回也是一个data frame
##选择某一天的航班
fliter(flights,Month==-1,DayofMonth==1)
filter(flights,Month==1,DayofMonth==1) 等价于 flights[Month==1 & DayofMonth==1,]
filter(flights,Month==1 & DepTime>1400)
filter(flights,DepTime <1400| ArrTime > 1600 )To select rows by position, use slice():
slice(flights,1:5) #只显示前五行select:根据名字选择变量列
flight[,c(“DepTime”,”ArrTime”,”FlightNum”)]
#dplyr
select(flights,DepTime,ArrTime,FlightNum)
# “:”选择连续列,contains来匹配列名
select(flights,Year:DayofMo

本文介绍了R语言中的dplyr包,包括基础和高级函数的使用。内容涉及filter()行过滤,select()列选择,rename()变量重命名,arrange()数据排序,mutate()和transmute()数据扩展,以及summarise()数据汇总。此外,还提到了数据集的连接(join)操作,分组汇总(group_by)以及管道操作符的功能。

1万+

被折叠的 条评论
为什么被折叠?



