R语言中data.table包用于处理大数据集(GB级或TB级),但其无法逃掉内存不足的限制,对于电脑内存只有4G或8G的我们来说会把内存撑爆,不知道你有没有这个体验,真是令人头痛,据说ff包的read.table.ffdf()函数可以把TB级的大数据集映射到硬盘,调用ffbase包使用R语言的基础函数来处理这些大数据集,下面来做个简单介绍:
#安装或加载ffbase包会连带安装或加载ff等包
if(!suppressWarnings(require(ffbase))){
install.packages("ffbase")
require(ffbase)
}
#数据读取
data<-read.table.ffdf(x=NULL,#这个要设置,否则会报错,因为初次读取不追加,所以NULL
file = "f:/销售流水整合数据/销售流水2016.csv",#假如大数据集csv文件存放在此目录下
FUN = "read.csv",

本文介绍了R语言中,当data.table包不足以处理GB级或TB级大数据集时,如何利用ff包的read.table.ffdf()函数将数据映射到硬盘,并通过ffbase包来操作这些大数据。内容涉及在内存有限的情况下解决大数据处理问题,特别是针对销售数据分析的场景。

962

被折叠的 条评论
为什么被折叠?



