从GSEA下载了84个gmt文件,打算把里面的基因名整理出来。
0. 先观察一下格式
记事本打开几个个文件看了一眼,基本上都是以基因描述+基因名称展现的,中间用制表符隔开。

1. 数据读取
这里涉及到两个问题:
首先是.gmt文件的读取:我用了GSA包的GSA.read.gmt();
其次是批量读取的实现:我用了lapply()函数
install.packages('GSA')
library(GSA)
path <- 'D:/immune' #文件的路径
fileNames <- dir(path) #读取该路径下的所有文件名
filePath <- sapply(fileNames, function(x){
paste(

本文介绍了如何处理从GSEA下载的84个.gmt文件,通过观察文件格式、使用R语言的GSA包读取文件、数据整理及删除基因介绍,最终提取出基因名。采用lapply函数进行批量读取,并通过字符长度判断来手动删除基因介绍内容。

8261

被折叠的 条评论
为什么被折叠?



