1. 单细胞基因集评分入门:为什么需要它?
刚接触单细胞数据分析时,我经常被一个问题困扰:如何判断某个功能基因集(比如缺氧响应通路)在特定细胞亚群中是否活跃?传统差异表达分析只能看单个基因,而生物学功能往往由多个基因协同完成。这就是基因集评分技术的用武之地——它能把一组基因的表达信号整合成单个数值,直观反映通路活性。
举个例子,在研究肿瘤微环境时,我们可能关注"上皮间质转化(EMT)"相关基因集在恶性细胞中的活跃程度。用AddModuleScore计算后,每个细胞会得到一个EMT评分,数值越高表示EMT特征越明显。这种评分比单纯看单个基因(如SNAI1)更可靠,因为生物过程通常涉及多个基因的协同调控。
2. 基础工具:Seurat的AddModuleScore详解
2.1 算法原理拆解
AddModuleScore的工作流程就像做菜时的"调味取样":首先把基因按表达量从高到低排序(相当于把调料按浓度排列),然后将排序后的基因分成24个区间(类似把调料分成若干组)。对于目标基因集里的每个基因,系统会从相同表达区间的其他基因中随机抽取对照基因(相当于取相似浓度的其他调料作对比),最后用目标基因与对照基因的表达差异来计算评分。
实际操作时常见这个报错:
Error in AddModuleScore(object = seurat_obj, features = gene_list) :
could not find function "AddModuleScore"
这通常是因为忘记加载Seurat包,简单运行library(Seurat)即可解决。
2.2 参数配置实战
关键参数features支持三种输入形式:
- 字符向量:
c("GeneA", "GeneB", "GeneC") - 命名列表:
list(Pathway1 = c("GeneA","GeneB"), Pathwa


188

被折叠的 条评论
为什么被折叠?



