1. 为什么需要表达量标准化?
当你拿到bulk RNA-seq数据时,第一眼看到的通常是原始的read count矩阵。这些数字看起来简单直接,但实际上隐藏着很多技术偏差。比如测序深度不同会导致样本间不可比,基因长度差异会影响同一基因在不同实验中的表达量估计。这就好比比较两个班级的考试成绩,一个班考了100道题,另一个班只考了50道题,直接比较总分显然不公平。
我在分析乳腺癌数据集时就遇到过这种情况。两个批次的样本使用count直接比较,差异基因列表完全被批次效应主导。后来改用TPM标准化后,才看到了真实的生物学差异。这也是为什么我们需要FPKM、TPM这些标准化方法——它们就像一把公平的尺子,帮我们消除技术因素带来的干扰,让不同样本、不同基因间的比较成为可能。
2. 深入理解三大标准化方法
2.1 Count:最原始也最直接
Count就是比对到每个基因上的reads或fragments数。它的优点是计算简单、解释直观,在差异表达分析中表现稳定。DESeq2和edgeR等工具都是基于count数据进行建模。但缺点也很明显:无法直接比较不同长度的基因,也不能消除测序深度的影响。
我经常用这个类比:count就像原始票房数据。《阿凡达》票房高是因为放映时间长,不能直接说它比短片的观众更多。在R中获取count数据很简单:
# 使用featureCounts获取count矩阵
counts <- read.table("gene_counts.txt", header=TRUE, row.names=1)
head(counts)
2.2 FPKM:曾经的黄金标准
FPKM(Fragments Per Kilobase per Million)通过两个标准化步骤解决了count的局限:
- 除以基因长度(kb),消除基因长度影响
- 除以总比对片段数(百万),消除测序深度影响
计算公式为: FPKM = (基因的fragment数 × 10^9) / (基


602

被折叠的 条评论
为什么被折叠?



