bulk-seq分析中表达量标准化：FPKM vs TPM vs Count的实战选择指南

最新推荐文章于 2026-04-06 02:41:16 发布

原创

最新推荐文章于 2026-04-06 02:41:16 发布 · 265 阅读

标签

#bulk-seq #表达量标准化 #RNA-seq分析

1. 为什么需要表达量标准化？

当你拿到bulk RNA-seq数据时，第一眼看到的通常是原始的read count矩阵。这些数字看起来简单直接，但实际上隐藏着很多技术偏差。比如测序深度不同会导致样本间不可比，基因长度差异会影响同一基因在不同实验中的表达量估计。这就好比比较两个班级的考试成绩，一个班考了100道题，另一个班只考了50道题，直接比较总分显然不公平。

我在分析乳腺癌数据集时就遇到过这种情况。两个批次的样本使用count直接比较，差异基因列表完全被批次效应主导。后来改用TPM标准化后，才看到了真实的生物学差异。这也是为什么我们需要FPKM、TPM这些标准化方法——它们就像一把公平的尺子，帮我们消除技术因素带来的干扰，让不同样本、不同基因间的比较成为可能。

2. 深入理解三大标准化方法

2.1 Count：最原始也最直接

Count就是比对到每个基因上的reads或fragments数。它的优点是计算简单、解释直观，在差异表达分析中表现稳定。DESeq2和edgeR等工具都是基于count数据进行建模。但缺点也很明显：无法直接比较不同长度的基因，也不能消除测序深度的影响。

我经常用这个类比：count就像原始票房数据。《阿凡达》票房高是因为放映时间长，不能直接说它比短片的观众更多。在R中获取count数据很简单：

# 使用featureCounts获取count矩阵
counts <- read.table("gene_counts.txt", header=TRUE, row.names=1)
head(counts)

2.2 FPKM：曾经的黄金标准

FPKM(Fragments Per Kilobase per Million)通过两个标准化步骤解决了count的局限：

除以基因长度（kb），消除基因长度影响
除以总比对片段数（百万），消除测序深度影响

计算公式为： FPKM = (基因的fragment数 × 10^9) / (基

最低0.47元/天解锁文章