bulk-seq分析中表达量标准化:FPKM vs TPM vs Count的实战选择指南

1. 为什么需要表达量标准化?

当你拿到bulk RNA-seq数据时,第一眼看到的通常是原始的read count矩阵。这些数字看起来简单直接,但实际上隐藏着很多技术偏差。比如测序深度不同会导致样本间不可比,基因长度差异会影响同一基因在不同实验中的表达量估计。这就好比比较两个班级的考试成绩,一个班考了100道题,另一个班只考了50道题,直接比较总分显然不公平。

我在分析乳腺癌数据集时就遇到过这种情况。两个批次的样本使用count直接比较,差异基因列表完全被批次效应主导。后来改用TPM标准化后,才看到了真实的生物学差异。这也是为什么我们需要FPKM、TPM这些标准化方法——它们就像一把公平的尺子,帮我们消除技术因素带来的干扰,让不同样本、不同基因间的比较成为可能。

2. 深入理解三大标准化方法

2.1 Count:最原始也最直接

Count就是比对到每个基因上的reads或fragments数。它的优点是计算简单、解释直观,在差异表达分析中表现稳定。DESeq2和edgeR等工具都是基于count数据进行建模。但缺点也很明显:无法直接比较不同长度的基因,也不能消除测序深度的影响。

我经常用这个类比:count就像原始票房数据。《阿凡达》票房高是因为放映时间长,不能直接说它比短片的观众更多。在R中获取count数据很简单:

# 使用featureCounts获取count矩阵
counts <- read.table("gene_counts.txt", header=TRUE, row.names=1)
head(counts)

2.2 FPKM:曾经的黄金标准

FPKM(Fragments Per Kilobase per Million)通过两个标准化步骤解决了count的局限:

  1. 除以基因长度(kb),消除基因长度影响
  2. 除以总比对片段数(百万),消除测序深度影响

计算公式为: FPKM = (基因的fragment数 × 10^9) / (基

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值