火山图实战指南：从数据准备到差异基因标记

原创

于 2026-04-13 11:17:58 发布 · 454 阅读

标签

1. 火山图基础概念解析

第一次接触火山图时，我也被那些散落在坐标系中的小点弄得一头雾水。直到真正用它分析了几组RNA-seq数据后，才发现这简直是差异表达基因分析的"宝藏地图"。简单来说，火山图就是帮我们在一大堆基因数据中，快速锁定那些既有显著变化（纵坐标）又有足够变化幅度（横坐标）的"明星基因"。

理解火山图的关键在于掌握两个核心指标：FC值和P值。FC（Fold Change）直译就是"倍数变化"，比如某个基因在实验组表达量是100，对照组是10，那么FC值就是10。但实际操作中我们都会取log2转换，这样处理后的数值范围更合理，还能直观区分上下调——大于零是上调，小于零是下调。记得我第一次处理microarray数据时，没做对数转换直接绘图，结果图像严重右偏，差点错过重要发现。

P值大家应该更熟悉，衡量差异是否具有统计学意义。在火山图中我们常用-log10转换后的P值，这样既放大了显著性差异，又让图像更美观。有个实用技巧：当样本量较小时，建议使用校正后的P值（Padj），可以避免多重假设检验带来的假阳性问题。去年帮实验室分析单细胞数据时，就因为这个细节少走了很多弯路。

2. 数据准备与预处理实战

准备好一份干净的数据是绘制火山图的前提。这里我以RNA-seq差异分析结果为例，演示完整的数据处理流程。假设我们已经用DESeq2或edgeR得到了包含基因名、log2FC和p-value的表格，接下来需要做这些准备工作：

# 读取差异分析结果文件
diff_data <- read.csv("RNA_seq_results.csv", header=TRUE)

# 添加显著性标记列
diff_data$sig <- "insig"  # 默认标记为不显著
diff_data$sig[diff_data$log2FC > 1 & diff_data$pvalue < 0.05] <- "up"
diff_data$sig[diff_data$log2FC < -1 & diff_dat

最低0.47元/天解锁文章