单细胞数据聚合策略：pseudobulks差异基因分析实战指南-CSDN博客

1. 为什么你需要了解Pseudobulks分析？

如果你正在处理单细胞RNA测序数据，并且被那些眼花缭乱的细胞和基因搞得头大，那么“伪散装”（Pseudobulks）分析可能就是你的救星。我刚开始接触单细胞数据时，也总在想，这些成千上万个细胞的稀疏矩阵，到底该怎么像处理传统的“散装”RNA-seq那样，稳稳当当地找出差异基因呢？直到我尝试了Pseudobulks方法，才发现它像一座桥，巧妙地把单细胞数据的高分辨率优势和传统散装分析的成熟稳定性连接了起来。

简单来说，Pseudobulks分析的核心思想就是“聚沙成塔”。它不再把每个细胞当作独立的分析单元，而是根据你的研究设计——比如不同的病人样本、不同的处理条件或者不同的时间点——把属于同一组的细胞“聚合”起来，形成一个“伪散装”样本。这个聚合后的样本，其基因表达值通常是组内所有细胞表达量的总和或平均值。这样一来，原本稀疏、噪声大的单细胞数据，就变成了一个看起来、用起来都很像传统散装RNA-seq的数据矩阵。你可以直接搬出那些久经考验的分析利器，比如DESeq2、edgeR或者limma-voom，来进行差异表达分析。

这听起来是不是有点“作弊”？其实不然，这是一种非常实用的策略。它特别适合那些样本量（这里指生物学重复样本，比如不同的小鼠个体、不同的病人）比较充足，但你又担心单细胞层面分析不稳定、假阳性高的研究场景。比如，你想比较癌症组织和正常组织之间，某一种特定免疫细胞（如CD8+ T细胞）的整体基因表达变化。用Pseudobulks方法，你可以把所有癌症样本中的CD8+ T细胞聚合成一个“伪癌症样本”，把所有正常样本中的CD8+ T细胞聚合成一个“伪正常样本”，然后像分析两个散装样本一样去比较它们。这种方法能有效平滑掉单个细胞的技术噪音，让你更稳健地捕捉到群体水平的生物学差异。

当然，天下没有免费的午餐。Pseudobulks方法最大的代价就是“平均化”。当你把细胞聚合起来，那些细胞与细胞之间有趣的异质性信息就被掩盖了。你得到的是“这个细胞群体”在“这个条件下”的平均表达谱，而无法知道群体内部是否有一部分细胞高表达某个基因，另一部分低表达。所以，选择哪种方法，完全取决于你的科学问题。如果你的目标是发现不同条件间稳定的、群体水平的表达变化，Pseudobulks是你的好朋友。如果你想深挖细胞亚群内部的异质性，或者寻找稀有的、功能特化的细胞状态，那么你可能更需要依赖基于细胞层面的差异分析方法，比如Seurat包里的FindMarkers。

2. 从单细胞到伪散装：数据聚合的实战步骤

理论说再多，不如亲手做一遍。下面我就带你一步步走完从单细胞Seurat对象到伪散装表达矩阵的全过程。我会假设你已经有了一个经过基础质控、标准化和细胞类型注释的Seurat对象，我们接下来的操作都基于这个对象展开。

2.1 环境准备与数据概览

首先，我们把需要的R包都加载进来。除了单细胞分析的标配Seurat，我们还需要数据处理三剑客tidyverse/dplyr，以及用于后续差异分析的DESeq2。我这里用qs包来快速读写R对象，因为它比rds格式快很多，特别是处理大型单细胞数据时。

# 清空环境，避免旧变量干扰
rm(list=ls())

# 加载必要的R包
library(Seurat)
library(tidyverse)
library(dplyr)
library(DESeq2)
library(qs)
library(ggplot2)

# 读取之前保存好的、已注释细胞类型的单细胞对象
scRNA <- qread('./sce_celltype.qs')

# 看看数据的基本情况
dim(scRNA)

运行dim(scRNA)后，你可能会看到类似 [1] 20000 39491 的输出。这表示你的数据有20000个基因（行）和39491个细胞（列）。接下来，我们需要确认一下我们打算依据什么来聚合细胞。最常见的是根据“样本ID”（比如Patient_01, Patient_02）和“实验条件”（比如Control, Treatment）。我们检查一下元数据中的相关列。

# 查看样本和条件信息的分布
table(scRNA$sample.id) # 查看各样本的细胞数
table(scRNA$tissue.type) # 查看各条件（如癌与正常）的细胞数

# 通常，我们需要结合两者。比如，查看每个样本分别属于哪个条件
head(scRNA@meta.data[, c('sample.id', 'tissue.type')])

假设我们的元数据中有两列：sample.id代表唯一的生物学重复（如病人ID），tissue.type代表条件（如“CA”癌症和“NL”正常）。我们的目标就是：将属于同一个sample.id的所有细胞聚合起来，形成一个伪散装样本。这样，我们最终会得到多个伪散装样本（每个生物学重复一个），并且每个样本都带有其对应的条件标签，这正是DESeq2等工具所需要的输入格式。