单细胞分析（一）——seurat包单个样本处理

原创

已于 2024-01-16 10:50:54 修改 · 9.4k 阅读

标签

#聚类 #数据分析

于 2023-05-27 17:12:11 首次发布

本文详细介绍了如何利用R中的Seurat包对10Xgenomics的单细胞测序数据进行预处理，包括读取数据、创建Seurat对象、计算线粒体含量、质控、数据标准化、特征筛选、PCA线性降维和UMAP非线性降维，以及细胞聚类分析。整个流程旨在揭示不同细胞类型间的基因表达差异。

10X genomics的基本原理

大致如下
10X genomics基本步骤在这个教程中，主要将分析 10X Genomics 免费提供的外周血单核细胞 (PBMC) 数据集。在 Illumina NextSeq 500 上对 2,700 个单细胞进行了测序。可以在https://cf.10xgenomics.com/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz此处找到原始数据。我们从读取数据开始。 Read10X() 函数从 10X 读取 cellranger 管道的输出，返回一个唯一的分子识别 (UMI) 计数矩阵。此矩阵中的值表示在每个单元格（列）中检测到的每个特征（即基因；行）的分子数。

Read10X() 函数是针对于整理好的10X Genomics 数据，如果手头的不是类似文件，可以将其进行转换，成为格式一致的文件。

在这里插入图片描述

接下来使用计数矩阵创建一个 Seurat 对象。该对象用作包含单细胞数据集的数据（如计数矩阵）和分析（如 PCA 或聚类结果）的容器。例如，count matrix存储在 pbmc[[“RNA”]]@counts 中。

library(dplyr)
library(Seurat)
library(patchwork)

创建对象

加载数据

# Load the PBMC dataset
scdata <- Read10X(data.dir = "../data/pbmc3k/filtered_gene_bc_matrices/hg19/")

创建 Seurat 对象

### 2.创建Seurat对象
### counts 输入的是数据，行是基因，列是细胞
### project 参数输入的是项目名称,出现在metadata的orig.ident这一列
### min.cells 限定的是基因：每个基因在至少多少个细胞中出现
### min.features 限定的是细胞: 每个细胞中最少有多少个基因
scobj <- CreateSeuratObject(counts = scdata, 
                              project = "pbmc3k", 
                              min.cells = 3, 
                              min.features = 200)

count matrix是什么样子?

count矩阵是稀松矩阵，可以减少占用空间

pbmc.data[c("IGF2BP2", "TCL1A", "MS4A1"), 1:30]

dense.size <- object.size(as.matrix(pbmc.data))
dense.size

sparse.size <- object.size(pbmc.data)
sparse.size


dense.size/sparse.size

预处理流程

计算线粒体含量

这是质控的重要步骤，使用PercentageFeatureSet函数

### 主要PercentageFeatureSet函数计算线粒体含量
### 人类使用pattern = "^MT-"，小鼠使用pattern = "^mt-"
scobj[["percent.mt"]] <- PercentageFeatureSet(scobj, pattern = "^MT-")

### 该操作会在metadata数据里面增加一列叫做percent.mt
metadata <- scobj@meta.data