seurat包单个样本处理
10X genomics的基本原理
大致如下
在这个教程中,主要将分析 10X Genomics 免费提供的外周血单核细胞 (PBMC) 数据集。在 Illumina NextSeq 500 上对 2,700 个单细胞进行了测序。可以在https://cf.10xgenomics.com/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz此处找到原始数据。我们从读取数据开始。 Read10X() 函数从 10X 读取 cellranger 管道的输出,返回一个唯一的分子识别 (UMI) 计数矩阵。此矩阵中的值表示在每个单元格(列)中检测到的每个特征(即基因;行)的分子数。
Read10X() 函数是针对于整理好的10X Genomics 数据,如果手头的不是类似文件,可以将其进行转换,成为格式一致的文件。

接下来使用计数矩阵创建一个 Seurat 对象。该对象用作包含单细胞数据集的数据(如计数矩阵)和分析(如 PCA 或聚类结果)的容器。例如,count matrix存储在 pbmc[[“RNA”]]@counts 中。
library(dplyr)
library(Seurat)
library(patchwork)
创建对象
加载数据
# Load the PBMC dataset
scdata <- Read10X(data.dir = "../data/pbmc3k/filtered_gene_bc_matrices/hg19/")
创建 Seurat 对象
### 2.创建Seurat对象
### counts 输入的是数据,行是基因,列是细胞
### project 参数输入的是项目名称,出现在metadata的orig.ident这一列
### min.cells 限定的是基因:每个基因在至少多少个细胞中出现
### min.features 限定的是细胞: 每个细胞中最少有多少个基因
scobj <- CreateSeuratObject(counts = scdata,
project = "pbmc3k",
min.cells = 3,
min.features = 200)
count matrix是什么样子?
count矩阵是稀松矩阵,可以减少占用空间
pbmc.data[c("IGF2BP2", "TCL1A", "MS4A1"), 1:30]
dense.size <- object.size(as.matrix(pbmc.data))
dense.size
sparse.size <- object.size(pbmc.data)
sparse.size
dense.size/sparse.size
预处理流程
计算线粒体含量
这是质控的重要步骤,使用PercentageFeatureSet函数
### 主要PercentageFeatureSet函数计算线粒体含量
### 人类使用pattern = "^MT-",小鼠使用pattern = "^mt-"
scobj[["percent.mt"]] <- PercentageFeatureSet(scobj, pattern = "^MT-")
### 该操作会在metadata数据里面增加一列叫做percent.mt
metadata <- scobj@meta.data
一般情况下,可以认为线粒体含量多,意味着细胞可能趋于死亡,这样的细胞就应该剔除。但是如果本身研究的就是和线粒体相关的内容,例如药物干

本文详细介绍了如何利用R中的Seurat包对10Xgenomics的单细胞测序数据进行预处理,包括读取数据、创建Seurat对象、计算线粒体含量、质控、数据标准化、特征筛选、PCA线性降维和UMAP非线性降维,以及细胞聚类分析。整个流程旨在揭示不同细胞类型间的基因表达差异。
——seurat包单个样本处理&spm=1001.2101.3001.5002&articleId=130480800&d=1&t=3&u=f01e511e09e5495ba2c178affd3124f4)
2912

被折叠的 条评论
为什么被折叠?



