GATK相关的术语整理

最新推荐文章于 2025-10-26 10:33:01 发布

原创

最新推荐文章于 2025-10-26 10:33:01 发布 · 1.7k 阅读

·

0

·

标签

#GATK #基因测序

本文主要介绍了GATK（Genome Analysis Toolkit）的基本概念、版本、运行模式和最佳实践，强调了参数配置的重要性。同时，讨论了BWA-mem在比对过程中的作用，以及fastQ格式在高通量测序中的应用。此外，文章还提到了序列分析的优化方法，如并行处理和使用Spark进行集群计算。

刚刚接触GATK有很多不了解的术语，这里做一下笔记，方便之后的继续学习：

1：GATK

全称为：Genome Analysis Toolkit；官网链接为： https://software.broadinstitute.org/gatk/；

它是一个应用于前沿科学研究的软件，在不断地进行更新和修正，目前的版本是4.0，在使用时，最好登录官网，查看可供下载的最新版本，采用最新版本来进行相关研究；

GATK4是GATK基于Spark开发的版本，它有很多可以在Spark环境中运行的工具和工作流，采用分级的方式运行作业，工程类似MapReduce，有Spark standalone模式、None-spark standalone模式、Spark cluster模式三种运行模式；

输入主要是人类全基因组和外显子组的测序数据，这些数据全部是基于lilumina数据格式的，目前还没有提供其他格式文件;

在进行BQSR、VQSR的过程中，它会使用到R软件绘制一些图，因而，在运行GATK之前应当确保已经正确安装了R和所需要的一些包；

通过执行原始数据的处理，变异检测，初步分析这三个流程，GATK得以完成一次使用；

基因序列分析工作流以GATK的最佳实践作为标准，在使用的过程中，要牢记：参数很重要，配置很重要，各位前辈的博客说明了一点：要在不断从坑里跳出来的过程中逐渐成长，嗯，准备好从坑里跳出来的心态。

2：BWA-mem

BWA全称：Burrows-Wheeler Alignment，无论是二代还是三代比对到参考基因组上，BWA应用的最多就是在重测序方面，而大家基本上只用其mem算法，即BWA-mem算法；

BWA-mem全称：Burrows-Wheeler Alignment-mem 是BWA系列的第三个算法，基本取代了前两种，目的是将测序reads\组装的contig比对到reference上去；

在基因序列分析工作流的第一阶段，BWA-mem对输入文件FASTQ执行比对，生成序列比对和映射文件SAM,然后通过SortSam生成一个BAM文件（经过排序的，BAM文件是SAM文件的二进

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。