刚刚接触GATK有很多不了解的术语,这里做一下笔记,方便之后的继续学习:
1:GATK
全称为:Genome Analysis Toolkit;官网链接为: https://software.broadinstitute.org/gatk/;
它是一个应用于前沿科学研究的软件,在不断地进行更新和修正,目前的版本是4.0,在使用时,最好登录官网,查看可供下载的最新版本,采用最新版本来进行相关研究;
GATK4是GATK基于Spark开发的版本,它有很多可以在Spark环境中运行的工具和工作流,采用分级的方式运行作业,工程类似MapReduce,有Spark standalone模式、None-spark standalone模式、Spark cluster模式三种运行模式;
输入主要是人类全基因组和外显子组的测序数据,这些数据全部是基于lilumina数据格式的,目前还没有提供其他格式文件;
在进行BQSR、VQSR的过程中,它会使用到R软件绘制一些图,因而,在运行GATK之前应当确保已经正确安装了R和所需要的一些包;
通过执行原始数据的处理,变异检测,初步分析这三个流程,GATK得以完成一次使用;
基因序列分析工作流以GATK的最佳实践作为标准,在使用的过程中,要牢记:参数很重要,配置很重要,各位前辈的博客说明了一点:要在不断从坑里跳出来的过程中逐渐成长,嗯,准备好从坑里跳出来的心态。
2:BWA-mem
BWA全称:Burrows-Wheeler Alignment,无论是二代还是三代比对到参考基因组上,BWA应用的最多就是在重测序方面,而大家基本上只用其mem算法,即BWA-mem算法;
BWA-mem全称:Burrows-Wheeler Alignment-mem 是BWA系列的第三个算法,基本取代了前两种,目的是将测序reads\组装的contig比对到reference上去;
在基因序列分析工作流的第一阶段,BWA-mem对输入文件FASTQ执行比对,生成序列比对和映射文件SAM,然后通过SortSam生成一个BAM文件(经过排序的,BAM文件是SAM文件的二进

本文主要介绍了GATK(Genome Analysis Toolkit)的基本概念、版本、运行模式和最佳实践,强调了参数配置的重要性。同时,讨论了BWA-mem在比对过程中的作用,以及fastQ格式在高通量测序中的应用。此外,文章还提到了序列分析的优化方法,如并行处理和使用Spark进行集群计算。

5318

被折叠的 条评论
为什么被折叠?



