GATK相关的术语整理

本文主要介绍了GATK(Genome Analysis Toolkit)的基本概念、版本、运行模式和最佳实践,强调了参数配置的重要性。同时,讨论了BWA-mem在比对过程中的作用,以及fastQ格式在高通量测序中的应用。此外,文章还提到了序列分析的优化方法,如并行处理和使用Spark进行集群计算。

刚刚接触GATK有很多不了解的术语,这里做一下笔记,方便之后的继续学习:

1:GATK

全称为:Genome Analysis Toolkit;官网链接为: https://software.broadinstitute.org/gatk/;

它是一个应用于前沿科学研究的软件,在不断地进行更新和修正,目前的版本是4.0,在使用时,最好登录官网,查看可供下载的最新版本,采用最新版本来进行相关研究;

GATK4是GATK基于Spark开发的版本,它有很多可以在Spark环境中运行的工具和工作流,采用分级的方式运行作业,工程类似MapReduce,有Spark standalone模式、None-spark standalone模式、Spark cluster模式三种运行模式;

输入主要是人类全基因组和外显子组的测序数据,这些数据全部是基于lilumina数据格式的,目前还没有提供其他格式文件;

在进行BQSR、VQSR的过程中,它会使用到R软件绘制一些图,因而,在运行GATK之前应当确保已经正确安装了R和所需要的一些包;

通过执行原始数据的处理,变异检测,初步分析这三个流程,GATK得以完成一次使用;

基因序列分析工作流以GATK的最佳实践作为标准,在使用的过程中,要牢记:参数很重要,配置很重要,各位前辈的博客说明了一点:要在不断从坑里跳出来的过程中逐渐成长,嗯,准备好从坑里跳出来的心态。

2:BWA-mem

BWA全称:Burrows-Wheeler Alignment,无论是二代还是三代比对到参考基因组上,BWA应用的最多就是在重测序方面,而大家基本上只用其mem算法,即BWA-mem算法;

BWA-mem全称:Burrows-Wheeler Alignment-mem 是BWA系列的第三个算法,基本取代了前两种,目的是将测序reads\组装的contig比对到reference上去;

在基因序列分析工作流的第一阶段,BWA-mem对输入文件FASTQ执行比对,生成序列比对和映射文件SAM,然后通过SortSam生成一个BAM文件(经过排序的,BAM文件是SAM文件的二进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值