GATK简介

本文介绍了二代测序技术的基本原理及应用,详细阐述了GATK(The Genome Analysis Toolkit)在DNA测序数据分析中的作用。从序列比对、数据清理到多样性发现,包括HaplotypeCaller、JointGenotyping和VariantRecalibration在内的关键步骤。

        二代测序通过荧光和生物试剂等手段获得人类遗传物质基因的碱基序列,但由于这些获得的信息是大量片段性质的,而且存在一定误差,因此想要准确完整的确定其所处位置和真实的碱基类型需要我们使用计算机的手段来进行分析,这些分析就是我们通常使用的基因测序数据分析流程。二代测序主要分为DNA 测序和RNA 测序,在DNA 测序中,GATK 被广泛应用到1000 Genomes Project和Cancer Genome Atlas 等国际化大项目中,而且被各大研究所和一些基因公司广泛使用。

GATK的流程

GATK(The Genome Analysis Toolkit)[13]是由Broad Institute 开发的一套发现多样性位点的工具集,它主要是为了来发现DNA 测序和RNA 测序数据中的SNP(Single Nucleotide Polymorphisms)和indel(insert&delete)。除了多样性位点的发现之外,GATK 中还包括一些相关的工具,包括预处理工具和控制测序数据质量的工具。

 GATK 的典型流程主要由7 个步骤组成:第一部分是序列比对,主要由BWA完成;第二部分是数据清理,主要包括Mark Duplicates、Sort、Indel Realignment 和Base Recalibration 这几个步骤;第三部分是多样性发现,主要由HaplotypeCaller 以及其后的Joint Genotyping 和Variant Recalibration。

序列比对(BWA)

DNA 测序中通过测序仪我们得到了大量的成对的DNA 分子片段(长度大约100-300bp),首先要做的就是把这些片段比对到参考序列上。参考序列是通过人类基因组计划测得的人类的基因序列的参考标准。

BWA 使用的算法是通过轮排索引(k-gram索引)搜索的方式来进行比对,下图中列出了字符串googol 建立的后缀数组和轮排索引字符串。

数据清理

GATK 典型流程中数据清理部分主要包括三方面的内容:重复标记、indel 局部重新比对和碱基质量重校正。

测序时在制备文库过程中,PCR 的扩增会产生一些偏差,这些扩增的序列就会比对到同一个位置,但是这些扩增的序列并不是基因组本身固有的,因此不能作为检测变异的证据,所以我们需要去除掉这些重复的序列,这个过程就叫做Mark Duplicates。这一步主要通过使用picard 软件来完成,把序列中的duplicate flag 设置为true 来表示重复的序列。

因为在indel附近的序列比对可能会出现很多碱基错配,这些碱基错配很容易被认为是SNP。另外,在序列比对中,比对算法是对每一条序列单独进行比对的,不可能把多条序列组合在一
起和参考序列进行错误纠正。因此就需要我们进行indel 局部重新比对,通过对由indel导致错配的区域进行重新比对,来实现降低indel 附近的错误率,这个过程就是IndelRealignment 的主要工作。

在多样性发现中,我们主要使用质量分数在Q25 之上的碱基,但实际上质量分数在Q25 的碱基的错误率在1%左右,也就是说质量分数只有Q20,这样会对我们后续的变异检测的可信度产生影响;另外,测序过程是边合成边测序的,在序列末端的碱基错误率要比起始端高很多;再加上不同的碱基的出错率的不同,A(腺嘌呤)C(胞嘧啶)的质量分数往往低于T(胸腺嘧啶)G(鸟嘌呤)[18]。因此对碱基的质量分数的校正就非常有必要,Base Recalibration 主要完成的就是这项工作。

多样性发现

多样性发现是整个GATK 典型流程的核心,主要包括Haplotype Caller 及其后的Joint Genotyping 和Variant Recalibration,通过对比对并且清理后的序列数据与参考序列之间的分析评估,找出可能的变异位点,并对这些变异位点进行详细的校正和分析。

Haplotype Caller 是整个GATK 典型流程中最重要也是最复杂的一步,由于我们得到的序列是片段的,而且其数据存在一定的错误率,所以找出变异位点的方法也需要以一种不确定的方式。GATK 的Haplotype Caller 中主要使用了Pair-HMM 的方法来对位点进行评估,确定变异位点的可能性。随后的Joint Genotyping 主要把超过一定阈值的位点(也就是变异位点)进行合并,过滤掉正常位点,最后通过Variant Recalibration 来对变异位点进行校正,并确定SNP 位点和indel 位点以及它们相对应的得分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值