如何下载生物数据(三):GATK数据下载

本文介绍了如何下载GATK所需的人类基因组数据,包括不同版本(如hg19、hg38和b37)的对应关系,以及GATK官方提供的resource bundle。推荐使用lftp工具从FTP服务器下载,详细步骤包括访问服务器、选择版本和下载数据。同时,提供了GATK bundle中的关键文件,如1000G项目、Mills和Indel Gold Standard等,用于基因组分析。此外,还分享了通过百度网盘获取GATK数据的链接。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
当前做人相关的基因组分析,包括全基因组WGS,全外显子WES以及目标区域测序TRS,基本上都采用GATK标准的Best Practise最佳实践指导。人的基因组分析与其他物种稍微有一些不同,处理下载参考序列,还需要下载已有信息,例如各种人类基因组计划累积的变异信息,这些信息可以用于先验的学习集,提高变异检测的准确性。因此,如果想使用GATK软件,首先就需要下载GATK使用的数据集。

基因组版本选择
由于人的染色体存在多个数据中心,并且有多次更新,因此,当前有多个命名以及多个版本,搞不清这些版本和命名,有时候会产生很严重的后果。因为不同的命名之间序列的ID不同,比如1号染色体,有些是chr1,有些直接就是数字1,不同版本之间存在坐标这件的不同,因为很多注释数据库对染色体有版本要求,不同版本之间需要坐标转换之后才能使用。

UCSC命名最简单,就是hg加数字,比如hg18,hg19和hg38这些版本比较常用;
NCBI的命名更复杂一些,是GRCH开头,然后数字,36,37,38等。
而ENSEMBL命名就更复杂了,只给出版本比如52,59,61,80,81,82等。
这三种命名方式有一个对应关系。如图所示。

hg18 = GRCh36 = ENSEMBL release_52

hg19 = GRCh37 = ENSEMBL release_59/61/64/68/69/75

hg38 = GRCh38 = ENSEMBL release_76/77/78/80/81/82
这里面使用最多的就是hg19和hg38的版本,不同版本基因组之间主要有哪些差别呢,理论上来说越大版本基因组,序列的准确性越高。但是这里面有一个坐标位置的问题。就是我们无法保证坐标完全一致,基因组上坐标修改一个位置,与之相关联的所有内容要发生变化,例如这个坐标已经与dbSNP的rs号相对应了,这也就是为什么虽然现在已经有了hg38,但是hg19这个版本使用依然非常广泛,就是因为大量的注释信息都是基于hg19的版本来做的,如果要切换到hg38,所有的内容都需要改,工作量很大。此外,同一

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

源码下载地址: https://pan.quark.cn/s/f7e2d00bdac0 ### GATK操作指南全面解析#### 一、GATK功能概述及基础要求##### (1) GATK主要应用领域及版本迭代- **主要应用领域**:GATK主要应用于人类全基因组和外显子组测序数据的处理,且特别适配于illumina数据格式。尽管目前尚未兼容其他测序技术(如Ion Torrent)或实验方案(例如RNA-Seq),但其在人类基因组变异检测方面展现出卓越性能。- **版本迭代**:GATK作为一个持续更新的科研工具,定期进行错误修正和功能增强。最新版本为2.8.1(截至2014-02-25)。建议始终采用最新版本以获得最佳性能和官方支持。##### (2) 资源获取及安装方法- **官方下载路径**:官方资源获取页面位于http://www.broadinstitute.org/gatk/download。- **资源包**:GATK提供了一系列用于分析的人类基因组已知变异数据库,这些资源可以通过GATK的FTP站点下载,命名为GATK Resource Bundle。##### (3) 其他依赖组件- **R软件及其相关包**:为了执行部分绘图任务,GATK需要R软件的支持。确保安装了R以及以下必需的包:ggplot2、gplots、bitops、caTools、colorspace、gdata、gsalib、reshape、RColorBrewer等。在执行GATK过程中,若缺少某些包,系统会提示进行安装。#### 二、GATK标准操作流程GATK的常规操作流程包含个核心阶段:1. **原始数据预处理**2. **变异识别**3. **初步分析**####...
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值