GATK简介

news/2025/2/5 20:42:06/

        二代测序通过荧光和生物试剂等手段获得人类遗传物质基因的碱基序列,但由于这些获得的信息是大量片段性质的,而且存在一定误差,因此想要准确完整的确定其所处位置和真实的碱基类型需要我们使用计算机的手段来进行分析,这些分析就是我们通常使用的基因测序数据分析流程。二代测序主要分为DNA 测序和RNA 测序,在DNA 测序中,GATK 被广泛应用到1000 Genomes Project和Cancer Genome Atlas 等国际化大项目中,而且被各大研究所和一些基因公司广泛使用。

GATK的流程

GATK(The Genome Analysis Toolkit)[13]是由Broad Institute 开发的一套发现多样性位点的工具集,它主要是为了来发现DNA 测序和RNA 测序数据中的SNP(Single Nucleotide Polymorphisms)和indel(insert&delete)。除了多样性位点的发现之外,GATK 中还包括一些相关的工具,包括预处理工具和控制测序数据质量的工具。

 GATK 的典型流程主要由7 个步骤组成:第一部分是序列比对,主要由BWA完成;第二部分是数据清理,主要包括Mark Duplicates、Sort、Indel Realignment 和Base Recalibration 这几个步骤;第三部分是多样性发现,主要由HaplotypeCaller 以及其后的Joint Genotyping 和Variant Recalibration。

序列比对(BWA)

DNA 测序中通过测序仪我们得到了大量的成对的DNA 分子片段(长度大约100-300bp),首先要做的就是把这些片段比对到参考序列上。参考序列是通过人类基因组计划测得的人类的基因序列的参考标准。

BWA 使用的算法是通过轮排索引(k-gram索引)搜索的方式来进行比对,下图中列出了字符串googol 建立的后缀数组和轮排索引字符串。

数据清理

GATK 典型流程中数据清理部分主要包括三方面的内容:重复标记、indel 局部重新比对和碱基质量重校正。

测序时在制备文库过程中,PCR 的扩增会产生一些偏差,这些扩增的序列就会比对到同一个位置,但是这些扩增的序列并不是基因组本身固有的,因此不能作为检测变异的证据,所以我们需要去除掉这些重复的序列,这个过程就叫做Mark Duplicates。这一步主要通过使用picard 软件来完成,把序列中的duplicate flag 设置为true 来表示重复的序列。

因为在indel附近的序列比对可能会出现很多碱基错配,这些碱基错配很容易被认为是SNP。另外,在序列比对中,比对算法是对每一条序列单独进行比对的,不可能把多条序列组合在一
起和参考序列进行错误纠正。因此就需要我们进行indel 局部重新比对,通过对由indel导致错配的区域进行重新比对,来实现降低indel 附近的错误率,这个过程就是IndelRealignment 的主要工作。

在多样性发现中,我们主要使用质量分数在Q25 之上的碱基,但实际上质量分数在Q25 的碱基的错误率在1%左右,也就是说质量分数只有Q20,这样会对我们后续的变异检测的可信度产生影响;另外,测序过程是边合成边测序的,在序列末端的碱基错误率要比起始端高很多;再加上不同的碱基的出错率的不同,A(腺嘌呤)C(胞嘧啶)的质量分数往往低于T(胸腺嘧啶)G(鸟嘌呤)[18]。因此对碱基的质量分数的校正就非常有必要,Base Recalibration 主要完成的就是这项工作。

多样性发现

多样性发现是整个GATK 典型流程的核心,主要包括Haplotype Caller 及其后的Joint Genotyping 和Variant Recalibration,通过对比对并且清理后的序列数据与参考序列之间的分析评估,找出可能的变异位点,并对这些变异位点进行详细的校正和分析。

Haplotype Caller 是整个GATK 典型流程中最重要也是最复杂的一步,由于我们得到的序列是片段的,而且其数据存在一定的错误率,所以找出变异位点的方法也需要以一种不确定的方式。GATK 的Haplotype Caller 中主要使用了Pair-HMM 的方法来对位点进行评估,确定变异位点的可能性。随后的Joint Genotyping 主要把超过一定阈值的位点(也就是变异位点)进行合并,过滤掉正常位点,最后通过Variant Recalibration 来对变异位点进行校正,并确定SNP 位点和indel 位点以及它们相对应的得分。


http://www.ppmy.cn/news/233666.html

相关文章

TKG 1.5.1 的 BYOH 集群部署

开局一张图,Tanzu Kubernetes Grid v1.5.1 发布支持的一个重要功能是 Bring Your Own Host (简称BYOH)体验版本发布,这个解决方案突破了 TKGm 工作集群部署依赖 vSphere 或者 AWS,AZURE 等公有云的限制,TKG…

使用AKO为TKG提供LoadBalancer

本文记录了使用AKO(AVI)为TKG提供对外LoadBalancer服务的配置过程。 TKG的介绍请参考:Tanzu Kubernetes Grid介绍 TKG以及其安装配置参考:安装 Tanzu Kubernetes Grid Tanzu Kubernetes Grid基本操作 环境 项目内容备注VMware …

【RE-GCN_2021.04】基于进化表示学习的时态知识图谱推理

提示: 文章目录 摘要一、引言二、相关工作三、问题表述四、RE-GCN模型4.1 进化单元4.1.1 并发事实之间的结构依赖性4.1.2 跨时间邻近事实的序列模式4.1.3 静态特性 4.2 针对不同任务的评分函数4.3 参数学习4.4 计算复杂度分析 五、实验5.1 实验设置5.1.1 数据集5.1.…

一文了解 TKG 如何使用 GPU 资源池

相关文章: 有了这个办法,跑AI任务再也不用在机器上插GPU卡了 随着科技进步和产业变革的加速演进,人工智能(AI)已经成为兵家必争之地。在政府、学术机构、企业等各个层面,AI都受到高度重视,其在学…

云桌面参数相关

涉及到云桌面选型,首先要考虑到云桌面的客户机配置与服务器参数之间的关系。(一个小白的折腾!) 例如:客户机配置:2vCPU6GB300GB 无显卡。 一台服务器支持50个用户! 虚拟CPU:物理CPU5:1 则服…

iQOOU1x和iQOOU3x的区别 iQOOU1x和iQOOU3x参数对比

iQOO U1x这款手机采用6.51英寸IPS材质的全面屏,支持60Hz刷新频率,屏幕分辨率为1600x720像素 vivoU3x采用了正面这块6.35英寸的水滴全面屏 vivo手机爆降600这活动太给力了 机会不容错过 https://www.vivo.com.cn iQOOU1x搭载了后置1300万200万200万像素…

红米note9pro和红米10x 参数对比 哪个好

红米note9pro采用了一块6.67英寸的LCD挖孔屏,2400x1080像素的屏幕分辨率,支持90Hz的屏幕刷新率。 红米手机爆降500这活动太给力了 机会不容错过 https://www.xiaomi.com.cn 红米10x采用6.57英寸的AMOLED屏幕是支持2400x1080像素分辨率但是没有高刷。 红米…

chrome启动参数

序号参数解释1–报告伪分配跟踪。伪跟踪从当前活动的跟踪事件派生。2–/prefetch:1/prefetch:启动各种流程类型时使用的#arguments。已经观察到,当文件读取与具有相同/prefetch:#参数的3个进程启动一致时,Windows预取器开始在进程…