基因序列变异信息VCF (Variant Call Format)

news/2025/2/11 15:42:08/

<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索> VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

VCF文件包括了两部分

第一部分是#开头的注释行称为header

包括版本信息,物种,生成这个文件所使用的命令,参考基因组信息等。

第二部分是以TAB分割的列称为records,前7列必须存在,可以用.表示空值

第1列:CHROM

chromosome;染色体名称或contig名称;

第2列:POS

position;参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置;

第3列:ID

dentifier; 突变的名称,比如dbSNP的名字

第4列:REF

reference base(s);参考染色体的碱基

第5列:ALT

alternate base(s; 与参考序列比较,发生突变的碱基,可以有多个值,每个值用逗号分隔

第6列:QUAL

quality;Phred标准下的质量值,表示该变异位点的可靠性,可以理解为所call出来的变异位点的质量值。Q=-10lgP,Q表示质量值;P表示这个位点发生错误的概率。因此,如果想把错误率从控制在90%以上,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。同理,当Q=20时,错误率就控制在了0.01。

第7列:FILTER

filter status;使用其它的方法进行过滤后得到的过滤结果,可以是 PASS 或 FAIL或者空值用.表示没有经过过滤

第8列:INFO

用于存储附加信息,例如变异类型、覆盖深度、突变频率等

比如MQ=99.00;MQ0=0;QD=17.94表示这个指标的值

第9列:FORMAT

表示各个样本的值的名字

GT:AD:DP:GQ:PL
  • GT (GeneType)基因型,代表此样本在此位点携带的两个等位基因,主要分为一下几种情况:

0/0 :纯合; REF一致
0/1 :杂合; 一个ALT一个REF
1/1 :纯合; 两个都是ALT

  • AD :覆盖到REF和ALT的碱基reads数、及测序深度,使用 , ” 隔开 (REF,ALT)
  • DP(Read Depth) :覆盖到这个位点的总reads数,及AD中的两数之和
  • GQ :最可能GT的质量值
  • PL: 对应3个以逗号隔开的值,GT的似然值(L)

0/0,0/1,1/1基因型,这三种的概率之和为1 L值越小,这个基因型的概率则越大,当L=0时,概率为1 P = 10^ (-L/10)
理想的情况下是三个值中1个很小,其他两个很大

第10列以后:样本名

每列是一个样本对应于第9列中的值,用:分割,当有多个值时用,分割

举个例子

CHROM=chr1:一号染色体

POS=13649:13649处

REF=G:参考基因组上13649处的碱基为G

ALT=C:所有样本中基因组上13649处可能发生的突变为C,有的样本突变,有的样本没有突变

QUAL=54.75:质量较高,错误率较低、

FILTER=.:没有过滤

INFO=...:GATK得出的一些分数可以用于过滤

对于SRR24302402样本

GT=0/1:基因型为G/C

AD=12,4:覆盖到REF的reads数为12,覆盖到ALT的reads数为4

DP=16:覆盖到13649位点的reads数为16=12+4

GQ=64:GT=0/1(即基因型为G/C)时的质量值为64

PL=64,0,281:最有可能的GT是0/1(即基因型为G/C),对应PL值为0,概率为1

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  SRR24302402     SRR24302403     SRR24302404     SRR24302405
chr1    13649   .       G       C       54.75   .       AC=1;AF=0.125;AN=8;BaseQRankSum=3.28;DP=69;ExcessHet=0.0000;FS=0.000;MLEAC=1;MLEAF=0.125;MQ=22.78;MQRankSum=1.19;QD=3.42;ReadPosRankSum=-3.040e-01;SOR=0.138          GT:AD:DP:GQ:PL  0/1:12,4:16:64:64,0,281 0/0:15,0:15:45:0,45,606 0/0:20,0:20:60:0,60,774 0/0:17,0:17:51:0,51,679

Reference

https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format
https://genome.ucsc.edu/FAQ/FAQformat.html
https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001232
https://www.cnblogs.com/daimakun/p/5056813.html

本文由 mdnice 多平台发布


http://www.ppmy.cn/news/74528.html

相关文章

微软推出 Hierarchical Transformer 实现更高准确率的语音评测

对于语言学习者来说&#xff0c;练习发音并获得及时准确的反馈&#xff0c;是提高口语水平的重要环节。多年来&#xff0c;微软一直深耕基于 Azure 认知服务的语音功能&#xff0c;不断优化语音评测[1]功能的底层技术&#xff0c;从准确率、流畅度、完整性和语音语调等方面&…

iperf3常用

iperf使用方法详解 iperf3是一款带宽测试工具&#xff0c;它支持调节各种参数&#xff0c;比如通信协议&#xff0c;数据包个数&#xff0c;发送持续时间&#xff0c;测试完会报告网络带宽&#xff0c;丢包率和其他参数。 安装 sudo apt-get install iperf3iPerf3常用的参数&am…

DVB-S中卫星通信系统的基带仿真(Matlab代码实现)

目录 &#x1f4a5;1 概述 &#x1f4da;2 运行结果 &#x1f389;3 参考文献 &#x1f468;‍&#x1f4bb;4 Matlab代码 &#x1f4a5;1 概述 ​数字视频广播(DVB)在卫星通信数字多媒体业务领域应用广泛,其一般采用MPEG-2编码、数字传输和纠错处理等通用技术,然而,当第三方…

Linux 设备驱动程序(三)

系列文章目录 Linux 内核设计与实现 深入理解 Linux 内核&#xff08;一&#xff09; 深入理解 Linux 内核&#xff08;二&#xff09; Linux 设备驱动程序&#xff08;一&#xff09; Linux 设备驱动程序&#xff08;二&#xff09; Linux 设备驱动程序&#xff08;三&#xf…

提高电商团队效率:必备的协作工具盘点

随着电商行业的快速发展&#xff0c;电商团队的规模和任务不断增加。然而&#xff0c;文件管理和文件协作方面的问题也随之出现。 电商行业可能存在的问题&#xff1a; 文件传输效率低下&#xff1a;电商团队需要频繁地共享和传输大量的文件&#xff0c;这会导致文件传输效率低…

第一个 Rust 程序

目录 必要知识代码示例 Cargo 教程[Rust 输出到命令行](https://www.runoob.com/rust/rust-println.html)资料 必要知识 Rust 语言代码文件后缀名为 .rs 使用 rustc 命令编译 .rs 文件 rustc runoob.rs # 编译 runoob.rs 文件编译后会生成 可执行文件 例如&#xff1a; …

effective c++ 29 为异常安全而努力是值得的

effective c 29 为异常安全而努力是值得的 本节主要阐述了面对异常我们该做的事情。用数据库进行类比&#xff0c;数据库中有事务的概念&#xff0c;即要么都执行成功&#xff0c;要么都不执行。类比于异常&#xff0c;当异常发生时&#xff0c;我们最好要恢复到调用之前的状态…

系列四、vue3 初始化项目(图形化界面方式)

一、启动UI界面 vue ui 二、创建项目 2.1、在此创建项目 2.2、创建新项目-详情配置 2.3、创建新项目-预设 2.4、创建新项目-功能 2.5、创建新项目-配置 2.6、运行项目 任务》serve》运行》启动app 2.7、首页 三、安装element-plus 3.1、步骤 ①、运行 vue ui 命令&#…