基因组变异检测SNPcalling(GATK)

news/2024/11/28 21:41:51/

基因组变异检测SNPcalling(GATK)

    • 第一步,将数据软连接到自己的工作路径下
    • 第二步,用BWA index功能为ref文件做index,用Samtools软件为ref做index
    • 第三步,用BWA软件做序列比对,得到序列比对的sam文件
    • 第四步,sam文件转化成bam文件,并对bam文件进行进一步过滤(排序+去冗余)
    • (optional)检查一下生成的bam文件质量是否合格
    • 第五步,建立dict文件
    • 第六步,得到变异文件
    • 用samtools tview看这两个变异位点
    • 第七步,筛选vcf文件,得到高质量的SNV

软件路径:
/opt/software/bwa-0.7.17/bwa
/opt/software/samtools-1.11/samtools
/opt/software/gatk-4.0.12.0/gatk
/opt/software/vcftools_0.1.13/bin/vcftools

数据路径:
/opt/data/E.coli_K12_MG1655.fa
/opt/data/SRR1770413_1.fastq
/opt/data/SRR1770413_2.fastq

工作路径:
##每一个登录账号下创建自己的工作目录
mkdir -p yourname/SNPCalling
cd /home/yourname/SNPCalling (路径需要修改)

第一步,将数据软连接到自己的工作路径下

ln -s /opt/data/E.coli_K12_MG1655.fa ./
ln -s /opt/data/SRR1770413_1.fastq ./
ln -s /opt/data/SRR1770413_2.fastq ./

第二步,用BWA index功能为ref文件做index,用Samtools软件为ref做index

/opt/software/bwa-0.7.17/bwa index E.coli_K12_MG1655.fa
/opt/software/samtools-1.11/samtools faidx E.coli_K12_MG1655.fa

第三步,用BWA软件做序列比对,得到序列比对的sam文件

/opt/software/bwa-0.7.17/bwa mem -M -t 1 -R '@RG\tID:Ecoli\tSM:Ecoli\tLB:Ecoli\tPL:ILLUMINA\tPU:run' E.coli_K12_MG1655.fa SRR1770413_1.fastq SRR1770413_2.fastq > SRR1770413.sam

第四步,sam文件转化成bam文件,并对bam文件进行进一步过滤(排序+去冗余)

java -Xmx8G -jar /opt/software/picard-tools/picard.jar SortSam I=SRR1770413.sam O=SRR1770413.bam SO=coordinate VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=true TMP_DIR=./tmp.363296
java -Xmx8G -jar /opt/software/picard-tools/picard.jar MarkDuplicates I=SRR1770413.bam O=SRR1770413.dup.bam M=SRR1770413.dup.txt REMOVE_DUPLICATES=true VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=true TMP_DIR=./tmp.690131

(optional)检查一下生成的bam文件质量是否合格

/opt/software/samtools-1.11/samtools flagstat SRR1770413.dup.bam > SRR1770413.dup.bam.stat

第五步,建立dict文件

java -jar /opt/software/picard-tools/CreateSequenceDictionary.jar R= E.coli_K12_MG1655.fa O= E.coli_K12_MG1655.dict

第六步,得到变异文件

/opt/software/gatk-4.0.12.0/gatk HaplotypeCaller -R E.coli_K12_MG1655.fa -I SRR1770413.dup.bam -O SRR1770413.dup.vcf

用samtools tview看这两个变异位点

/opt/software/samtools-1.11/samtools tview SRR1770413.dup.bam E.coli_K12_MG1655.fa
##可以按g跳转至NC_000913.3: 378700查看,或NC_000913.3:566530

第七步,筛选vcf文件,得到高质量的SNV

(筛选至少50%的个体成功被snp calling的位点,最低质量分数为30的位点,次要等位基因计数为3的位点,–recode标志告诉程序使用过滤器写入一个新的vcf文件,–recode-INFO-all保留旧vcf文件中的所有INFO标志。–out 输出的文件名称)

/opt/software/vcftools_0.1.13/bin/vcftools --vcf SRR1770413.dup.vcf --max-missing 0.5 --minDP 3 --minQ 30 --recode --recode-INFO-all --out filt

最终得到filt.recode.vcf这个文件。


http://www.ppmy.cn/news/966959.html

相关文章

提取TCGA 中体细胞突变数据的表达矩阵

#因为之前的命令调用GDCquery_Maf 发现用不了 #故找到了一些其他的方法,并且自己试着将其弄成了一个表达矩阵。 #代码如下 #1、下载加载相应的包 install.packages("pacman") library(pacman) p_load(TCGAbiolinks,DT,tidyverse) BiocManager::insta…

maftools|TCGA肿瘤突变数据的汇总,分析和可视化

之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫“瀑布图”,以及一些细节的更改和注释。 本文继续介绍maftools对于MAF文件的其他应用,为…

新版TCGA的突变SNP数据添加临床信息

文章目录 加载数据和R包读取数据 今天给大家演示下如何用自己的数据完成maftools的分析,主要是snp文件和临床信息的制作,其实很简单,但是网络上的教程都说的不清楚。 这次我们直接用之前TCGA-COAD和TCGA-READ合并后的数据演示,合…

ChatGPT 增长逐渐放缓,不再能吞噬整个网络?

整理 | 陈静琳 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的爆火,是昙花一现,还是未来可期? 近日,网站流量分析工具 Similarweb 针对 ChatGPT 目前的数据流量现状进行了一次深度的调研…

【饭谈-缓解焦虑】浅谈下目前AI【ChatGpt】现状和测试行业未来预测

最近关于chatgpt的新闻和功能真的是满天飞,比之前元宇宙还火爆,各种大佬纷纷发表了看法。你看着这些东西是不是变得越来越焦虑了?感觉自己马上就要失业了?感觉人类都要灭绝了?硅基生命真的要取代碳基了?但是…

ChatGPT资深提示工程师需要具备技能

ChatGPT是一种基于深度学习的生成式AI工具,可以根据给定的提示生成各种类型的文本,如对话、故事、文章、代码等。ChatGPT提示工程师是一种新兴的职业,他们负责设计和优化ChatGPT的输入和输出,以实现特定的目标和效果。 ChatGPT资…

关于C++的一些思考(摘自如何学好C++语言)

多问“为什么要这样”的问题。学习C一定要多问几个“为什么是这样”,“凭什么要这样”的问题。比如:很多人知道C有拷贝构造函数和初始化列表,但你真的知道为什么要有拷贝构造函数?为什么要有初始化列表吗?为什么要有te…

从Spring 应用上下文获取 Bean

ApplicationContext 提供了获取所有已经成功注入 Spring IoC 容器的 Bean 名称的方法 getBeanDefinitionNames() 。然后我们可以借助于其 getBean(String name) 方法使用 Bean 名称获取特定的 Bean。 我们使用 CommandLineRunner 接口来打印一下结果。 1.1 获取所有的 Bean im…