QUAST:评估基因组组装效果

news/2024/11/24 9:39:37/

欢迎关注"生信修炼手册"

对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。

对于一个组装出来的序列,不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然后从第一个序列开始,将长度进行累加,直到累加的长度超过了总长度的50%,此时,最后一个累加的contig的长度就是N50的长度。示意图如下

上图中N50的长度就是60,和N50的概念类似,还有N75, N90等说法,这些指标可以统称为Nx。Nx越大,说明组装出来的片段长度越长一定程度上,证实了组装结果越好。

除了Nx指标外,还有Lx指标,比如L50,指的是累加的contig的个数,示意图如下

上图中L50的值是3。在实际分析中,我们可以通过现有软件来计算N50, L50等指标,quast就是最常用的软件之一。该软件有在线服务,链接如下

http://quast.bioinf.spbau.ru/

只需要上传fasta格式的contig或者scaffold序列,然后提交即可。在线服务虽然方便,但是也是有限制的,上传的fasta文件大小不能够超过100Mb,对于实际的基因组项目而言,当是不能满足要求。此时,可以下载软件到本地服务器,然后运行。

安装过程如下

wget https://sourceforge.net/projects/quast/files/quast-4.6.3.tar.gz
tar xzvf quast-4.6.3.tar.gz
cd quast-4.6.3/

quast基于python开发,以来matplotlib库进行绘图,保证python和matplotlib安装好,然后直接下载源代码,解压缩就可以使用了。

用法如下

python quast.py -t 10 -o test1_out contigs.fasta

-t参数指定线程数,-o参数指定输出结果的目录。运行完成后,输出目录会生成如下文件

├── basic_stats
├── icarus.html
├── icarus_viewers
├── quast.log
├── report.html
├── report.tex
├── report.tsv
├── report.txt
├── transposed_report.tex
├── transposed_report.tsv
└── transposed_report.txt

直接看report.html文件就就可以了。

1. contig基本信息统计表

quast 会统计不同长度的contig的个数,以及N50,L50等指标,示例结果如下

2. Nx 长度分布曲线

横坐标为Nx,纵坐标为Nx的值,示意图如下

3. contig长度累计曲线

横坐标为contig个数,纵坐标为累加的长度,示意图如下

4. GC含量分布图

窗口的GC含量分布图,quast将每个contig划分为长度100bp的窗口,统计每个窗口的GC含量, 横坐标为GC含量,纵坐标为窗口个数, 示意图如下

contig GC含量分布图,对于每个contig,统计GC含量,横坐标为GC含量,纵坐标为contig个数,示意图如下

扫描关注微信号,更多精彩内容等着你!


http://www.ppmy.cn/news/208995.html

相关文章

【Cadence Virtuoso】番外:如何根据仿真获取不同工艺库的MOS参数

前言 本博文为个人在学习Cadence Virtuoso时的记录,巩固自己学习的同时,也给其他初学者一些参考,学习过程中使用到的软件为Cadence IC617运行在CentOS7系统下,参考的书籍为Razavi的《模拟CMOS集成电路设计》。 为了后续各种电路…

rol 循环左移 计算_指令ROL reg/mem, 1表示循环左移,该指令执行后最高位移至( )中,同时最高位移至( )中。_学小易找答案...

【填空题】I/O 能够实现独立变址的主要原因:8086外部引脚设计了 引脚 【填空题】汇编语言指令中DEC是( )指令;指令NEG是( )指令。 【简答题】图灵机数学模型是什么? (8.0分) 【填空题】汇编语言指令SAR表示非循环移位中的( )功能。 【填空题】汇编语言指令( )表示循环移位中的…

Java(等级划分)

import java.util.Scanner;public class next {public static void main(String[] args){//声明部分int score;String level;Scanner sc new Scanner(System.in);//输入部分System.out.print("score ");score sc.nextInt();//处理部分level " ";if (sc…

htc d826 android 6,HTC 826官方ruu固件rom包_HTC Desire 826刷机包和升级包

今天看到论坛里已经有机友分享过HTC Desire 826的固件包了,也就是大家常说ruu包,现在咱们的这个手机多数是通过ruu包来进行升级的,没有什么太复杂的,今天在这里先分享的卡刷格式的ruu包,因为线刷的ruu包还没出来,等以后出来了再给大家分享出来,在这里会一块儿更新的,不…

linux系统tcl电视刷机包,tcl电视刷机包tcl电视升级包系统修复tcl电视强刷包

本帖最后由 dsfsdfs 于 2015-9-7 20:59 编辑 不知道为什么我之前发的帖子不能编辑自己的帖子,导致没法把大家要的固件发布出来,现在建立一个新帖子来发大家留言要的固件把, 老规矩: 大家不论谁想要TCL固件直接可以留言,我会每个礼拜更新一次大家所需要的固件,留言后请记住…

平平无奇的语音助手(一)

本文撰写于2021年8月4日,首发于本人的个人网站:Cyberbrain.top,无奈没人看,放到CDSN上。 嘉立创紫 立创EDA又双叒叕办活动了——《立创EDA暑期训练营2021》(哇哦~ ~ ~ ~ )这次活动有两个主题可以选择,DIY功放和离线语…

10.SVG 路径前面提到的各种形状,其轮廓线都属于路径

SVG中的路径概念可以是一个形状的外框,也可以是用来裁剪的线条,这个线条可以被描边,封闭时还可以被填充。 路径和折线或多边形不同之处在于,路径可以是直线也可以曲线,因此使用路径可以构造更为复杂的几何图形。 我们…

nextpolish安装_NECAT: Nanopore数据的高效组装工具

对MECAT2感兴趣的话,或者在MECAT2使用时遇到了什么问题,可以加MECAT和NECAT问题解决群, 群号是:316859622 NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/N…