gtf与gff3文件【格式】【转换】

news/2025/3/20 1:27:45/

GFF3 官方

  • General Feature Format Version 3
  • 存储序列结构信息的一种数据格式。序列结构就是一个scaffold或者染色体上面每个位置都是什么序列元件。
  • GFF每一行代表一个序列元件(以#为开头的注释行除外),一行9列9个属性,必须tab分割,属性为空用“.”代替。
1. seqid - scaffold或者chromosome的名称说明
2. source - 产生一个序列元件的软件的名称或者数据源(数据库名称或者项目名称)
3. type - 序列元件的类型,例如:mRNA、CDS等等
4. start - 序列元件在scaffold或者chromosome上的起始位置,从1开始计数
5. end - 序列元件在scaffold或者chromosome上面的终止位置,从1开始计数
6. score - 该序列元件的打分,一般为该序列元件做比对时的E-value和ab initio gene prediction features时的P-value
7. strand - “+”代表该序列元件在scaffold或者chromosome的正链,反之亦反
8. phase - 可以为“0”、“1”、“2”,“0”代表该序列元件的第一个碱基为第一个密码子的第一个剪辑,“1”代表该序列元件的第二个碱基是第一个密码子 的第一个碱基,依次类推。
9. attributes - 该序列元件的一些其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于序列元件是很复杂的,一个序列元件(例如:exon)可能属于另外一个序列元件(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome

GFF文件的第9列,从第二版开始(GFF2),所有的属性都以标签=值的方式呈现,各个属性之间以;作为分隔符


GTF官方

当前所广泛使用的GTF格式为第二版(GTF2),它主要是用来描述基因的注释。GTF格式有两个硬标准

  • 根据所使用的软件的不同,feature types是必须注明的。
  • 第9列必须以gene_id以及transcript_id开头。GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征):

在这里插入图片描述

格式转换

Cufflinks里面的工具gffread

#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3
gffread genome.gff3 -g genome.fa -x  cds.fa
gffread genome.gff3 -g genome.fa -y  protein.fa
gffread genome.gff3 -g genome.fa -w  transcripts.fa
python -m jcvi.formats.gff bed --type=mRNA --key=ID a.gff3 > mRNA.bed
#Python 包jcvi包, 抽取 GFF文件中mRNA, key是ID
#基因
python -m jcvi.formats.gff bed --type=gene --key=ID  a.chr.gff3  > gene.bed

用bedtools提取序列,要加-s 参数(区分正反链)
bedtools getfasta -fi ./a.fasta -bed gene.bed -nameOnly -s -fo a.gene.fa
a.gene.fa就是我们需要的文件,同理也可以得到a.mRNA.fa。
提取最长转录本脚本,获得基因中最长可变剪切的序列。


http://www.ppmy.cn/news/127470.html

相关文章

IDL计算GF5 AHSI传感器各波段地外辐射及表观反射率

需求:已知影像辐亮度,求表观反射率,需先计算传感器各波段地外辐射 其中 为太阳天顶角 地日距离的变化导致地外辐射通量的变化范围为3.3%。地外辐射对一年时间的依赖性如下, 在式(2.3a)中给出了一个简单的方程,它对大多…

微信小程序原生的下拉框组件

前言 近日开发微信小程序时,需要一个下拉框的组件,使用和PC端下拉框一样的方式会显得很丑,于是发现微信官方API有个wx.showActionSheet,但是有诸多限制,例如:最大长度只能是6项,多选等等。 由…

GFCC

声学特征: GFCC 1. introduction ASA CASA 2. Auditory Features input(signal) -> STFT -> Gammatone filters -> downsampling(改变采样频率到10KHz) -> loudness-compressed (减少 magnitude) -> output&am…

G1D54-CRF

一、CRF的输入X是什么?是构造的特征吗? 如此,CRF的x只用于状态函数吗? CRF的例子解释调用代码 机器之心 知乎忆榛 此处线性链条件随机场的特征函数形式被统一了? BilstmCRF,强烈推荐!&#x…

GFS架构

1.GFS是什么 全称是Google File System,Google早期研发的分布式文件系统。 画外音:与分布式文件系统对应的,是单机文件系统,Windows和Linux操作系统都有文件系统。 GFS的设计目标是什么 主要有四个目标: (1) 高可用…

5GC NEF网元功能介绍

IPLOOK 5GC满足3GPP标准,具有更高的速率、更低的时延、支持更高的移动性和更大的连接数等特性。 IPLOOK 5GC系统架构相比4G EPC整体网络架构具有大幅度变化,采用基于云的微服务架构,将传统的网元转换为网络功能(NF), 同时软硬件分…

5GC学习笔记之NF功能简介

参考:协议3GPP 23.501目录 1. AUSF 2. AMF 3. DN 4. UDM 5. UDR 6. UDSF 7. NEF 8. NRF 9. NSSAAF 10. NSSF 11. PCF 12. SMF 13. UPF 14. UCMF 15. AF 16. UE 17. 5G-EIR 18. NWDAF 19. CHF 20. SCP 21. SEPP 22. N3IWF 23. TNGF 24. W-AGF 25. TWIF 1. AUSF AUSF…

基于卷积神经网络的图像去噪(入门篇)

基于卷积神经网络的图像去噪(基础篇) 基础理论知识了解 基于深度学习的图像去噪,区别于传统去噪,但也有一定发展历程。从浅层模型到深度模型,从含噪图像映射去噪图像到含噪图像映射噪声图像(也就是残差学…