tip1:文献阅读最重要的就是要抓住QA(要解决的问题)以及文章主线(逻辑)
QA其实在abstract以及introduction中可以整理出来,
文章主线(逻辑)主要是看results各小标题+每幅图小标题
一,Q:启动子(序列)对于转录起始很重要,但是启动子(序列)如何驱动转录起始
将问题不断进行paraphrase,也就是转述:
启动子序列中的什么信息,或者说什么模式能够驱动该启动子对应的gene被转录起始
关于启动子的序列结构部分,参考我的上一篇博客:
https://blog.csdn.net/weixin_62528784/article/details/143711782?sharetype=blogdetail&sharerId=143711782&sharerefer=PC&sharesource=weixin_62528784&spm=1011.2480.3001.8118
:::danger
1,title:人类基因组转录起始的序列基础
:::
:::danger
2,introduction(background)
(1)在不同物种中已经识别出一些核心启动子元件,包括TATA盒、启动子(Inr)元件和几个转录起始位点下游的序列元件(MTE、DPE、DPR),但是这些序列元件只存在于少部分的人类基因组启动子中——》核心启动子元件(在其他真核模式物种中研究发现的)并不是人类基因组中大多数启动子所含有的,也就是不符合人类的大多数统计规律,也就是non-human的规律,在序列水平上
(2)已知许多序列特异性的转录因子基序(transcription factor motif)也在启动子附近富集,然而这些基序是否以及如何直接对转录起始作出贡献尚未有深入的理解——》启动子序列附近有TFBS的motif,但是序列到功能水平上有什么生物分子事件未知、不可推断
(3)对不同的序列元件如何共同作用于转录起始活性也缺乏深入的了解——对于大多数人类启动子,我们不知道哪些碱基对有助于其活性——》序列水平上,有还原论的idea,但是无法量化具体单元(是碱基对,还是n bp对,还是motif等,总之是单元)对于启动子功能的影响
在碱基对分辨水平上,哪些碱基参与启动子并决定转录起始信号?——》序列水平上,找到基础单元unit
序列模式如何协同作用来确定转录起始位点?
启动子序列模式组成对其功能有什么影响?
决定启动子链特异性的关键因素是什么?——》上述3个问题同系,就是找到序列模式(序列到功能的规律)
最后,跨物种转录起始的序列决定因素有多保守?——》衍生的问题
——BG其实信息比较零散,不要被迷惑,还是要回到Q上
:::
二,主线逻辑
:::danger
result1:在碱基对分辨率水平上解码转录起始的序列基础
我们假设碱基对分辨水平上的转录起始信号反映了潜在的基于序列的转录起始机制。
因此,我们可以通过分析转录起始信号如何依赖于序列来对这些机制进行去卷积
——》如何定义(解卷积/表征)转录起始现象?
分析转录起始信号
——》如何定义转录起始信号,或者说解卷积表征?
为此,我们首先在碱基对分辨率上组装了覆盖率最高的转录起始图谱。
我们整合了由五种实验技术产生的转录起始信号数据集,这些技术精确捕捉转录本的5 '末端,
并通过计数每个位置开始的转录物来量化转录起始信号
每个启动子都有一个不同的转录起始信号,显示转录起始位点的频率和位置,可以通过实验测量碱基对分辨率
综上:
****转录起始信号:通过获取高覆盖率的转录本图谱,计算每个转录本每个起始位置、该起始位置的转录本数目(可能是组装后的reads之类,从reads数目,或者覆盖度上来理解等)
转录起始信号的表征:转录起始信号图谱profile≈TSS频率-位置分布图,
收集基因组上所有的启动子获得
==》总体逻辑就是:
****假设这些谱反映了转录起始的潜在机制,解决从启动子序列预测转录起始信号谱的机器学习任务,将有助于深入了解转录起始的序列调控;
转录起始信号图谱profile能够反映转录起始机制
所以研究/解码转录起始机制的问题——》转变为预测转录起始信号图谱profile的问题
那么一个生物学的机制问题,变成了DL中输入1个启动子序列预测信号图谱的预测prediction问题
train set:
来自FANTOM和ENCODE项目的两种变体CAGE和RAMPAGE,它们测量的大多是成熟转录本;
GRO/PRO-cap,它们只测量新生转录本
假设这些谱反映了转录起始的潜在机制,解决从启动子序列预测转录起始信号谱的机器学习任务,将有助于深入了解转录起始的序列调控
#1,model
(1)组成:
以预测为中心的Puffin- d模型——》传统DL
以解释为中心的Puffin模型——》****解释性?how?
被训练用于从序列中预测碱基对分辨率的转录起始信号
(2)执行过程:
补充说明:
该模型学习了三种类型的序列模式来捕获不同类型的序列依赖性
序列水平上,找到基础单元unit——》全文按结果而言是找到了基序motif、起始子Initator、三核苷酸这3种序列模式,可以说认为启动子fun的序列基础在于这3种序列模式
其实可以看出来:整体基础unit是
9motif、11 initiator、32个三核苷酸
首先将输入序列转换为学习到的序列模式的激活分数——》输入序列,从中寻找对应三种序列模式(种类+数目,比如说启动子序列中TATA motif有2个),并分别计算激活分数?
基于激活分数计算对应序列模式的效应effect
然后将基序效应与起始子效应和三核苷酸序列模式效应合并,并转化为预测——》合并3种基础单元序列模式的效应effect
(3)模型网络结构:注意与上面(2)的对应(已经使用相同颜色标注出)
①****通过第一个卷积层学习到所有序列模式的基对分辨率激活分数:
激活分数类似于将非匹配项设置为零的motif匹配分数,并量化某个位置的序列与序列模式匹配的程度——》道理其实很简单,可以类比motif分析中的PWM矩阵,
或者是一般神经网络中的激活函数,比如说是在分类中经常用到的softmax,将输出rescale到0-1之间,然后对应y value的one-hot vector,和label的one-hot vector,0-1其实就是表征分到某类的程度,比如说某类是1,那就是说预测是该类;
总之,激活函数之后的0-1 scale,能够表征某种模式的匹配程度,简单理解,所以上面的motif(或者是其他2种序列模式,匹配程度也是用0-1之间衡量),称之为激活分数。
当然重点是碱基对分辨率上的
当然只是类比思考,实际上softplus激活函数并不是0-1之间的
===》第一个卷积层是用于量化输入序列与3种基础序列模式(9motif、11 initiator、32个三核苷酸)的一个匹配程度(激活分数)
②****通过第二层卷积层学习并应用每个序列模式对转录起始的激活和抑制作用:
所以“基于激活分数计算对应序列模式的效应effect“,计算效应就是计算对转录起始的激活或者抑制作用
===》第二个卷积层是用于量化相对于基序motif(总之是3种序列模式)的不同碱基对位置上转录起始的激活和抑制效应,
每个位点特异性的效应曲线可以被认为是基序motif(总之是3种序列模式)的转录特征,并可能反映其转录激活机制,
也就是说这3种序列模式的位置特异性效应曲线,是整个转录起始序列模型的核心
position-specific effect curves of sequence patterns
③****所有序列模式的效应在对数尺度下按碱基对相加组合,相当于计数尺度下的乘性组合
3种效应相加
该层的输出汇总了每个碱基对的所有序列模式效应,可以解释为对数尺度的转录起始信号,并重新缩放到最终预测
(4)实际上model所输入出的3种序列模式:
主要是motif:是转录起始信号的主要驱动因素
initiator和三核苷酸是微调(补充)——所以为什么会有这些?
少量序列模式(9个模体+启动子+三核苷酸)和简单的加性/乘性规则(对数尺度加性,计数尺度乘性),我们就可以从序列中预测碱基对分辨率下的转录起始信号,并且预测与实验证据具有很强的一致性
:::
:::danger
result2:位置和链特异性序列对转录起始的影响
实际上就是前面result1的:
②****通过第二层卷积层学习并应用每个序列模式对转录起始的激活和抑制作用:
所以“基于激活分数计算对应序列模式的效应effect“,计算效应就是计算对转录起始的激活或者抑制作用
===》第二个卷积层是用于量化相对于基序motif(总之是3种序列模式)的不同碱基对位置上转录起始的激活和抑制效应,
每个位点特异性的效应曲线可以被认为是基序motif(总之是3种序列模式)的转录特征,并可能反映其转录激活机制,
也就是说这3种序列模式的位置特异性效应曲线,是整个转录起始序列模型的核心
position-specific effect curves of sequence patterns
——》也就是说result2是计算3种序列模式的effect效应曲线,是该模型的核心
这一部分result我认为核心是:
每种序列模式对应的(每个位点特异性的效应曲线)可以被认为是该序列模式的转录特征,并可能反映其转录激活机制;
不同序列模式对TSS转录激活信号的影响就相当于:
不同类型的序列模式在不同的基因组距离尺度上定义了转录起始位点TSS
1,strand-specific链特异性分类:基本上只对motif效应而言
也就是说:针对motif计算(对转录起始的激活或者是抑制效应)的效应曲线,讲究链特异性(其实CTCF的例子就能说明了),如果是起始子或者是三核苷酸,就没有链特异性的需求了
(实际上链特异性应该是位置特异性的一种)
根据基序motif效应(对转录起始的激活或者抑制作用)的对称性(也就是正反向启动子TSS上能否使用同样motif效应来解释,motif效应曲线是否一致,镜像对称),基序motif可以分为两组:
1)一组对正向链有较强影响,对反向链影响较弱或不影响的链特异性或方向性基序,包括TATA、YY1、U1 snRNP和Long Initiator (Long Inr);
2)一组对双链几乎具有对称效应的非链特异性或双向基序,包括SP、NFY、ETS、ZNF143、NRF1和CREB
依据motif效应分类的两类motif序列(9个中分类,多了一个long Inr):
①单向/特定方向的启动子基序( Direction-specific promoter motifs): ![](https://i-blog.csdnimg.cn/img_convert/9b2bbdc67780fcda7b9f951066803ce1.png)②双向启动子motif(Bidirectional promoter motifs):
===========》
总体而言:
motif效应曲线能够解释启动子大部分的位置/链特异性转录起始信号图谱
剩下的就是起始子与三核苷酸了
2,起始子调节转录起始的局部位置偏好:
Inr元件是发现的第一个核心启动子元件。
我们将与Inr匹配的启动子序列模式称为Short Inr),因为Puffin还发现了一个相关的Long Inr序列模式,这是一个扩展的Short Inr,包含几个下游核心启动子元件,包括MTE、DPE和DPR
3,三核苷酸捕获残留的局部序列依赖性:
三核苷酸序列模式可表示4个碱基(A、C、G和T)的所有三核苷酸组合,从而捕获剩余的局部序列依赖性——》显然有64种组合
====》综上:从对转录起始信号的贡献权重上去定义启动子
正如每一种序列模式类型的平均效应所示,基序、起始子和三核苷酸序列模式在不同的基因组距离尺度上定义了转录起始位点(TSS)。
基序是转录起始信号中最重要的贡献者,其作用范围最长,距离基序可达300bp。此外,转录起始信号水平较高的启动子的特征是基序的贡献更强)。
三核苷酸主要在50bp内产生局部效应,但TSS周围有一个宽区域,包含几个千碱基,在三核苷酸模式中富集,这是转录起始的首选模式。
起始子效应是最局部的,它们只能微调碱基对分辨转录起始信号。
总体而言,基序、起始子和三核苷酸捕获了序列依赖性的不同方面,它们共同解释了大多数人类启动子中的碱基对解析转录起始
:::
:::danger
result3:实验扰动验证了转录起始的位置特异性基序motif效应
其实就是验证了上面2中的一个motif的效应曲线:
为了使用实验数据直接验证基序效应,我们分析了转录因子缺失对碱基对分辨转录起始信号的影响,并将其与模型预测进行了比较;
1,Puffin具有进行计算机敲除(KO)的能力,通过关闭相应基序的效应来预测特定TF的消耗效果
——》
也就是通过puffin关闭对应motif效应(硅敲除)来模拟湿实验敲除,然后比较效果如何
用Puffin进行计算机敲除(KO)预测TF耗竭效应的示意图。为了预测TF缺失的影响,我们在Puffin模型中将相应基序的激活和效应设为0,并预测转录起始信号
下面是一些敲除效应的模拟比较:
高NFY或YY1贡献的启动子比低贡献的启动子更受相应TF消耗的影响
2,检验了该模型预测编辑基因组序列对转录起始信号产生影响的能力(略)
涉及到湿实验了
===>总之:
puffin估计的位置特异性motif对转录起始的影响得到了验证
:::
:::danger
result4/5/6:剩下的其实就都是应用了,在模型构建、验证之后的应用
然后因为前面其实说在神经网络的第2层中,也就是效应曲线的解析中,motif的效应影响最大,所以后面基本上456应用方面都只使用motif来论证
4:启动子的Motif组成与基因表达选择性有关
(1)puffin允许基于每个motif类型的效应量化motif对每个启动子的贡献
——也就是说引入了一个新的指标:每个motif对于启动子的贡献(贡献分数),然后这个贡献分数实际上是基于motif效应(计算的)。
所以其实可以类比motif效应曲线来理解motif贡献分数,例如见下:
motif贡献分数用于衡量每个motif对启动子转录起始信号效应的权重(这里其实是motif效应加权的概念),通过对每个motif贡献的加权组合,我们能够量化每个启动子中不同motif的贡献。
——》总之,建议从motif效应来理解motif贡献分数即可
通过分析40,000个人类启动子中基序贡献的统计,
如下图:行是motif类型,列是启动,热图表示motif贡献分数;
可以看出没有一个motif是在所有启动子中都深色的,也就是没有一种motif是所有启动子都贡献大、都必需的必需motif;
我们注意到启动子显示出非常多样化的基序组合,相对于基于单一基序贡献的预期,我们未观察到强烈偏好或表达不足的基序组合,这表明基序在人类启动子中可以相当灵活地组合。
简而言之:没有任何一个基序是所有启动子所必需的——》这意味着不同的启动子可能需要不同的基序组合来调控基因表达。
(2)所以我们需要评估:启动子组成与基因表达特性之间的关联
也就是启动子序列组成(应该是motif组成)与基因表达特异性之间的关系。
分析了来自FANTOM项目的>200细胞类型和组织的启动子水平表达数据,
发现motif对不同细胞类型的表达变异有显著的影响。
每个点是启动子,x轴是表达水平,y轴是表达散度(也就是下面的离散指数)
离散指数是启动子表达的方差除以均值,我们用它来比较启动子的细胞类型和组织特异性。
离散指数值越大,表明该启动子表达越细胞特异性。
亮橙色的区域:实际上就是以该motif贡献或者说效应影响为主导的启动子
===》
因为启动子基序和细胞类型特异性之间的联系不能用单个基序对特定组织的偏好来解释,我们假设启动子基序影响启动子对细胞类型特异性转录调节信号(如由远端增强子介导的转录调节信号)的反应
也就是说,还是从motif效应的加权角度进行解释
(3)其他:
验证启动子对上下文序列的响应:
通过将启动子序列插入到不同的基因组位置,并使用以100 kb序列为输入的深度学习序列模型Puffin-D预测启动子的表达来估计启动子的选择性
=====》草稿部分:
最后的结果是:
假设基序motif的贡献决定了启动子对转录激活的外部信号的反应曲线
所以motif贡献最后还是要从motif效应角度来看,
通过motif贡献来动态调整不同细胞中启动子对外部转录激活信号的响应曲线的过程,实际上就是影响基因表达的细胞类型特异性的过程
5,人类启动子双向转录起始的序列基础:
此处解析略:
6,转录起始的序列机制的进化保守性:
此处解析略
:::