1. 研究背景
RNA与蛋白质之间的相互作用在转录后的调节中起重大作用,因此需对RNA-蛋白质(RBP)之间的结合进行预测,但是实验手段的应用难以广泛开展。结构生物学实验只能检测某一个特定RNA与蛋白间的相互作用,而不能提供统计意义上的结合偏好的信息。而assay的方法可以提供结合的亲和力,但是没有办法抓住具体的结构上的结合构象的差异和细节。基于计算的手段由于具有高通量高效率的优点,正受到越来越多的重视。传统的计算手段通过从蛋白质氨基酸序列抽取特征来训练机器学习模型,因此预测精度低,而且预测的分辨率也只能局限于某个氨基酸是否是RNA结合位点。
沙特阿卜杜拉国王科技大学(KAUST)高欣课题组(http://sfb.kaust.edu.sa)与香港科技大学黄旭辉课题组和南方科技大学陈炜课题组合作,提出一种基于深度学习的RNA-蛋白质结合偏好的预测方法。该方法基于特征向量,将蛋白质表面结构的局部理化特性编码为高维度的输入向量,使用ResNet提取特征,最后利用多层分类器预测出蛋白质表面各点与RNA各种组分的结合偏好。
2. 方法
2. 1 数据预处理
高欣课题组使用Protein Data Bank (PDB)作为数据集。PDB中的数据含有蛋白质表面的空间拓扑信息,但是由于有些数据来自同源蛋白质,存在着数据冗余的问题,其会带来偏置,降低模型的泛化能力。
为了解决这一问题,他们将PDB聚类(每个类中的条目至少有90%的RNA重合),然后从每个类中选取最好分辨的一个结构;如果一个结构中又有多个相同的蛋白质/RNA链,那么截取最好分辨的RNA留下。
2. 2 使用FEATURE获得特征向量
斯坦福大学Russ Altman研发的FEATRURE框架不仅考虑物理和结构特性,还考虑到了每个原子周围空间的径向分布。其能够保留更大范围的细节信息,从输入晶格的三维原子分布感知出蛋白质表面的物理化学特征并转化为特征向量。
2.3 多层分类
NucleicNet预测每个蛋白质表面晶格的局部物化特性是否适合与RNA结合,如果适合还将给出结合偏好。这是个多分类监督学习问题,预测每个晶格可能与磷酸(P)、核糖(R)、腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)结合或该晶格为非结合点(X)。
然而,正样本中R和P的数量比碱基AUCG的数量多得多,简单的调用深度学习模型训练面临着样本不平衡问题。这里采用多层分类来缓解这一问题:第一层,晶格被分类为4个类,即碱基,核酸,磷酸,非结合点,输出一个标准化四分类评分向量;如果第一层结果为碱基,则调用第二层,碱基被分类为A/U/C/G,同样输出一个标准化四分类评分向量,如图1所示。
图1 多层分类
2.4 训练阶段
由于ResNet具有处理梯度消失问题的能力且能够较快地收敛,选择其作为NucleicNet的基本架构。模型中有十六个Res模块、一个全连接层和一个作为四分类器的SoftMax层,其中每个Res模块由两个卷积层组成。模型中采用ReLu为激活函数,cross-entropy为损失函数,Adam为优化器。
2.5 获得序列标识图
对于每个被预测为最可能和碱基结合的晶格,对其得到的SoftMax向量计算信息量。信息量的计算公式如下:
舍弃P、R和X,对进行AUCG的概率归一化,乘以信息量即可得到序列标识图。如图2,生成三种经典RBP进行预测并生成序列标识图。
图3 上半部分预测(a)FBF2(b)hAgo2(c)Aa-RNase III三种蛋白质的RNA结合偏好,下半部分为生成的序列标识图
2.6 对RNA序列进行评分
NucleicNet对每个蛋白质表面结构的预测结果可以被总结为公式Q。其可以用来对任意一个输入RNA序列进行评分,用于评价其和蛋白质结合的能力。
3. 结果
3.1 模型评估
首先,对分类结果进行评估。作者们使用蛋白质数据库(PDB)作为数据集进行训练,实验采用交叉验证对模型进行评估,将数据的2/3作为训练集,1/3作为测试集。训练集中,RNA组分与蛋白质表面距离小于等于5埃的晶格为的作为正样本,其他为负样本。使用AUROC和F-1评分对模型进行评估,如表1。
表1 模型对每个分类的AUROC和F1-score结果
其次,对生成的序列标识图和Q评分进行评估。NucleicNet生成的结果与具有高准确率的实验手段RNAcompete(RNAC)生成的结果进行对比。用两种方法生成(a) PABPC1, (b) PCBP2, (c) PTBP1, (d) RBFOX1, (e) SNRPA, (f) SRSF2, (g) TARDBP, and (h) U2AF2八种蛋白质的标识序列,将其进行比较,可以看到二者生成的序列标识图大体一致。根据RNAC的Z-score分别生成最可能和最不可能与每种蛋白质结合的10个RNA序列。将这些序列用NucleicNet进行评分,发现NucleicNet能够很好地区分开由RNAC的Z评分得到的10个最高分和10个最低分序列,如图3所示。
图3 NucleicNet与RNAC对八种蛋白质生成的序列标识图和评分
3.2 与其他模型的对比
由于其他模型仅仅具有二分类(结合点和非结合点)功能,作者们只比较二分类能力。晶格内至少有一个蛋白质原子与一个RNA原子距离小于3.5埃(或5埃)时,该晶格作为正样本。选用距离蛋白质形心最近的30个晶格的进行MCC评分,如图4所示。
图4 在3.5埃和5埃两个尺度的蛋白质片段中,计算不同模型的MCC,其中NucleicNet表现最佳
4. 结论
高欣课题组提出一种基于深度学习的RNA-蛋白质结合偏好预测方法-NucleicNet。该方法基于特征向量,将蛋白质表面结构的局部理化特性编码为高维度的输入向量,使用ResNet提取特征,最后利用多层分类器预测出蛋白质表面各点与RNA组分的结合偏好。实验结果显示其能有效预测RNA结合位点和结合偏好,在MCC的指标下优于目前最先进的模型。除此之外,对于已知的RNA结合蛋白(RBP),NucleicNet可以生成所结合的RNA的序列标识图并评估不同RNA序列与其结合的能力;对于其他的蛋白,NucleicNet可以预测其与RNA结合的可能性及结合位点,从而识别未知的RBP。
参考资料
Lam, J.H., Li, Y., Zhu, L. et al. A deep learning framework to predict binding preference of RNA constituents on protein surface. Nat Commun 10, 4941 (2019) doi:10.1038/s41467-019-12920-0