Communications chemisty|德睿智药工作-用于分子性质预测的药物约束异构图Transformer模型

news/2024/11/29 2:30:54/

德睿智药的分子性质预测任务

题目: Pharmacophoric-constrained heterogeneous graph transformer model for molecular property prediction

文献来源:COMMUNICATIONS CHEMISTRY | (2023) 6:60 |

代码:https://github.com/stardj/PharmHGT/

内容:分子的信息表征是人工智能驱动的药物设计和发现的关键前提。包括了官能团和化学反应的药效团信息可以表明分子性质,而这尚未被先前的基于原子的分子图表示充分利用。为了获得更丰富的分子表示,以更好地预测分子性质,作者提出了药物约束异质图Transformer(Pharmacophoric-constrained Heterogeneous Graph Transformer,PharmHGT)。作者设计了一个药效学约束的多视图分子表示图,使PharmHGT能够从功能子结构和化学反应中提取重要的化学信息。通过精心设计的药物约束多视图分子表示图,PharmHGT可以从分子功能亚结构和化学反应信息中学习更多的化学信息。大量的下游实验证明,PharmHGT的性能显著优于最先进的模型,模型的ROC-AUC中高达1.55%,在RMSE中比最佳基线模型高出0.272。消融研究和案例研究表明,本文提出的分子图表示方法和异构图Transformer模型可以更好地捕获药效学结构和化学信息特征。进一步的可视化研究也表明,模型具有更好的表征能力。

1.背景介绍

药物发现的目标是找到具有理想性质的新分子,而准确地预测分子的性质一直是关键问题之一。分子性质预测的关键步骤是如何表示将分子信息映射到特征向量的分子。近几十年来,深度学习方法已经显示出了与传统方法相当、甚至超越传统方法的强大潜力。图神经网络(GNNs)由于其对图结构数据的建模能力而越来越受欢迎。在生物网络数据的关联预测任务中,异构图神经网络算法取得了显著的效果。分子可以自然地表示为图结构,因此gnn方法可以有效地捕获分子结构信息,包括节点(原子)和边(键)。

虽然将片段信息纳入图形结构有利于一些分子性质估计任务,GNN在这个领域的使用仍存在两个问题: (1)这些模型没有提供一个全局化学视角方法来更好地整合原子和片段碎片信息,都忽略了碎片之间的反应信息;(2)缺乏原子、碎片和键的不同类型和特征维度的泛化能力。为了解决这两个问题,需要嵌入来自不同层次的更全面的信息,因此需要开发一个异构GNN模型进行分子性质预测的任务。

在本研究中,作者提出了一种药物约束异质图Transformer模型(PharmHGT)来全面学习异构分子图特征的不同角度从而提高分子性质预测能力。首先,作者利用BRICS的反应信息将分子划分为包含官能团的片段,并保留这些片段之间的反应信息,构建了包含两种节点和三种边的异构分子图(图1)。然后,为了全面考虑分子的多视图和多尺度图表示以及连接片段的反应信息,作者提出了一种新的基于消息传递的异构图Transformer模型。具体来说,他们使用两种不同的Transformer分别学习异构图中的边和节点的特征,并通过消息传递对这些边和节点的特征进行聚合和更新,以获得异构分子图的表示。

图1 是分子分割过程的概述和异构分子图的构建。在底部的异构分子图中,绿色节点表示带有药效团信息的片段,蓝色节点表示分子的原子。绿色的边是碎片之间的反应信息,红色的虚线边是连接碎片的原子的相关信息,原子之间的边是键合的。

2. 结果及讨论

2.1 数据以及baseline模型

为了更好地比较和证明PharmHGT的有效性,作者选择了9个基准分子数据集进行实验,包括血脑屏障通透性(BBBP)、BACE、ClinTox、Tox21、内幕和HIV进行分类任务,以及ESOL、Freesolv和亲脂性进行回归任务。

作者将其模型与3种不同类型的8个基准模型进行比较:

基于片段的方法:AttentiveFP是一种图的神经网络架构,它使用图的注意机制从相关的药物发现数据集中学习。FraGAT利用面向片段的多尺度图注意网络进行分子性质预测;MGSSL通过引入一种新的自监督主题生成框架,设计了基于主题的图自监督学习(MGSSL)。

MPNN类方法:MPNN将现有的几个最有前景的神经模型之间的共性抽象到一个单一的公共框架中,并专注于通过消息传递模块和消息更新模块获得有效的顶点(原子)嵌入;DMPNN:使用与定向键相关的消息,而不是与顶点相关的消息;CMPNN引入了一个新的消息增强模块来丰富消息生成过程。

图Transformer方法:CoMPT采用Transformer架构,通过加强节点和边缘之间的信息交互,学习了更专注的分子表示; GROVER模型通过精心设计的节点级、边缘级和图形级的自我监督任务,从大量的未标记分子数据中学习分子的丰富的结构和语义信息。此外,Graphormer模型也基于Transformer,但Graphormer是一个三维模型,它需要每个小分子的三维构象。

2.2 结果

表1 在分子性能预测分类任务上与最新方法的性能比较。

在分类任务:模型的工作特征曲线(ROC-AUC)的面积。Clintox、Tox21、ToxCast和SIDER都是多任务学习任务,其中包括总共658个分类任务。与传统的基线和几种基于gnn的模型相比,PharmHGT在所有数据集中都实现了ROC-AUC的大幅增加.PharmHGT的设计目的是为了更关注药效团的作用,这使得该模型更易于解释。值得注意的是,PharmHGT的计算成本优于训练前的方法。

表2 在分子性能预测回归任务上与最新方法的性能比较。

在回归任务:溶解度和亲脂性是基本的物理化学性质,这对于解释分子如何与溶剂和细胞膜相互作用至关重要。表2将PharmHGT结果与其他最先进的模型结果进行了比较。PharmHGT模型对ESOL、FreeSolv和亲脂性的最佳情况RMSE为0.680 ± 0.137、1.266 ± 0.239和0.583 ± 0.063,支架分裂为0.839 ± 0.049、1.689 ± 0.516和0.638 ± 0.040。这些结果表明,更好地表示包含更多信息的分子图可以显著提高模型对下游任务的性能。

2.3 消融实验

作者对PharmHGT进行了消融研究,以探讨原子水平视图、药物水平视图和结水平视图的影响。在相同的实验设置下,我们在两个基准上实现了PharmHGT的7个简化变体:

(1) PharmHGT_α:只保留原子级图。

(2) PharmHGT_β:只保留带有反应信息的水平图。

(3) PharmHGT_γ:只保留连接级图。

(4) PharmHGT_βα:通过将药物级图的特征与反应信息聚合到原子级图中。

(5) PharmHGT_γα:通过将连接级图的特征聚合到原子级图中。

(6) PharmHGT_βγ:通过将药物水平的特征与反应信息聚合到连接级图中。

(7) PharmHGT_γαβ:通过将结级图的特征与原子级图进行聚合,然后聚合到分支级图中。

如图3所示,考虑到来自所有视图的异构特征信息的PharmHGT在所有架构中显示出最好的性能。排除原子级、ἧ级或连接级视图都会导致性能下降,而当仅保留具有反应信息的ἧ级图时,PharmHGT_β表现最差。这表明,缺乏来自原子的信息并不能有效地代表分子的特征。当结合两种特征信息时,PharmHGT_γα将结级图聚合成一个原子级图,在具有一个或两个视图的模型中性能最好。这证明了整合来自分子片段的特征信息可以提高预测性能。PharmHGT的研究结果表明,进一步整合反应信息可以获得最有效的分子表征。

图3 在BBBP和ESOL数据集上的消融结果。“X”代表PharmHGT,“X_”代表聚合原子级、连接级和物理级特征的不同PharmHGT变体。

2.4 可视化

为了研究PharmHGT的分子表示学习能力,作者使用具有默认超参数的t-分布随机邻域嵌入(t-SNE)来可视化图4中Tox21数据集的分子表示。对于这个结果,我们将所有标记为0的分子定义为无毒化合物,将任何标记为1的分子定义为有毒化合物,并且具有相似毒性的分子往往具有更多相似的特征空间。因此,我们通过t-SNE可视化它们的嵌入,并评估模型是否可以通过有毒和无毒分子是否有明确的边界来学习有效的分子表示。DMPNN在Tox21任务中能力排名第二,并在有毒和无毒分子之间实现了合理的区分(图4a),但PharmHGT对有毒和无毒化合物的分类有更明显的边界(图4c)。此外,单视图(图4b)的性能远远低于多视图PharmHGT(图4c),这也证明了考虑分子多视图信息的必要性。

图4 分子特征可视化图。用t-SNE从DMPNN、b PharmHGT_α和c PharmHGT中可视化Tox21的分子特征。所有标记为0为无毒化合物的分子,以及任何标记为1为有毒化合物的分子,其中毒性化合物为红色,无毒化合物为蓝色。

3.总结

本文主要的贡献在于:

1.从化合物反应中获得了药效团信息,并保留了片段之间的反应信息。在此基础上,构造了一种异构分子图表示方法。

2.开发了一个异构图Transformer框架,它能够通过融合异构分子图的多视点信息,有效地捕获不同节点类型和边缘类型的信息,包括片段之间的反应信息。

3.在9个公共数据集上评估了PharmHGT,并证明了其优于最先进的优越性。

注意:本文展现内容并非原文所有内容,具体实验细节可见原文。

-------------------------------------------

欢迎点赞收藏转发!

下次见!


http://www.ppmy.cn/news/62204.html

相关文章

2023年全国最新安全员精选真题及答案67

百分百题库提供安全员考试试题、建筑安全员考试预测题、建筑安全员ABC考试真题、安全员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 61.总干线的漏电保护器(即总配电箱的漏电保护器),其…

【Unity项目实战】手把手教学:飞翔的小鸟(6)添加障碍

承接上一篇:【Unity项目实战】手把手教学:飞翔的小鸟(5)背景滚动,我们已经让主角在停止不动的情况下,移动背景图,使得主角小鸟像是自己往前移动了一样,接下来我们将继续往下&#xf…

Netty基础(三)

1.Netty模型 1.1.工作原理示意图1-简单版 Netty主要基于主从Reactors多线程模型(如图)做了一定的改进,其中主从Reactor多线程模型有多个Reactor; 说明: ①.BossGroup线程池中的线程维护了Selector,只关注Accecpt事件; ②.当接收到Accept事件,获取到连接对应的SocketChannel…

【Linux下】进程间通信

文章目录 进程间通信进程间通信的目的进程间通信的分类进程间通信的本质 管道初识管道匿名管道创建匿名管道理解协同机制和原子性写入 命名管道命名管道创建的俩种方式使用命名管道实现俩个不同进程之间通信 **管道实现进程间通信的本质**匿名管道vs命名管道 system Vsystem V共…

电子招标采购系统源码之什么是电子招投标系统?

随着互联网时代的到来,各行业都受到不同的影响,其中招投标行业也不例外。为了顺应互联网潮流的发展,电子招投标逐渐取代传统的纸质的招投标方式,给招标方、投标方、招标代理等各方也带来了前所未有的机遇与挑战。那么什么是电子招…

Ceph入门到精通-OSD 故障排除

OSD 故障排除 在对 OSD 进行故障排除之前,请先检查您的显示器和网络。如果你在命令行上 执行or并且 Ceph 显示,这意味着监视器有法定人数。如果您没有监视器法定人数或者如果监视器状态有错误,请首先解决监视器问题。检查您的网络以确保它们正常运行,因为网络可能会对 O…

【ArcGIS Pro二次开发】(25):属性映射

属性映射经常用于属性表或Excel表的赋值,比如按用地用海表对规划用地的用地编码或用地名称赋值,将汇总好的用地指标表赋值给已经制好的Excel模板等。 下面试着在ArcGIS Pro SDK中实现功能上述这两个功能。 一、Excel表格映射到属性表Table 1、要实现的…

JavaScript:字符串

文章目录 字符串344. 反转字符串reverse() 方法(打基础的时候,不要太迷恋库函数)代码及思路 541. 反转字符串 IIJavaScript String split() 方法JavaScript Array join() 方法代码分析见注释 剑指 Offer 05. 替换空格思路注意:上面…