【论文阅读】Simulating 500 million years of evolution with a language model

server/2024/12/22 20:16:02/

Simulating 500 million years of evolution with a language model

1、概述

展示了语言模型在蛋白质设计和进化模拟方面的能力。通过对 ESM3 模型的研究,发现其能够生成与自然蛋白质差异较大且具有功能的新蛋白质,如新型绿色荧光蛋白(GFP),表明语言模型可以达到自然进化未探索的蛋白质设计空间,为蛋白质工程和进化研究提供了新的途径和见解。

2、蛋白质与语言模型的背景知识

2.1 蛋白质的进化与特性

蛋白质的的自然进化:经过数十亿年自然进化形成,其模式如同在一个空间中,每个蛋白质通过突变等变化与其他蛋白质相连,进化路径受系统功能维持约束,随机突变和选择塑造其结构和功能。
基因测序调查显示蛋白质序列和结构的多样性,暗示存在潜在的蛋白质生物学语言,可以通过语言模型理解
荧光蛋白特性:GFP家族能形成荧光发色团,无需辅助因子或底物,其独特结构(十一链 β 桶和中心螺旋)使得发色团形成,该过程对突变敏感,少量随机突变即可导致荧光消失,在生物技术中是重要工具。

2.2 蛋白质语言模型的发展

已有多种蛋白质序列语言模型被开发和评估,发现其表示能够反映蛋白质结构和功能,且在无监督学习中学习到,随规模扩大性能提升,如ESM3通过对离散标记的处理和训练,在表示学习和生成应用中取得改进

3、ESM3模型的架构和训练

3.1 架构

3.1.1 总体概述

ESM3是多模态生成模型,对序列、结构和功能等多种模态进行推理,输入通过标记化处理,经过transformer和几何注意力等处理,输出可通过解码器转换为具体形式,如结构标记可解码为原子坐标。
模型采用预训练任务学习蛋白质的深层结构和生物学特性,以解决下一个标记预测任务,从而实现对蛋白质序列、结构和功能的联合建模和生成。

3.1.1.2 具体组成

标记化:所有channel(序列、结构、二级结构、SASA、功能注释、残基注释等等)都表示为标记序列,每个氨基酸位置有特定标记,如序列用29种标记(20种氨基酸+特殊标记),结构标记有4096个+4个特殊标记,功能标记通过对关键词的处理得到等。
输入与前向传播:ESM3能接受多种输入channel,如结构坐标,二级结构标签等,通过嵌入和求和等操作处理后输入transformer块,然后经过回归头得到各个channel的预测结果。
transformer:基于transformer架构改进,采用Pre-LN、旋转嵌入和SwiGLU等,核心修改是在网络第一层插入集和注意力子层,不同规模的模型(ESm3-small、medium、large)有不同的层数和参数设置。
几何注意力:通过处理骨架框架和原子坐标信息,以旋转和平移不变的方式整合几何信息想,实现对蛋白质局部骨架几何的推理,在结构标记编码器和ESM3第一层中使用。
结构标记器:用VQ-VAE编码器将每个残基与一个结构标


http://www.ppmy.cn/server/127543.html

相关文章

[数据集][目标检测]猪数据集VOC-2856张

数据集格式:Pascal VOC格式(不包含分割的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):2856 标注数量(xml文件个数):2856 标注类别数:1 标注类别名称:["pig"] 每个类别标注的框数&#xff1a…

一起了解AI的发展历程和AGI的未来展望

从AI到大模型再到AGI:一段智能之旅 在一个阳光明媚的夏天,1956年的达特茅斯学院,一群年轻的科学家聚集在一起,他们有一个共同的梦想——创造一种能够像人一样思考的机器。这个会议被后人称为“达特茅斯会议”,它标志着…

osg 矩阵相关

下面结果是一样的 osg::Matrix mtrixx;mtrixx.makeRotate(90 / 180.f * osg::PI, osg::Vec3(1, 0, 0));osg::Matrix mtrixx12 osg::Matrix::rotate(90 / 180.f * osg::PI, 1, 0, 0); 下面结果是一样 osg::Matrix m1;m1.makeTranslate(osg::Vec3(18, 12,3));osg::Matrix m2 os…

一些 Go Web 开发笔记

原文:Julia Evans - 2024.09.27 在过去的几周里,我花了很多时间在用 Go 开发一个网站,虽然不知道它最终会不会发布,但在这个过程中我学到了一些东西,想记录下来。以下是我的一些收获: Go 1.22 现在有了更…

计算机视觉算法

计算机视觉算法详解及代码实现 1. 引言 计算机视觉(Computer Vision,CV)是人工智能的重要分支,旨在让计算机具备从图像或视频中理解和提取有用信息的能力。随着深度学习技术的兴起,计算机视觉已经在诸多领域取得了突…

Android Framework AMS(01)AMS启动及相关初始化1-4

该系列文章总纲链接:专题总纲目录 Android Framework 总纲 本章关键点总结 & 说明: 说明:本章节主要涉及systemserver启动AMS及初始化AMS相关操作。同时由于该部分内容分析过多,因此拆成2个章节,本章节是第一章节&…

芝法酱学习笔记(0.5)——使用jenkins做自动打包

前言 上节讲了SpringBoot上的打包。但这些过程都是手动的,在实际的开发测试时,自动化的打包部署,可以大大提升团队开发的效率 一、去官网下载 1.1 官网安装命令 对于如何安装的问题,我向来推荐官网 wget -O /usr/share/keyri…

工业物联网的安全与隐私保护—SunIOT

【大家好,我是唐Sun,唐Sun的唐,唐Sun的Sun。一站式数智工厂解决方案服务商】 在当今数字化的时代,工业物联网(IIoT)正以前所未有的速度改变着工业生产的模式和效率。然而,随着工业物联网的广泛…