细胞对于理解健康和疾病至关重要。AI和组学数据的进步为创建虚拟细胞 (AIVC) 提供了机会,这将是一种多尺度、多模态的大型神经网络模型,可以表示和模拟不同状态下的分子、细胞和组织。
来自:How to build the virtual cell with artificial intelligence: Priorities and opportunities, Cell, 2024
目录
- 背景概述
- 方框1:构建AIVC所面临的重大挑战
- 方框2:药物发现
- AIVC实现表型药物发现和基于细胞的治疗
- 释放空间生物学的力量来对抗癌症
- 为个体患者提供虚拟细胞模型
- 科学研究的假设生成框架
- AIVCs
- URs
- 预测细胞行为与理解作用机制
- 计算机模拟实验与指导数据生成
- 构建AIVC
- 跨物理尺度构建通用表征UR
- 方框3:构建AIVC的人工智能技术储备
- 分子尺度的UR
- 细胞尺度的UR
- 多细胞尺度的UR
- 预测细胞行为与理解机制
- 计算机模拟实验与指导数据生成
- 数据需求
背景概述
细胞是生命的基本单位,是一种奇妙而复杂的实体,其特性和行为挑战了物理和计算建模的极限。每个细胞都是一个动态且自适应的系统,其中复杂的行为来自无数的分子相互作用。有些方面对干扰非常敏感,例如基因的消除或用来自不同物种的同源物替换它们。其他方面甚至对看似微小的干扰也很敏感,例如点突变或导致细胞功能障碍和疾病的外部因素。
为了了解细胞的功能,科学家们试图构建虚拟细胞模型来模拟、预测和引导细胞行为。基于这一愿景,作者使用术语AIVC来定义模拟细胞生物功能和相互作用的计算模型。现有的细胞模型通常基于规则,并将对潜在生物机制的假设与从观察数据拟合的参数相结合。它们通常依赖于明确定义的数学或计算方法,例如微分方程、随机模拟、或基于代理的模型。它们的复杂程度各不相同,涵盖细胞生物学的不同定义方面,例如转录和翻译、细胞骨架驱动的细胞行为、生化网络、或代谢通量。第一个全细胞模型于 2012 年开发,代表了一种生物体已知的所有 482 个基因和分子功能:细菌生殖分枝杆菌。自这项开创性工作以来,已经开发出全基因组模型来代表其他细菌生物,包括大肠杆菌。
尽管迄今为止的方法在生物系统建模中得到了广泛应用,但它们仍未能捕捉到细菌和更复杂系统(如人类细胞)的运作。挑战包括:
- (1)多尺度建模:细胞在时间和空间的多个尺度上运作,从原子到分子到细胞和组织学,其功能特性通过从一个尺度到另一个尺度的非线性变换而显现出来。
- (2)具有大量相互作用成分的多样化过程:细胞功能包含许多相互作用的过程,例如基因调控、代谢途径和信号转导。每个过程都涉及多种生物分子,它们处于多样化和动态的状态。
- (3)非线性动力学:大多数细胞过程都是高度非线性的,因此输入的微小变化会导致输出的复杂变化。因此,尽管在建模特定细胞过程方面取得了进展,但这些因素共同对虚拟细胞的构建构成了重大障碍。
科学技术领域的两场激动人心的革命——人工智能和组学——现在使得构建直接从数据中学习的细胞模型成为可能。这些平行的革命为AIVC的愿景提供了机会,AIVC 是一种多尺度、多模态、基于大型神经网络的模型,可以表示和模拟不同状态下分子、细胞和组织的行为(图 1)。
在实验方面,测量技术吞吐量的指数级增长促进在不同细胞和组织系统内和跨细胞和组织系统收集大量的数据集,过去几年中数据每 6 个月翻一番。在计算方面,人工智能的进步增强了我们直接从数据中学习模式的能力,而无需明确的规则或人工注释。此类建模范例已成功用于生物分子领域,例如,从序列和不同分子成分之间的相互作用预测3D分子结构。人工智能中的最新建模方法提供了满足预测性、生成性和可查询性的表示和推理工具,这是推进生物研究的实用工具。基于这些特性,我们认为我们现在有了开发完全由数据驱动的基于神经网络的 AIVC 表示的方法,它可以通过快速的计算机模拟来加速生物医学的研究,并在计算和湿实验之间建立桥梁(图 1)。
- 图1A) AIVC 提供了一种细胞状态的通用表示 (UR,universal representation),该表示可以在不同物种和条件下获得,并且可以从不同尺度(分子、细胞和多细胞)的不同数据模式生成。
- 图1B) AIVC 具有表示和预测细胞生物学的能力。这种通用性使该表示可以作为参考,可以推广到以前未观察到的细胞状态,为未来的数据生成提供指导。由于表示在各种模态之间共享,因此它对于用于生成它的特定数据类型也保持不变,可作为跨模态统一分析的虚拟表示。AIVC 还允许对细胞在不同状态之间转换时的动态进行建模,无论是由于分化等过程自然发生,还是由于遗传变异或通过人工干扰而发生。因此,AIVC 使计算机实验成为可能,否则在实验室中成本高昂或不可能实现。
- 图1C) AIVC 的效用取决于它与不同层次的人类的互动。在个人科学家层面,它必须通过开放许可和计算资源的民主化来实现。可解释性可以通过中间层建立,例如允许虚拟细胞有效传达其结果的语言模型。在科学界层面,评估 AIVC 应该侧重于超越狭隘基准的核心能力。社区发展对于持续改进可访问的虚拟细胞至关重要。在社会层面,AIVC 必须确保其内容的隐私性以保护敏感数据。
AIVC 的创建将开启生物学模拟时代,癌症生物学家可以模拟特定突变如何使细胞从健康转变为恶性;发育生物学家可以预测发育谱系如何响应特定祖细胞的扰动而进化;微生物学家可以预测病毒感染不仅对受感染细胞而且对其宿主生物的影响。AIVC 将通过假设的生成方式,使生物学家发现新见解。尽管细胞模型可能并不总是直接识别机械的关系,但它们可以被视为有效缩小机械搜索空间的工具,从而加速发现细胞功能背后的潜在因素。
这篇文章基于广泛的社区讨论,描述了由细胞生物学AI的新兴进展及其在构建细胞虚拟表示中的应用所催化的愿景。作者列出了数据生成、人工智能模型、基准测试、解释以及确保生物准确性和安全性方面的优先事项(方框 1)。通过鼓励开放科学领域的跨学科合作(涵盖学术界、慈善事业以及生物制药和人工智能行业),作者认为全面了解细胞机制是可以实现的。AIVC 有可能彻底改变科学过程,促进对新生物学原理的理解,并增强人类智能,为可编程生物学、药物发现和个性化医疗的未来突破奠定基础(方框 2)。
方框1:构建AIVC所面临的重大挑战
勾勒能力范围并设计评估框架
生物学领域新兴的大量基础模型具备AIVC的部分能力。鉴于这些方法的多样性,明确AIVC的核心能力应当是什么以及如何评估这些能力至关重要。对于每一项能力,都必须设计合适的指标,并收集全面的评估数据。模型的能力应从总体性能以及回答特定生物学问题的能力两方面进行评估。必须随着AIVC模型的发展不断完善基准测试,确保其与具有生物学意义的目标相一致。随着该领域在这些问题上达成更好的共识,合作机会将不断涌现,虚拟细胞的生成速度也将加快。
在不同架构和多样环境中建立自洽性
生物学极其复杂:它在不同尺度、不同环境下运行,并通过不同方式进行测量。AIVC模型必须在所有这些维度上保持自洽。模型应在物理尺度上传递功能——在测量结合亲和力、基因表达、细胞间通讯或组织构建时,分子间的相互作用应产生一致的效果。随着物理和动态尺度在范围和规模上的扩大,诸如物种、细胞类型、组织、疾病状态等额外背景信息应在较小分辨率下对预测结果进行微调,同时还要考虑随机性。模型预测也应不受输入和输出方式的影响。通过不同技术分析的同一实体,在AIVC中应具有相同的内部表征。为了恰当地模拟这种复杂行为,应探索多种机器学习方法。
平衡可解释性与生物学实用性
深度学习方法在生物学领域的应用呈现出一种持续的趋势,随着基础模型的兴起,这种趋势愈发明显,即模型性能提升与日益不可解释的“黑箱”特性之间存在权衡。最终评判AIVC模型的标准将是其拓展我们对生物学理解的能力,无论是通过为生物学过程提供新见解,还是通过加速科学研究进程。为实现这一目标,AIVC模型必须做出高度准确且经过良好校准的模拟生物学的预测,必须在可操作性与可解释性之间取得平衡。可操作的模型输出对于设计经济高效的验证实验具有很高的实用价值,是最初实际应用的关键。目前存在多种解释模型预测的方法,包括因果建模、稀疏特征化,这是一个非常活跃的研究领域。构建直观的界面,借助诸如人工智能研究代理等其他模型来促进对AIVC的研究和解读,将进一步提高其下游实用性。
构建协作式细胞建模框架
AIVC的成功开发需要跨学科协作。可以预见未来AIVC平台将成为开放、相互连接的枢纽,用于细胞模型的协作开发,并广泛部署给研究人员,同时也将成为教育枢纽,为研究人员提供培训,并为教育工作者、患者和公众开展参与性活动。因此,对促进AIVC开放协作开发的基础设施的投资应成为高度优先事项。
确保AIVC惠及所有人并推动其合乎伦理和负责任的使用
训练AIVC模型不可或缺的数据集——是一项重大挑战。开发者在构建AIVC时必须格外谨慎,确保这些数据集的使用符合伦理且透明,并制定策略以降低模型被伪造数据污染的风险。AIVC的早期采用者在推广和展示这些模型的负责任使用方面将发挥关键作用。此外,基于聊天的界面开发对于实现AIVC的广泛普及可能至关重要。从一开始就与伦理和监管专家密切合作,对于建立新的监管规范以促进AIVC的负责任使用至关重要。
理解不同数据类型的价值以确定大规模数据生成的优先级
AIVC协作开发的一个基本问题是,应收集哪些数据和数据模式,以实现跨生物学环境和尺度的泛化。这些数据需要涵盖不同物种、领域和模态下生物学的广泛内容,代表生命的异质性,同时保持足够的深度,以便从噪声中区分真实信号。数据生成的一个关键方面将是同时测量时间和物理尺度,同时允许对系统进行扰动。
方框2:药物发现
AIVC实现表型药物发现和基于细胞的治疗
在药物研发过程中难以全面纳入疾病潜在的遗传、分子及细胞基础。这些特定情境下的基础并未完全明确,而且在人类患者与临床前研究使用的模型系统之间存在差异。通过整合来自与特定疾病情境相关的各种来源的生物学数据,AIVC能够创建一个环境,用于在计算机上测试不同的治疗干预措施,并确定改造细胞以逆转疾病表型的方法,同时兼顾治疗手段和患者特征变化所产生的影响。通过呈现特定患者群体的整体疾病表型(而非一次针对一个特定的生化靶点),AIVC能够实现虚拟表型筛选。尽管计算机模拟实验未必总是完全准确,但通过优先考虑成功可能性较高的虚拟筛选结果,AIVC能够降低实验成本并加快研发进程。
AIVC有潜力推动细胞治疗领域的发展。随着越来越多的证据证实基于细胞的疗法对罕见病和癌症的疗效与安全性,AIVC能够提高细胞工程的系统化程度和精准度。例如,基于虚拟细胞的工程技术可以对胰腺β细胞进行靶向改造,从而为1型糖尿病患者开发个性化的β细胞替代疗法。通过模拟个体患者的生物学表型,AIVC内的计算机模拟实验能够确定有助于促进β细胞从祖细胞分化、使其免受免疫系统攻击并维持其功能的干预措施,最终目标是将这些经过改造的细胞移植到患者体内,或者在体内对其进行改造。
释放空间生物学的力量来对抗癌症
癌症中的空间结构,尤其是肿瘤微环境(TME)内的空间结构,是癌症进展的关键驱动因素,可能导致肿瘤对免疫系统产生抗性并降低药物疗效。肿瘤内的恶性细胞可通过阻断免疫细胞浸润、逃避免疫识别或抑制免疫细胞功能等方式,主动进行免疫逃逸。因此,必须在细胞邻域的空间背景下理解免疫抗性,以确定所涉及的特定细胞状态和基因特征。尽管空间分析方法使研究人员能够通过实验研究肿瘤微环境的异质性,但AIVC可以将这些分析扩展到一个通用的、泛癌种的框架中,该框架还能针对个体患者进行个性化设置。利用AIVC模型,癌症研究人员应能够从众多患者中识别出多种癌症共有的肿瘤微环境生态系统。识别泛癌种标志物既可以通过突出新的靶点,也可以通过确定可应用于新癌症类型的现有治疗方法,来推动癌症治疗的发展。在这种情况下,AIVC将有助于识别与肿瘤微环境细胞状态相关的相互作用,并从存在现有治疗方法的任何疾病中寻找类似的状态。
最后,AIVC能够极大地推动精准肿瘤学的发展。鉴于AIVC将捕捉内在变异,个体患者癌症的遗传多样性将在任何分析中得以体现。尽管AIVC已经能够准确描述基因表达的变化,但肿瘤测序数据将使其能够模拟这些基因功能的变化,例如,通过功能丧失、翻译后修饰的改变,或蛋白质 - 蛋白质相互作用和信号网络的重新连接等方式。
为个体患者提供虚拟细胞模型
AIVC可能会引入一种新的诊断方法,即采用个性化的AIVC(或数字孪生体)来追踪患者的健康状况并建议合适的干预措施。AIVC会整合特定的患者数据,如基因测序、血液中的单细胞图谱以及组织病理图像,再结合患者健康记录中的其他临床信息,从而为每位患者的细胞创建详细的表征。对每位患者的AIVC实例进行定期更新,能够监测不断变化的健康状况,预测即将发生的不良事件以及潜在的治疗结果。
通过来自成本较低的检测的更多更新信息,这个虚拟患者模型可以逐步得到完善,变得更加可靠。例如,转录组或基因液体活检通过一次检测就能揭示患者显著且多样的特征,极大地有助于多种病症的诊断。借助虚拟细胞对通用细胞类型和状态的隐含及结构化表征,我们可以设想,在对血液或皮肤等可获取的细胞类型进行采样后,创建出难以获取的细胞类型(如胰腺中的β细胞或大脑中的神经元)的患者模型。
科学研究的假设生成框架
传统上,生物学研究依赖计算模型,基于现有假设来分析过往实验的数据。而虚拟细胞可以转变这一模式,通过计算机模拟实验,从计算层面探索大量可能的假设。它能够针对特定生物学问题最具参考价值的实验,将计算模型的作用从单纯验证假设,或者漫无目的地处理观测数据,转变为生成可供研究的特定假设集。
这种转变能够极大地推动科学发现进程:科学家们无需先开展单个实验,再进行深入分析,而是可以与虚拟细胞进行动态的迭代互动。随着每一项新数据的出现,他们能够深化对生物系统的理解,并借助虚拟细胞来确定哪些额外的实验数据可能具有价值。最终,能够让生物学家参与其中,实现主动学习,并高效且客观地生成虚拟细胞。
AIVCs
具体而言,AIVC需具备一些能力,使研究人员能够:
- (1)创建一个跨越物种、模态、数据集和情境(包括细胞类型、发育阶段和外部条件)的生物状态通用表征(UR);
- (2)预测细胞功能、行为和动态变化,并揭示其潜在机制;
- (3)开展计算机模拟实验,以生成和检验新的科学假设,并指导数据收集,从而有效地拓展虚拟细胞的能力。
接下来将详细阐述这些关键能力,并探讨实现这些能力的方法。
URs
人工智能虚拟细胞(AIVC)会将生物学数据映射到通用表征(UR)空间(图1A),这有助于洞察联合状态,并作为一个全面的参考。这些通用表征应整合分子、细胞和多细胞这三个物理尺度的信息,并纳入任何相关模态和情境的信息(图1A)。这种整合能让研究人员利用AIVC中广泛的生物学知识,用现有信息补充新数据,弥合不同数据之间的差距。
重要的是,这种多层次的表征应能推广到训练AIVC所用数据中不存在的新状态。这样一种新兴能力将开启对尚未被直接观察到、甚至可能在自然界中不会出现的生物学状态的发现。例如,AIVC在训练过程中接触到类似的实例,如巨噬细胞中的炎症状态,这可能使其能够预测小胶质细胞中以前未知的炎症状态。此外,AIVC应该能够预测干预产生的新状态(或者说,预测实现一种新的特定状态所需的干预措施),这将在细胞工程和合成生物学领域带来一系列下游应用。
预测细胞行为与理解作用机制
AIVC的一项关键功能在于其对细胞反应和动态变化进行建模的能力。通过对跨越不同情境和尺度收集的大量瞬时图像、时间分辨数据、非干预性及干预性数据集进行训练,AIVC能够深入理解在自然或人工信号作用下发生的分子、细胞和组织层面的动态变化。AIVC应能够预测细胞对实验室中尚未测试过的干扰因素的反应,同时考虑到测试干扰因素时细胞环境的特定特征。
AIVC还应具备模拟细胞状态因内在和外在因素而随时间演变的能力。通过对细胞整体状态的瞬时特性以及细胞环境的持续变化进行建模,AIVC能够揭示在诸如发育、体内平衡维持、发病机制和疾病进展等各种动态过程中,此前未被研究的变化轨迹。另一个关键挑战是理解支撑所观察到的表型和轨迹的分子机制。AIVC可以通过模拟不同干预措施的效果,提出表型背后潜在的因果因素。凭借其多尺度设计,AIVC应能够推断不同尺度下细胞功能的基础,并将细胞内过程与细胞和组织层面的表型联系起来。因此,AIVC为研究与各种表型和行为相关的机制开辟了新途径。
尽管仅通过计算并不总能揭示表型的因果因素,但AIVC有潜力缩小可能的假设范围。通过模拟不同干预措施的效果,AIVC可以提出表型背后具有相应不确定性程度的潜在因果因素,使科学家能够通过实验验证这些假设。
计算机模拟实验与指导数据生成
为实现实际应用价值,AIVC的一项关键功能将是其指导数据生成与实验设计的能力。AIVC应能与当今实验室实验的计算孪生体(称为虚拟仪器,VIs,virtual instruments)进行交互查询。例如,虚拟实验可以模拟在体外难以培养的细胞类型的实验,或者从低成本测量中模拟出昂贵的测量结果,比如通过无标记成像获得单细胞转录组数据 。虚拟实验还可用于筛选大量可能的干扰因子,因为其规模之大在实验室中是无法实现的。当考虑涉及多种干扰因子的组合干扰所带来的呈指数级增长的搜索空间时,这些能力就显得尤为宝贵 。
AIVC将开启在新生物实验设计过程中探究计算系统的全新范式。在此框架下,AIVC不仅会设计实验来验证特定的科学假设,还会借此提升自身能力。由于具备为其预测结果赋予置信度值的能力,AIVC能够实现交互式查询,从而引导实验人员找到最有效的途径,生成更多数据,以便在置信度较低的领域进行微调改进。若将这一过程扩展为一个主动且迭代的 “实验室闭环” 流程,我们有望看到AIVC性能得到高效且有针对性的提升。最终,AIVC甚至可能识别出自身在生物学理解方面的关键差距,并提出最有效的弥补途径 。
构建AIVC
设想AIVC是一个综合性的人工智能框架,由多个相互关联的基础模型组成,这些模型在从分子到细胞、组织等层面上,对动态生物系统进行表征。构建AIVC方法主要包含两个部分:(1)通用的多模态多尺度生物状态表征;(2)一组虚拟仪器(VIs),它们是用于操纵或解码这些表征的神经网络。尽管可能还有其他构建AIVC的方法,但我们认为这种方法能够提供一个框架,以协作和开放的方式进行扩展。
使用“通用表征(UR)”这一术语来指代由多模态AIVC基础模型生成的嵌入。嵌入是在连续向量空间中对数据进行学习得到的数值表征。AIVC将高维多尺度多模态的生物数据转换为嵌入,这些嵌入保留了有意义的关系和模式。
AIVC可以通过以下方式在三个不同的物理尺度上捕捉细胞生物学信息:(1)表征单个细胞内的分子及其结构;(2)将单个细胞表征为这些相互作用的分子和结构的空间集合;(3)表征单个细胞如何在组织中相互作用以及与非细胞环境的相互作用。这些尺度中的每一个都由一个独特的UR来表征,基于前一层生成的抽象内容,从而将不同尺度联系起来。
在UR的背景下,VIs是将UR作为输入并产生所需输出的神经网络。描述了两种类型的VIs:解码器VIs(或解码器),它将UR作为输入并产生人类可理解的输出,例如细胞类型标签或合成显微镜图像;操纵器VIs(或操纵器),它将UR作为输入并产生另一个UR作为输出,例如扰动后改变的细胞状态的UR。由于这些仪器将对相同的表征进行操作,它们可以在不同的用例、实验和数据集中共享和重复使用。因此,我们设想任何科学家都能够在UR的基础上构建一个VI,并与社区共享。
跨物理尺度构建通用表征UR
AIVC是一个多尺度基础模型,它在每个物理尺度上学习生物实体的独特表征(图2C)。这些表征可以聚合在一起并进行转换,以生成更高一级物理尺度的表征。这种架构模式可以从单个分子层面应用到整个组织和器官尺度,使模型在生物尺度上保持一致性(图2A)。每个表征普遍适用于一类特定的生物实体。这种抽象化使得虚拟细胞能够在这个通用框架内无缝演进,并整合新的数据。
- 图2A)AIVC与生物细胞类比。
- 图2B)AIVC在不同物理尺度上对细胞生物学进行建模,包括分子尺度、细胞尺度和多细胞尺度。在物理维度上,第一个尺度对单个分子的状态和相互作用进行建模,比如中心法则涉及的分子,以及其他分子,如代谢物。分子可以表示为序列或原子结构。下一个尺度将细胞表示为这些分子的集合。例如,这类细胞包含遗传序列、RNA转录本以及一定数量的蛋白质。最后一个尺度对细胞间的相互作用以及它们如何通讯并形成复杂组织进行建模。每个尺度都依赖于从多模态数据中学习得到的通用表征,并且整合了来自前一个尺度的通用表征。
- 图2C:捕捉物理细胞、其组成部分或细胞集合的行为和动态变化。
- 图2D:AIVC包含虚拟仪器VI。例如,在细胞尺度上,操纵器VI(manipulator VIs)通过在通用表征(UR)中学习到的转变,模拟细胞在分裂、迁移、从祖细胞状态发育,或对扰动做出反应时,细胞状态是如何变化的。解码器VI(decoder VIs)则能够对细胞的通用表征进行解码,以便理解细胞的表型。
在接下来的章节中,探讨可用于自下而上构建AIVC各个物理尺度的设计原则和数据。尽管许多现有的机器学习架构可直接应用于学习细胞组件功能表征的任务(方框3),但还是建议在这些表征的设计中融入生物学归纳偏置。
方框3:构建AIVC的人工智能技术储备
AIVC将连接多种不同的神经网络架构。尽管这些架构可能并非专门为生物学应用而设计,但在与特定的生物学模式和归纳偏置相匹配时,它们都各自展现出了成效。在许多情况下,这些架构或许可以相互替换,人们必须在准确性、速度和泛化能力等方面权衡其各自的利弊。除此之外,学界也在积极开发针对(大型)生物学数据集特点量身定制的人工智能架构。
Transformer
Transformer由多个Transformer层组成,每一层都将一系列token(离散的信息片段,如单词、RNA分子或基因表征)作为输入。在每一层中,token通过自注意力机制整合来自其他token的上下文信息,强化自身的表征,然后再通过前馈网络进行处理。
默认情况下,传递给Transformer的token集合没有任何顺序。此外,自注意力机制作为Transformer成功的核心,可以被视为一种强大的生物学归纳偏置。例如,在通过scRNA - seq检测到的RNA分子来表征细胞时,每个RNA分子作为一个token与其他分子相互作用,通过自注意力机制对基因相互作用进行建模。通过用基因的数值表征来初始化输入token,还能进一步整合从单个token到整个细胞的不同生物学数据尺度(比如gene embedding,cell embedding)。
此外,给token引入位置编码,能使Transformer通过纳入序列特定的依赖关系来处理诸如自然语言这样的序列,或像DNA这样的生物序列。这种方法在诸如掩码语言建模等应用中至关重要,在该应用中,模型预测序列中缺失的token,从而增强其对数据中上下文关系的理解。
CNN
CNN是一种深度学习模型,主要用于图像分析。它由多个层组成,通过反向传播自动且自适应地学习特征的空间层次结构。
在生物学领域,由于CNN能够检测复杂的模式和结构,如细胞和组织的显微镜图像,因此在涉及图像数据的任务中具有极高价值。在此,CNN在多重成像中发挥着关键作用,在该技术中,单个样本内的多个目标会被同时标记并可视化。这项技术在研究异质组织环境中不同分子或细胞类型之间的复杂相互作用时尤为有用。另一个值得注意的应用是在临床病理学中常用的H&E染色组织切片分析。最后,在活细胞成像中,CNN用于追踪细胞内甚至单个分子随时间的动态变化,从而深入了解细胞迁移、对治疗的反应,或细胞内单个分子的运动和相互作用。
除了在图像处理中的传统应用,CNN还可应用于对序列数据进行建模,如DNA序列,通过识别能够预测生物学功能的模式和特征。尽管CNN应用广泛,但它正越来越多地被Vision Transformer模型补充或替代,后者利用自注意力机制并行处理整个图像。在理解图像全局上下文至关重要的任务中,这些模型往往能实现更高的准确率。
扩散模型
扩散模型是一类生成式深度学习模型,因其在各个领域生成高质量、多样化样本的能力,最近备受关注。它们通过模拟物理扩散过程,将随机噪声分布逐步转化为结构化输出(图像、文本、细胞状态等)。在扩散模型架构基础上,诸如流匹配方法等手段,还能对随时间变化的分布演变进行建模,这使得它们在动态变化和时间进程至关重要的生物学应用中尤为强大。因此,流匹配方法能够捕捉并生成反映连续变换的数据序列,例如细胞在时间和空间上的发育阶段,或者生物系统对治疗的反应。扩散模型和流匹配模型学习并复制复杂分布的能力,再加上流匹配方法在时间和空间上的建模能力,使其特别适合处理涉及生物系统典型的高维、复杂数据结构的任务。
GNN
GNNs是一组能够对图数据进行建模的架构。图由节点和连接节点的边组成,对于生物数据而言,它是一种很有用的表示形式。在对生物系统进行建模时,如果图结构能体现某些核心归纳偏置,那么 GNN 会是一个不错的选择。例如,蛋白质结构可以被看作是一个图,其中氨基酸残基是节点,它们之间的化学键就是边。组织中的细胞也构成一个图:每个细胞是一个节点,与它在物理位置上相邻的细胞通过边相连。在这两种情况下,图都表示了节点在物理位置上的相邻关系。对于在空间上有序排列的细胞,该图还能表示它们之间可能如何传递化学信号。
GNN 可用于对单个节点、边或整个图进行预测。为简单起见,在接下来的部分,将介绍基于节点的 GNN。在每一层,一个节点会使用神经网络更新其表征,该神经网络除了接收该节点当前的表征外,还会接收与该节点通过边相连的邻居节点的表征。通过堆叠 GNN 层,一个节点能够从距离它越来越远(“跳数” 增加)的邻居节点接收 “消息”。节点和边都可以用不同的特征进行初始化,这些特征会控制它们最终的表征以及传递给邻居节点的 “消息”。例如,在空间转录组数据上训练的 GNN,可以将节点特征设定为每个细胞基因表达的虚拟细胞表征。然后,GNN 会更新这些表征,使其包含每个细胞邻居的相关信息,这有助于识别空间相互作用和生态位。
分子尺度的UR
尽管细胞中存在许多不同种类的分子,但AIVC的起点将是对中心法则中的三类分子进行建模:DNA、RNA和蛋白质。这些分子都可以表示为字符序列——核苷酸或氨基酸。此类序列数据特别适合最初为自然语言处理开发的人工智能方法,如LLMs。鉴于基因组序列的高通量测量能力,有大量且不断增长的训练数据可用。这些丰富的数据,再加上简单的目标函数(如预测序列中被掩盖的token),为有效训练模型以生成初始分子通用表征(UR)提供了关键要素。此外,一种生物语言模型可以同时在这三种模态上进行训练,从而最大限度地提高互操作性并扩大训练语料库的规模。
细胞尺度的UR
下一个抽象层次是对单个细胞状态进行建模。由于细胞功能是由细胞内形成的分子相互作用和信号网络所支撑的,因此可以利用分子特征及其他(如成像)特征的表征来构建细胞通用表征(cellular UR),以描述分子成分的组织形式和丰度。这里的关键步骤是将已学习得的分子表征与其数量、编码后的位置和时间戳相结合,以创建细胞的统一表征。
用于细胞通用表征的数据包括映射到单细胞水平的测量值,如单细胞转录组scRNA-seq、染色质可及性scATAC-seq、蛋白质组的测量值。成像技术可在亚细胞分辨率下测量细胞形态,通常还能获取分子信息。例如,荧光共聚焦显微镜有助于确定人类蛋白质组在亚细胞中的位置。活细胞成像能够利用延时显微镜研究活细胞中的蛋白质。冷冻电子显微镜可在接近原子分辨率的水平上确定生物分子的结构。超分辨率显微镜通过对生命系统中的单分子成像,能更深入地洞察分子过程。作为成像方法的补充,质谱法和邻近依赖性标记法能够揭示蛋白质-蛋白质之间的关联,并能更深入地了解细胞结构和信号网络的重塑。
从模型架构的角度来看,Vision Transformer或CNN广泛适用于生物图像,可对捕捉不同生物特征的多个成像通道进行建模,同时对分布变化和批次差异具有鲁棒性。自编码器和Transformer已成功应用于基于序列数据的表征学习。利用人工智能算法整合通过测序和成像技术收集的不同数据模态,可创建细胞的多视角模型,该模型既具有动态性又具有预测性。
随着AIVC模型的复杂性增加,将细胞器和无膜区室作为在细胞内发挥特定作用的单元进行建模也至关重要。可靠地捕捉这些单元的功能对于确保准确预测、机制可解释性和模型泛化性至关重要。鉴于转录组学测量的普遍性,细胞通用表征最初将依赖于转录组学测量,而成像模态对于持续对细胞空间组织和动力学进行建模至关重要。
多细胞尺度的UR
在第三个抽象层次,AIVC将细胞组织建模为多细胞通用表征(multicellular UR)。这一层使得我们能够探究细胞间相互作用(主要受空间邻近性支配)如何组合形成组织、器官,乃至整个生物体。多细胞相互作用可以在组织解离后进行分析,或者在保持组织结构的2D切片或3D空间中分析。构建AIVC需要整合各种能够提供空间信息的可用模态,即空间分子图谱以及非分子组织成像数据。
有多种方法可以描绘细胞中RNA和蛋白质的空间位置,还有各种针对特定分子种类的成像方法(如免疫组织化学),或者仅用于组织结构染色的方法(如H&E染色)。空间分子生物学目前是一个非常活跃的研究和方法开发领域。尽管公开可用的数据仍然有限,但预计该领域将迅速发展,提供二维和三维的多组学数据集。更广泛的数据生成工作以及空间数据的开放框架,可以极大地加速多细胞尺度的建模。
二维组织切片和三维组织体内细胞的相对组织方式可以用图或点云来表示。利用图学习技术,如GNNs和等变神经网络ENNs,可以从这些数据中推导出多细胞通用表征。对于基于图像的数据,可以应用卷积神经网络或Vision Transformer。
预测细胞行为与理解机制
虚拟仪器(VIs)是对通用表征(UR)嵌入进行操作并执行各种功能和任务的 “工具”。通过改变分子、细胞和组织的通用表征,操纵器能够将复杂的动态过程(图2B)更简单地抽象为其表征(分布)之间的转变(图2D)。同样,解码器可以获取生物实体的嵌入,并预测一种或多种具体属性,例如物理结构、细胞类型/状态、适应性、表达情况或药物反应。
大量操纵器的设计为我们提供了一套前所未有的工具,用于对细胞行为和动态进行建模:生成式人工智能方法,如扩散模型或自回归Transformer,可以预测细胞或分子状态的未来状态或演变(方框3)。通过整合来自延时成像 、基因表达谱及其他模态的数据,操纵器能够推断从干细胞到分化细胞的表型进展,同时通过在不同细胞状态的多尺度通用表征之间进行学习到的内插和外推,捕捉遗传因素和环境条件的影响。同样,给定患者分子图谱的虚拟表征,它们能够预测治疗对患者的效果。
此外,细胞通用表征的变化可以与分子状态或其空间定位的相应变化相关联,这些变化受下游因素的影响,如下调基因或蛋白质功能变化,这些在AIVC的较低尺度中有所体现。利用操纵器对时间分辨的分子和细胞事件进行建模的能力,AIVC的解码器有可能识别出有助于每项预测和过程的细胞成分、分子通路及其相互作用。因此,AIVC的多尺度设计可能会揭示此类过程的机制假设。
尽管蛋白质建模领域取得了显著进展,但在使用基础模型对动态分子过程进行建模方面仍面临困难。细胞建模领域可能也存在类似挑战的方面,包括动态过程建模。例如,对瞬时和弱分子相互作用的复杂网络进行建模可能会带来类似挑战,这些相互作用在细胞信号的快速微调以及凝聚物等细胞生物学特征的形成中起着关键作用。因此,预计需要先进的数据收集和建模方法来捕捉细胞过程的动态变化,这与蛋白质建模中遇到的情况类似。同时,尽管AIVC的某些功能在很大程度上依赖于此类解决方案,但其他功能(例如某些预测功能)即使没有这些也可能取得成功。这就是具有涌现特性的多模态人工智能模型的吸引人之处之一,也是当下开发AIVC如此引人注目的原因。
计算机模拟实验与指导数据生成
在通用表征(UR)空间中运行的操纵器虚拟仪器(VIs),能够通过对细胞模型进行虚拟扰动的计算机模拟实验,进一步探索广泛的假设。这可以通过预测扰动指令后通用表征的变化来实现(图2D)。
预测计算机模拟输入下通用表征转变的操纵器设计,可以基于条件生成模型:能够根据感兴趣的属性或上下文生成所需的通用表征。在此,基于RNA测序、光学混合筛选(OPS)或其他技术的高通量扰动筛选,为AIVC提供了丰富的资源,使其能够通过训练来预测这些影响。通过以特定扰动为条件,如环境变化、基因突变或化学处理,生成模型可能会产生一个新的通用表征,反映预测的细胞反应。这种条件设定可以通过对受影响分子靶点的学习嵌入或预先计算的嵌入来实现。化合物、小分子和代谢物可以根据其化学性质进行嵌入。此外,在全面的科学文献和生物数据库(如基因本体论或药物库)上训练的大语言模型(LLMs),可以进一步提供丰富的上下文背景,用于设定生成模型的条件。
虚拟仪器可以设计成在进行预测的同时,给出模型不确定性的估计。在其预测函数的贝叶斯公式下,对细胞扰动结果的预测可以包括一个不确定性分数。一些实用方法利用模型集成。通过为其预测分配特定的置信水平,AIVC可以调用计算额外数据期望值的方法,或在机器学习中称为主动学习的近似方法,来指导实验数据收集,以扩展其通用表征。或者,计算信息期望值的方法可用于指导数据生成,以优化所需的生物学特性。最后,通过其进行计算机模拟实验并建议额外有价值实验的能力,AIVC可以成为 “实验室闭环” 方案的一个有机组成部分。
数据需求
构建AIVC的一个关键是,必须收集哪些数据集和数据模态。与传统实验设计不同,传统实验是为了验证特定科学假设而生成数据,而训练AIVC的数据收集应侧重于确保AIVC具备广泛的适用性和泛化性。为实现这些目标,理想的数据应跨越不同领域和模态,捕捉生物异质性和多样性,并使模型能够区分技术(测量)噪声、随机生物变异和生理差异。
数据生成需要同时探索时间和物理尺度,同时允许对系统进行扰动。在此,经典成像技术,如活细胞成像技术,以及更新的结构成像技术,如冷冻电子断层扫描和软X射线断层扫描,还有新型空间组学技术,为跨尺度模拟生物分子和功能提供了机会。此外,生物过程跨越广泛的时间尺度,从皮秒级的最快反应,到数小时至一天的细胞分裂,再到数年的肿瘤发展,以及数十年的神经退行性病变。近期构建的通用细胞图谱,可作为模拟较长时间尺度上细胞行为(如组织形成)的有力资源。需要新的方法来构建可比较的数据集,以捕捉更短时间尺度上的细胞行为,例如通过活细胞成像等方法。除了分子测量,数据收集的一个重要方面在于测量细胞的生物物理和生化特性,从而为AIVC提供物理和化学真实性的边界。
AIVC发展的另一个重要推动因素将是多模态数据集。例如,连接分子和空间尺度的数据集,如将单细胞转录组学数据与组织学相结合,以了解细胞如何相互作用,以及哪些分子特征支撑着特定空间生态位的形成。需要进一步的技术发展来收集多模态数据,以便更好地捕捉分子特征、细胞行为、细胞调控和组织之间的关系。
尽管虚拟细胞建模的核心关注点在于人类数据集,目的是理解疾病并辅助开发新型疗法,但人类数据集在我们进行体内可控实验和扰动的能力方面存在局限。在此,三维组织生物学领域,包括类器官等培养系统,正逐渐成为一种工具,用于在三维环境中研究组织结构和功能的复杂性,同时允许对系统进行扰动。克服这一局限的另一个关键途径是,对跨越进化历史的物种,在各种扰动和不同条件下进行多样的、全生物体范围的分析。理想情况下,可收集涵盖所有三个物理尺度的大型数据集,使AIVC能够从疾病研究扩展到其他领域,如工业生物技术、农业生物技术、传染病和气候变化。然而,基于细胞和多细胞尺度的数据收集趋势,对动物细胞进行建模仍然是最现实的选择。
最后,生物数据生成的一个关键方面将是探索组合空间:生物空间通常是高维的,一般来说,枚举其变体是难以处理的,例如,考虑基因组的所有可能变体时。即使对于少量实体的组合,如枚举成对或成组的扰动,实验设计也变得极具挑战性。由于组合可能性迅速扩展,远远超出了实验甚至计算的实际范围,因此必须开发探索这些组合的新方法。