scDesign3是一个统计模拟器,通过从真实数据中学习可解释的参数,生成真实的单细胞和空间组学数据,包括各种细胞状态、实验设计和特征模态。使用单细胞和空间组学数据的统一概率模型,scDesign3可以推断出具有生物学意义的参数;评估推断的细胞簇、轨迹和空间位置的拟合优度;并生成用于基准计算的计算机负控制和正控制数据。
来自:scDesign3 generates realistic in silico data for multimodal single-cell and spatial omics
目录
- 背景概述
- scDesign3功能1:模拟
- scDesign3功能2:解释
背景概述
单细胞和空间组学技术提供了前所未有的单个细胞的多模态视图。首先,诞生了单细胞RNA测序(scRNA-seq)来测量细胞的转录组,从而能够发现离散的细胞类型和连续的细胞轨迹。后来,诞生了其他单细胞组学技术来测量额外的分子特征,包括染色质可及性、DNA甲基化和蛋白质丰度。最近,又出现了单细胞多组学技术来同时测量多种特征模态(联合测量)。与单细胞组学平行,空间转录组学技术也得到了发展,可以对记录了细胞空间位置的转录组进行分析。
现在已经为各种任务开发了数千种计算方法,这反而使得为这些方法寻找基准成为一个紧迫的挑战。公平的基准测试需要包含ground truth的真实数据或者模拟真实数据的计算机数据,因此很需要逼真的模拟器。有关模拟的两项基准研究发现,需要在真实数据上进行训练的基于参考的scRNA-seq模拟数据比使用预设理论模型的从头模拟更现实。这两项研究还发现,尽管一些基于参考的模拟器从离散细胞类型中生成了真实的scRNA-seq数据,但很少有基于参考的模拟器能够从连续细胞轨迹中生成数据。此外,除了scRNA-seq之外,还缺乏单细胞其他组学的逼真模拟器,更不用说单细胞多组学和空间转录组学了。因此,在多样化的基准测试需求和现有模拟器的有限功能之间存在差距问题。
为了填补这一空白,作者提出了scDesign3,这是一种模拟器,可以从不同的环境中生成逼真的合成数据,包括细胞潜在结构、特征模态、空间位置和实验设计(图1a)。scDesign3提供了一个概率模型,该模型统一了单细胞和空间组学数据的生成和推断。该模型的可解释参数使scDesign3能够生成定制的计算机数据,并无监督地评估推断的细胞潜在结构(例如,聚类、轨迹分析和空间位置)的拟合优度(图2a)。
对于overview,作者依次验证了scDesign3的两个功能:模拟和解释。首先,作者证明了scDesign3模型是合理的,因为它的合成数据很好地模拟了给定高质量细胞类型标签和细胞轨迹的真实数据。其次,假设scDesign3模型是合理的,作者表明scDesign3允许对真实数据进行基于模型的解释,包括评估推断的细胞潜在结构的拟合优度。
scDesign3功能1:模拟
作者在四个示例环境中验证了scDesign3是一种现实且通用的模拟器:
- 连续细胞轨迹的scRNA-seq
- 空间转录组学
- 单细胞表观基因组学
- 单细胞多组学(见图1)
可以发现scDesign3的合成数据与遗漏的测试数据一致。
在第一个设置中,scDesign3模拟了三个包含单个或分叉细胞轨迹的scRNA-seq数据集。图1b–c显示,scDesign3生成了类似于遗漏的真实细胞的真实合成细胞数据,这反映在高的mean local inverse Simpson’s index(mLISI)值上。此外,scDesign3保留了细胞特异性特征。由于缺乏用于连续细胞轨迹的基于参考的模拟器,作者将scDesign3与ZINB WaVE、muscat和SPARSIM三种用于离散细胞类型的顶级模拟器和一种基于深度学习的模拟器scGAN进行了对比。scDesign3在生成更逼真的合成细胞以及更好地保留基因和细胞特异性特征,特别是细胞-细胞距离和基因-基因相关性方面优于这些模拟器(图1b-c)。
在第二个设置中,scDesign3模拟了由10x Visium和Slide-seq技术生成的四个空间转录组学数据集。图1d、e显示scDesign3概括了空间高变基因的表达。给定一对scRNA-seq数据和spots分辨率空间转录组学数据(其中每个spots包含多个细胞),scDesign3可以生成具有在每个spots指定的细胞类型比例的真实spots分辨率空间逆转录组学数据,见图1f。
在第三种设置下,scDesign3生成类似于两个单细胞染色质可及性数据集,这两个数据集是通过使用测序的转座酶可及性染色质的10x单细胞测定(scATAC-seq)和使用测序(sci-ATAC-seq)方案的转座酶可及染色质的单细胞组合索引测定来描述的。对于这两种方案,scDesign3产生的合成细胞在峰值区域的读取计数与真实细胞的读取计数相似(图1g和h)。
在第四种设置下,scDesign3通过测序(CITE-seq)数据集模拟转录组和表位的细胞索引,并根据“单独”测量的RNA表达和DNA甲基化模态模拟多组学数据集。首先,scDesign3通过同时模拟基因和表面蛋白的表达水平与CITE-seq数据集相似。图1i显示,三种示例性表面蛋白的RNA和蛋白质表达水平在合成数据和测试数据之间高度一致。其次,scDesign3通过从Pamona发现的两个单组学数据集学习,模拟了具有联合RNA表达和DNA甲基化模式的单细胞多组学数据集中(图1j,左)。这个合成的多组学数据集保留了两个单组学数据集中的细胞轨迹(图1j,右)。从单组学数据生成多组学数据的功能允许scDesign3对整合来自不匹配细胞的模态的计算方法进行基准测试。
- 图1:scDesign3生成各种单细胞和空间组学技术的真实合成数据。scDesign3模拟功能概述:细胞状态(例如,离散细胞类型、连续轨迹和空间位置);多组学(例如,RNA-seq、ATAC-seq、CITE-seq和甲基化);以及实验设计(例如,批次、条件、性别和年龄)。
scDesign3功能2:解释
scDesign3为单细胞和空间组学数据提供了一个通用的概率模型,除了生成合成数据外,它还有广泛的应用。作者研究了scDesign3模型的三个突出应用:模型参数、模型选择和模型更改(图2a)。
首先,scDesign3模型具有可解释的参数结构,由基因的边际分布参数和成对基因相关性组成。此外,scDesign3模型可以灵活地通过使用广义加性模型(GAM)和高斯过程来合并不同的细胞协变量,这允许估计沿着细胞轨迹的非线性基因表达变化(图2b)和跨空间位置的非线性基因表现变化(图2c)。除了推断单个基因的表达特征外,scDesign3还以细胞协变量为条件估计成对基因相关性,从而深入了解潜在的基因调控关系。具体而言,scDesign3通过Gaussian copula和vine copula两种统计技术来估计基因相关性,这两种技术具有互补的优势:Gaussian copula速度快,但只输出基因相关性矩阵;vine copula是缓慢的,但可以通过输出一个基因“vine”来解释,顶层表示最高度相关的基因(即“hub基因”)。应用于具有四种细胞类型的人外周血单核细胞的scRNA-seq数据集,Gaussian copula揭示了相似细胞类型(调节性T细胞与naive细胞毒性T细胞)的相似基因相关矩阵,以及不同细胞类型(CD14+单核细胞与naive细胞毒性T细胞)的不同基因相关矩阵(图2d,顶部);vine copula发现了作为枢纽基因的典型细胞类型标记基因:CD14+单核细胞的LYZ和B细胞的CD79A(图2d,底部)。
其次,scDesign3采用了基于似然的模型选择标准,如Akaike信息标准(AIC)和贝叶斯信息标准(BIC),使scDesign3能够评估模型与数据的“拟合优度”,并比较竞争模型。一个值得注意的应用是评估推断的细胞潜在结构(簇、轨迹和空间位置)如何描述数据,也就是说,在没有ground truth或外部知识的情况下,从拟合优度角度评估潜在结构。尽管scDesign3模型不能代表基本事实,但作者证明了scDesign3 AIC和BIC是评估潜在结构与scDesign3模式下数据一致性的有用“无监督”标准。
对于细胞聚类,在具有已知细胞类型的八个数据集上,将scDesign3 BIC与“监督”(ARI)和新提出的“无监督”聚类偏差指数进行了比较。对于伪时间推断,scDesign3 BIC相关性良好(平均Spearman相关性 < −0.7)在具有真实伪时间的多个合成数据集上使用“监督” R 2 R^2 R2(图2e)。Slingshot推断的伪时间与数据吻合较好,比TSCAN和Monocle推断的更小的BIC(图2e,底部)。
第三,scDesign3具有模型更改功能:给定在真实数据上估计的scDesign3模型参数,用户可以更改这些参数以反映假设,并生成具有真实数据特征的相应计算机数据。这一功能使scDesign3优于基于深度学习的模拟器,后者无法轻易更改以反映假设。首先,scDesign3可以生成具有不同细胞类型特定条件效应的合成数据(图2f)。在包含两个批次的真实数据集上进行训练(图2g,左),scDesign3生成了保留批次效应的合成数据(图2g,中);然后改变拟合的scDesign3模型中的批次参数,以生成没有批次效应的合成数据(图2g右)。然后,scDesign3可以在只有一种细胞类型存在的零假设(H0)和存在两种细胞类型的替代假设(H1)下生成合成数据(图2h)。给定一个真实的数据集(图2h,左),在H1下,使用细胞类型标签拟合模型(图2h,中);在H0下,通过假设所有细胞都是一种类型来拟合模型(图2h,右)。使用这两个拟合模型,scDesign3生成了H1和H0下的合成数据。特别地,H0下的合成数据可以作为基准细胞类型鉴定方法的计算机阴性对照。
- 图2:scDesign3能够对真实数据进行全面解释。