Nat. Genet | 单细胞多组回归模型识别功能和疾病相关增强子,并实现染色质潜力分析
本文提出了一种名为SCARlink的基因调控模型,通过结合单细胞RNA测序(scRNA-seq)和单细胞开放染色质测序(scATAC-seq)数据,利用正则化的泊松回归方法预测基因表达并链接增强子与靶基因。SCARlink在多个高覆盖数据集上表现出色,在低覆盖数据集上也具有可比的效果,并能够识别与细胞类型相关的基因增强子,进而为研究基因调控网络和疾病相关变异提供了有力工具
引言
多组学单细胞测序技术,对同一单个细胞进行染色质可及性(scATAC–seq)和基因表达(scRNA-seq)测量,需要开发分析方法将增强子与基因连接起来,推断基因调控网络,并基于染色质潜能的概念解析发育轨迹
当前方法的基本思路:
① 识别单个可及区域与基因表达水平之间的成对相关性,以实现增强子与基因的连接。例如,最近的一种方法使用泊松回归来测试峰值可及性与基因表达之间的成对相关性,同时建模批次效应或细胞特异性协变量,目的是将位于这些峰值中的非编码遗传变异与目标基因连接起来
② 标准的scATAC–seq分析方法使用简单的评分方案将数据转换为类似scRNA的读数,这类似于基因表达,基于在基因启动子附近或整个基因座(包括基因体及其周围的固定窗口)聚合染色质可及性,以获得一个推测的基因表达值。这些推测评分使得独立收集的scATAC–seq和scRNA-seq数据能够进行联合嵌入,或者在两者之间转移细胞类型簇标签
本文提出的SCARlink模型是一个正则化泊松分布回归模型,能够避免这种局限,通过全基因位点的染色质可及性数据来联合建模基因的所有调控效应
SCARlink方法概述
SCARlink使用正则化的泊松回归方法,对单细胞数据中的染色质可及性数据进行建模,预测基因表达。该模型处理的输入数据为500bp大小的非重叠染色质可及性区域,覆盖基因上下游各250kb范围。通过学习回归系数,SCARlink能够确定哪些区域是基因表达的潜在调控元件。模型中还使用Shapley值分析来识别细胞类型特异性的增强子
核心优势:
综合调控元件:同时考虑基因座内(如内含子增强子)和侧翼区域(±250 kb)的调控元素
tile-level:使用正则化泊松回归在基因组tail级数据上训练,提升与标准预处理工具(如ArchR)的兼容性
避免peak-calling:无需在细胞簇上进行peak-calling,减少额外步骤,避免遗漏稀有细胞类型中的事件
SCARlink可以准确预测基因表达
SCARlink在多个高覆盖和低覆盖的数据集上均表现优异,尤其是在细胞类型特异性的增强子识别方面,表现优于现有方法如ArchR
SCARlink 在预测时不使用细胞类型或聚类信息,但可以借助已知的细胞聚类信息进行可视化,可以帮助解释回归系数的生物学意义
SCARlink预测出变异位点
在多个组织(PBMC、胰腺、垂体)中SCARlink 的表现均更加优异且比 ArchR 更能富集 GWAS 变异。PIP 阈值越高,SCARlink 的富集倍数越高,证明其预测的增强子区域能更准确地捕获真正的功能性 GWAS 变异
对于匹配的GTEx组织中的精细定位eQTL;在PBMC中,前 20,000个基因关联片段的eQTL富集度提高了12倍至20倍;在FDR<0.001的显著性阈值下,PBMC 中的eQTL富集度提高了10倍;胰腺多组学数据中的eQTL富集度提高了15倍;验证了SCARlink预测的增强子对eQTL变异具有更强的富集能力
非匹配GTEx组织的eQTL在PBMC和垂体中的富集度较低;SCARlink预测的调控变异不仅具有组织特异性,还具有细胞类型特异性
SCARlink可以进行发育轨迹推断
通过SCARlink预测的基因表达,可以构建染色质潜力向量场,进而实现细胞发育过程中的轨迹推断
参考资料
Mitra, S., Malik, R., Wong, W. et al. Single-cell multi-ome regression models identify functional and disease-associated enhancers and enable chromatin potential analysis. Nat Genet 56, 627–636 (2024). https://doi.org/10.1038/s41588-024-01689-8
微信号|计算生物前沿