Nat. Genet | 单细胞多组回归模型识别功能和疾病相关增强子,并实现染色质潜力分析

ops/2025/2/21 6:20:42/

Nat. Genet | 单细胞多组回归模型识别功能和疾病相关增强子,并实现染色质潜力分析

本文提出了一种名为SCARlink的基因调控模型,通过结合单细胞RNA测序(scRNA-seq)和单细胞开放染色质测序(scATAC-seq)数据,利用正则化的泊松回归方法预测基因表达并链接增强子与靶基因。SCARlink在多个高覆盖数据集上表现出色,在低覆盖数据集上也具有可比的效果,并能够识别与细胞类型相关的基因增强子,进而为研究基因调控网络和疾病相关变异提供了有力工具

在这里插入图片描述

引言

多组学单细胞测序技术,对同一单个细胞进行染色质可及性(scATAC–seq)和基因表达(scRNA-seq)测量,需要开发分析方法将增强子与基因连接起来,推断基因调控网络,并基于染色质潜能的概念解析发育轨迹

当前方法的基本思路

① 识别单个可及区域与基因表达水平之间的成对相关性,以实现增强子与基因的连接。例如,最近的一种方法使用泊松回归来测试峰值可及性与基因表达之间的成对相关性,同时建模批次效应或细胞特异性协变量,目的是将位于这些峰值中的非编码遗传变异与目标基因连接起来

② 标准的scATAC–seq分析方法使用简单的评分方案将数据转换为类似scRNA的读数,这类似于基因表达,基于在基因启动子附近或整个基因座(包括基因体及其周围的固定窗口)聚合染色质可及性,以获得一个推测的基因表达值。这些推测评分使得独立收集的scATAC–seq和scRNA-seq数据能够进行联合嵌入,或者在两者之间转移细胞类型簇标签

本文提出的SCARlink模型是一个正则化泊松分布回归模型,能够避免这种局限,通过全基因位点的染色质可及性数据来联合建模基因的所有调控效应

SCARlink方法概述

SCARlink使用正则化的泊松回归方法,对单细胞数据中的染色质可及性数据进行建模,预测基因表达。该模型处理的输入数据为500bp大小的非重叠染色质可及性区域,覆盖基因上下游各250kb范围。通过学习回归系数,SCARlink能够确定哪些区域是基因表达的潜在调控元件。模型中还使用Shapley值分析来识别细胞类型特异性的增强子
在这里插入图片描述

核心优势:

综合调控元件:同时考虑基因座内(如内含子增强子)和侧翼区域(±250 kb)的调控元素

tile-level:使用正则化泊松回归在基因组tail级数据上训练,提升与标准预处理工具(如ArchR)的兼容性

避免peak-calling:无需在细胞簇上进行peak-calling,减少额外步骤,避免遗漏稀有细胞类型中的事件

SCARlink可以准确预测基因表达

SCARlink在多个高覆盖和低覆盖的数据集上均表现优异,尤其是在细胞类型特异性的增强子识别方面,表现优于现有方法如ArchR
在这里插入图片描述
SCARlink 在预测时不使用细胞类型或聚类信息,但可以借助已知的细胞聚类信息进行可视化,可以帮助解释回归系数的生物学意义
在这里插入图片描述

SCARlink预测出变异位点

在多个组织(PBMC、胰腺、垂体)中SCARlink 的表现均更加优异且比 ArchR 更能富集 GWAS 变异。PIP 阈值越高,SCARlink 的富集倍数越高,证明其预测的增强子区域能更准确地捕获真正的功能性 GWAS 变异

对于匹配的GTEx组织中的精细定位eQTL;在PBMC中,前 20,000个基因关联片段的eQTL富集度提高了12倍至20倍;在FDR<0.001的显著性阈值下,PBMC 中的eQTL富集度提高了10倍;胰腺多组学数据中的eQTL富集度提高了15倍;验证了SCARlink预测的增强子对eQTL变异具有更强的富集能力

非匹配GTEx组织的eQTL在PBMC和垂体中的富集度较低;SCARlink预测的调控变异不仅具有组织特异性,还具有细胞类型特异性
在这里插入图片描述

SCARlink可以进行发育轨迹推断

通过SCARlink预测的基因表达,可以构建染色质潜力向量场,进而实现细胞发育过程中的轨迹推断
在这里插入图片描述

参考资料

Mitra, S., Malik, R., Wong, W. et al. Single-cell multi-ome regression models identify functional and disease-associated enhancers and enable chromatin potential analysis. Nat Genet 56, 627–636 (2024). https://doi.org/10.1038/s41588-024-01689-8

微信号|计算生物前沿
在这里插入图片描述


http://www.ppmy.cn/ops/159691.html

相关文章

图论- 经典最小生成树算法

最小生成树算法 什么是最小生成树Kruskal算法关键代码实现 Prim 最小生成树算法Kruskal 和 Prim 算法的区别为什么Prim算法不需要判断成环,但Kruskal需要 什么是最小生成树 在图中找一棵包含图中所有节点的树, 且权重和最小的那棵树就叫最小生成树. 如下:右侧生成树的权重和显…

应用案例 | uaGate SI助力汽车零部件工厂将生产数据传输到MES

一、背景和挑战 &#xff08;图1 汽车零部件工厂生产车间&#xff09; 随着汽车工业的不断发展&#xff0c;新能源汽车市场的竞争日益激烈&#xff0c;这对汽车零部件供应商提出了更高的要求&#xff0c;包括提升产品精度、增强可靠性、节能环保以及控制成本等多个方面。某国际…

黑神话悟空风格事务解读snapshot

第一幕&#xff1a;编程式事务の「五指山压顶」 场景&#xff1a;天庭财务部手动记账&#xff0c;悟空大闹数据库 // 手动挡事务&#xff08;玉帝亲自执笔版&#xff09; public class 蟠桃园会计系统 { public void 分发蟠桃(神仙 领桃人, int 数量) { Connection conn …

Javascript中的深拷贝详解

在 Javascript 开发中&#xff0c;深拷贝&#xff08;Deep Clone&#xff09;是一个经常遇到的问题。本文将详细介绍深拷贝的概念、实现方法以及注意事项。 什么是深拷贝&#xff1f; 在 Javascript 中&#xff0c;数据类型分为基本类型&#xff08;如 Number、String、Boole…

VMware按照的MacOS升级后无法联网

背景 3年前公司使用Flutter开发了一款app&#xff0c;现在app有微小改动需要重新发布到AppStore 问题 问题是原来的Vmware搭建的开发环境发布App失败了 提示&#xff1a;App需要使用xcode15IOS 17 SDK重新构建&#xff0c;这样的话MacOS至少需要升级到13.5 Xcode - 支持 - Ap…

【JavaScript】正则表达式综合案例

目录 1、正则表达式 1.1 什么是正则表达式 1.2 语法 test() 方法 用来查看正则表达式与指定的字符串是否匹配 exec() 方法 在一个指定字符串中执行一个搜索匹配 1.3 元字符 1. 边界符 2. 量词 3. 字符类&#xff1a; 案例 用户名验证案例 1.4 修饰符 案例 过滤…

从零开始构建一个小型字符级语言模型的详细教程(基于Transformer架构)之一数据准备

最近特别火的DeepSeek,是一个大语言模型,那一个模型是如何构建起来的呢?DeepSeek基于Transformer架构,接下来我们也从零开始构建一个基于Transformer架构的小型语言模型,并说明构建的详细步骤及内部组件说明。我们以构建一个字符级语言模型(Char-Level LM)为例,目标是通…

利用 UniApp 实现带有渐变背景的盒子

要实现一个带有渐变背景的盒子&#xff0c;我们需要使用 UniApp 的模板和样式部分。在模板部分创建一个视图容器&#xff08;<view>&#xff09;&#xff0c;在样式部分使用 CSS 的 linear-gradient 函数来设置渐变背景。 <template><view class"gradient-…