1.基于python的单细胞数据预处理-特征选择

news/2024/10/15 16:47:05/

文章目录

  • 特征选择背景
  • 基于基因离散度
  • 基于基因归一化方差
  • 基于基因皮尔森近似残差
  • 特征选择总结

参考:
[1] https://github.com/Starlitnightly/single_cell_tutorial
[2] https://github.com/theislab/single-cell-best-practices

特征选择背景

现在已经获得了经过归一化的测序数据,其保留了细胞异质性,同时削弱了测量误差。统计发现,一个细胞表达的基因大约是3000个左右。这意味着测序数据中的一大部分基因是0计数。对于细胞亚型的研究,大部分0计数基因都在这些细胞亚型中,因此,预处理还包含特征选择,可以排除这些不具备分析意义的基因。

基因特征选择一般有三种方法:基于基因离散度,基于基因归一化方差,基于基因的皮尔森残差。

基于基因离散度

在传统的分析流程中,我们会采用基于基因离散度的方式去计算高变基因,一般来说,我们首先确定了单细胞数据集中变异最大的一组基因。我们计算了所有单细胞中每个基因的平均值和离散度(方差/平均值),并根据基因的平均值将基因分为 20 个箱(bins)。然后,在每个箱内,我们对箱内所有基因的离散度进行z归一化,以识别表达值高度可变的基因。

我们使用移位对数归一化后的数据:

python">import omicverse as ov
import scanpy as scov.utils.ov_plot_set()adata = sc.read("./data/s4d8_quality_control.h5ad")#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts'] = adata.X.copy()sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
print(adata)

调用scanpy包里的pp.highly_variable_genes函数来计算高可变基因,由于我们使用的是基于基因离散度的方法,故设置flavor='seurat',该方法也是默认方法。基于基因离散度的方法寻找高变基因有两个方式:

  • 指定HVG数量,应用广泛,简单直接。
  • 指定离散度,数据敏感,应用其实很少,还是推荐指定HVG数量。

对于指定HVG数量:

python">adata_dis_num=sc.pp.highly_variable_genes(adata,flavor="seurat",n_top_genes=2000,subset=False,inplace=False,
)
print(adata)
print(adata_dis_num)
print(adata_dis_num['highly_variable'].value_counts())

设置inplace=False,将不会改变adata的var(打印adata的视图时,var中没有出现highly_variable)。输出为:
fig1
我们发现,一共选择了2000个高可变基因,这与我们最开始的分析目标一致。

基于基因归一化方差

在seurat v3中,提出了基于基因归一化方差做特征选择,我们不再使用归一化后的数据来计算高变基因。我们首先计算每一个基因的平均值 x ‾ i \overline{x}_{i} xi与方差 σ i \sigma_{i} σi,然后分别对平均值与方差进行log对数变换,然后用2次多项式,将方差作为均值的函数,进行多项式回归: σ ( x ) = a x 2 + b x + c \sigma(x)=ax^{2}+bx+c σ(x)=ax2+bx+c通过这个公式,可以获得每一个基因的预测方差,然后进行z变换: z i j = x i j − x ‾ i σ ( x i ) z_{ij}=\frac{x_{ij}-\overline{x}_{i}}{\sigma(x_{i})} zij=σ(xi)xijxi其中, z i j z_{ij} zij是细胞 j j j中基因 i i i的归一化值, x i j x_{ij} xij是细胞 j j j中基因 i i i的原始值, x ‾ i \overline{x}_{i} xi是所有细胞基因 i i i的平均原始值, σ ( x i ) \sigma(x_{i}) σ(xi)是预测的方差。对于特征选择,根据预测的方差进行排序即可。

在scanpy中,需要flavor='seurat_v3',并指定计数矩阵是没有归一化的layer='counts'

python">adata_var_num=sc.pp.highly_variable_genes(adata,flavor="seurat_v3",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_var_num['highly_variable'].value_counts())

基于基因皮尔森近似残差

基于皮尔森近似的方法也是使用原始计数:

python">adata_pearson_num=sc.experimental.pp.highly_variable_genes(adata, flavor="pearson_residuals",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_pearson_num['highly_variable'].value_counts())

特征选择总结

对比三种不同的方法:

python">import matplotlib.pyplot as plt
from matplotlib_venn import venn3adata_dis_num.index=adata.var_names.copy()
adata_var_num.index=adata.var_names.copy()
adata_pearson_num.index=adata.var_names.copy()# 三个列表的元素
list1 = set(adata_dis_num.loc[adata_dis_num['highly_variable']==True].index.tolist())
list2 = set(adata_var_num.loc[adata_var_num['highly_variable']==True].index.tolist())
list3 = set(adata_pearson_num.loc[adata_pearson_num['highly_variable']==True].index.tolist())# 绘制 Venn 图
venn = venn3([list1, list2, list3], set_labels=('Dis', 'Var', 'Pearson'))# 显示图形
plt.title("Venn Diagram of Three HVGs")
plt.savefig("./result/2-5.png")

fig2

发现三种不同方法所找到的高可变基因(HVGs)仅有656个是相同的,这意味着不同的方法所寻找到的高可变基因会影响下游分析的结果一致性。如果对时间要求不严格,推荐使用皮尔森残差法来获得高可变基因。如果需要快速,推荐基于基因离散度的方法。

在omicverse中,归一化和特征选择预处理被包装好了,mode参数为normalize|HVGs,前者是归一化,后者是特征选择:

python">adata = sc.read("./data/s4d8_quality_control.h5ad")
#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts']=adata.X.copy()adata=ov.pp.preprocess(adata,mode='shiftlog|pearson',n_HVGs=2000)
print(adata)# 存储预处理后的数据
adata.write_h5ad('./data/s4d8_preprocess.h5ad')

在结果上,注意:与scanpy不同,omicverse计算高可变基因后,将保存为var['highly_variable_features'],而在scanpy中,HVG将保存为var['highly_variable'],都是包含bool值的Series。


http://www.ppmy.cn/news/1459392.html

相关文章

探索Java的未来

一、Java介绍 Java是一种面向对象的编程语言,由Sun Microsystems(现在是Oracle Corporation)于1995年首次发布。它被设计成一种通用且可移植的语言,可以在不同的操作系统上运行。 Java具有以下特点: 面向对象&#…

(网络初识)

网络发展史 独立模式 在最开始计算机被发明出来,但网络还未普及的情况下,每个计算机之间都是相互独立的: 假设现在有一份数据需要处理,然后这份数据的处理又分给三个人分别处理。假设小松处理进行第一部分的处理,当小…

SLAM 面试题

持续完善 SLAM的基本概念和组成部分 描述一下什么是SLAM以及它的基本任务。 SLAM系统主要由哪些部分组成?SLAM的类型和算法 请解释滤波器SLAM(如粒子滤波)和图优化SLAM(如Google的Cartographer)之间的区别。 你如何区…

笔记2024

[pip源] pip install xxx -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com https://pypi.doubanio.com/simple https://pypi.tuna.tsinghua.edu.cn/simple [docker] 查看镜像: docker ps docker images docker stop cooling_optimiza…

迅饶科技X2View物联网设备存在任意用户添加漏洞 [附POC]

文章目录 迅饶科技X2View物联网设备存在任意用户添加漏洞 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现0x06 修复建议迅饶科技X2View物联网设备存在任意用户添加漏洞 [附POC] 0x01 前言 免责声明:请勿利用文章内的相…

[C++核心编程-06]----C++类和对象之对象模型和this指针

🎩 欢迎来到技术探索的奇幻世界👨‍💻 📜 个人主页:一伦明悦-CSDN博客 ✍🏻 作者简介: C软件开发、Python机器学习爱好者 🗣️ 互动与支持:💬评论 &…

NSS刷题

1、[SWPUCTF 2021 新生赛]gift_f12 打开题目后查看源码无发现,用f12发现flag 2、[GDOUCTF 2023]hate eat snake 打开链接是一个贪吃蛇小游戏,f12找到js文件中有一个speed的语句,该语句的作用是使速度增加,因此,将该语…

​​​【收录 Hello 算法】5.1 栈

目录 5.1 栈 5.1.1 栈的常用操作 5.1.2 栈的实现 1. 基于链表的实现 2. 基于数组的实现 5.1.3 两种实现对比 5.1.4 栈的典型应用 5.1 栈 栈(stack)是一种遵循先入后出逻辑的线性数据结构。 我们可以将栈类比为桌面上的一摞盘子…