TCGA 亚型突变负荷代码

news/2024/11/28 22:03:31/

#1、准备文件/数据并加载相应的包

#1.1下载并加载相应的包,有就直接加载,没有就下载后再加载。

install.packages("pacman")
library(pacman)
p_load(TCGAbiolinks,DT,tidyverse)
BiocManager::install("TCGAbiolinks")
library(tidyverse)
BiocManager::install("maftools")
library(maftools)

library(dplyr)

#1.2需要准备亚型文件

#用之前用来构建风险模型的时候生成的具有高低风险组分组的文件

#行是样本名

#直接加载

load("F:/mypro/cancer-cuprosis/TCGA-STAD-cuprosis-lncrna/STAD-cuprosis-lncrna/mk-model/train_test_all_risk.RData")
View(all_surv_expr)

#就是上面截图这个样子。其实只需要有risk那一列就行了。

#1.3准备maf格式文件,并根据高低风险组将maf分为高低风险样本的亚型

raw<-GDCquery(
  project= "TCGA-STAD",
  data.category = "Simple Nucleotide Variation",
  access =  "open",
  legacy = FALSE,
  data.type= "Masked Somatic Mutation",
  workflow.type = "Aliquot Ensemble Somatic Variant Merging and Masking"
)

#下载数据
GDCdownload(raw)
#获取数据
maf<- GDCprepare(raw)
#读取数据
maf<-maf %>% maftools::read.maf()

 #一开始我以为把突变数据提取成表格就行了,后面发现不行。做瀑布图的时候,那个代码不能识别这样的表达矩阵,需要时maf格式的。

#找到样本所在的位置

maf@data$Tumor_Sample_Barcode 

#改样本名

#样本名需要和亚型文件的样本名一致,好后面做提取处理。

mut$Tumor_Sample_Barcode<-substring(mut$Tumor_Sample_Barcode,1,12)

mut$Tumor_Sample_Barcode[1]

 mut$Tumor_Sample_Barcode<-substring(mut$Tumor_Sample_Barcode,1,12)
mut.High <- mut[(mut$Tumor_Sample_Barcode %in% rownames(all_surv_expr)[all_surv_expr$risk=="high"]),]
###   %in%   判断前面一个向量是否在后面一个向量中存在,返回布尔值
mut.Low <- mut[(mut$Tumor_Sample_Barcode %in% rownames(all_surv_expr)[all_surv_expr$risk=="low"]),]
maf.High <-read.maf(maf = mut.High,isTCGA = T)## 读取高风险亚型的突变数据
maf.Low <- read.maf(maf = mut.Low,isTCGA = T)## 读取低风险亚型的突变数据
maf.all <- read.maf(maf = mut,isTCGA = T)## 读取总的样本突变数据
 

# 下面设置颜色,人种等信息,这里的代码不需要修改:

col = RColorBrewer::brewer.pal(n = 10, name = 'Paired')
names(col) = c('Frame_Shift_Del','Missense_Mutation', 'Nonsense_Mutation', 'Frame_Shift_Ins','In_Frame_Ins', 'Splice_Site', 'In_Frame_Del','Nonstop_Mutation','Translation_Start_Site','Multi_Hit')

#人种
racecolors = RColorBrewer::brewer.pal(n = 4,name = 'Spectral')
names(racecolors) = c("ASIAN", "WHITE", "BLACK_OR_AFRICAN_AMERICAN",  "AMERICAN_INDIAN_OR_ALASKA_NATIVE")

# 下面开始绘制总的瀑布图,代码及图片如下
oncoplot(maf = maf.all,
         colors = col,#给突变配色
         top = 20)
# 绘制高风险亚型瀑布图,代码及图片如下:
oncoplot(maf = maf.High,
         colors = col,#给突变配色
         top = 20)
# 绘制低风险瀑布图,代码及图片如下:
oncoplot(maf = maf.Low,
         colors = col,#给突变配色
         top = 20)


http://www.ppmy.cn/news/966960.html

相关文章

基因组变异检测SNPcalling(GATK)

基因组变异检测SNPcalling&#xff08;GATK&#xff09; 第一步&#xff0c;将数据软连接到自己的工作路径下第二步&#xff0c;用BWA index功能为ref文件做index&#xff0c;用Samtools软件为ref做index第三步&#xff0c;用BWA软件做序列比对&#xff0c;得到序列比对的sam文…

提取TCGA 中体细胞突变数据的表达矩阵

#因为之前的命令调用GDCquery_Maf 发现用不了 #故找到了一些其他的方法&#xff0c;并且自己试着将其弄成了一个表达矩阵。 #代码如下 #1、下载加载相应的包 install.packages("pacman") library(pacman) p_load(TCGAbiolinks,DT,tidyverse) BiocManager::insta…

maftools|TCGA肿瘤突变数据的汇总,分析和可视化

之前介绍了使用maftools | 从头开始绘制发表级oncoplot&#xff08;瀑布图&#xff09; R-maftools包绘制组学突变结果&#xff08;MAF&#xff09;的oncoplot或者叫“瀑布图”&#xff0c;以及一些细节的更改和注释。 本文继续介绍maftools对于MAF文件的其他应用&#xff0c;为…

新版TCGA的突变SNP数据添加临床信息

文章目录 加载数据和R包读取数据 今天给大家演示下如何用自己的数据完成maftools的分析&#xff0c;主要是snp文件和临床信息的制作&#xff0c;其实很简单&#xff0c;但是网络上的教程都说的不清楚。 这次我们直接用之前TCGA-COAD和TCGA-READ合并后的数据演示&#xff0c;合…

ChatGPT 增长逐渐放缓,不再能吞噬整个网络?

整理 | 陈静琳 责编 | 屠敏 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; ChatGPT 的爆火&#xff0c;是昙花一现&#xff0c;还是未来可期&#xff1f; 近日&#xff0c;网站流量分析工具 Similarweb 针对 ChatGPT 目前的数据流量现状进行了一次深度的调研…

【饭谈-缓解焦虑】浅谈下目前AI【ChatGpt】现状和测试行业未来预测

最近关于chatgpt的新闻和功能真的是满天飞&#xff0c;比之前元宇宙还火爆&#xff0c;各种大佬纷纷发表了看法。你看着这些东西是不是变得越来越焦虑了&#xff1f;感觉自己马上就要失业了&#xff1f;感觉人类都要灭绝了&#xff1f;硅基生命真的要取代碳基了&#xff1f;但是…

ChatGPT资深提示工程师需要具备技能

ChatGPT是一种基于深度学习的生成式AI工具&#xff0c;可以根据给定的提示生成各种类型的文本&#xff0c;如对话、故事、文章、代码等。ChatGPT提示工程师是一种新兴的职业&#xff0c;他们负责设计和优化ChatGPT的输入和输出&#xff0c;以实现特定的目标和效果。 ChatGPT资…

关于C++的一些思考(摘自如何学好C++语言)

多问“为什么要这样”的问题。学习C一定要多问几个“为什么是这样”&#xff0c;“凭什么要这样”的问题。比如&#xff1a;很多人知道C有拷贝构造函数和初始化列表&#xff0c;但你真的知道为什么要有拷贝构造函数&#xff1f;为什么要有初始化列表吗&#xff1f;为什么要有te…