【生物信息】调控基因组学 (Regulatory Genomics) 和Deep CNN

news/2024/11/23 23:46:20/

文章目录

  • Regulatory Genomics
    • Biological motivation of Deep CNN
    • Multi-task CNN

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》

主要内容就是调控基因组学和深度卷积网络的结合

由于这部分在我学习的课程中内容很少,下面贴出油管链接(这个每节课一个半小时):

教授详细的课1:Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs

教授详细的课2:Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)

Regulatory Genomics

Biological motivation of Deep CNN

深度序列模型"或"深度位点特异性模型"的特殊类型的深度卷积神经网络(Deep Convolutional Neural Networks,简称 Deep CNNs),它在处理生物序列(如DNA,RNA或蛋白质序列)时,将滤波器初始化为位点特异性评分矩阵(Position-Specific Scoring Matrix,简称PSSM)或其他有生物学意义的模式(motifs)。这种模型的优点是可以利用已有的生物学知识来指导模型的学习,从而加速训练过程,提高模型的准确性。

以下是这种模型的工作流程:

  1. 将生物序列转化为数值型的表示:和之前一样,我们需要将生物序列(如DNA)转化为数值型的表示,常用的方式是独热编码(one-hot encoding)。
  2. 使用生物学意义的滤波器扫描序列:在这个步骤,我们首先将卷积层的滤波器初始化为PSSM或其他有生物学意义的模式(motifs)。这些滤波器会在序列上滑动,根据每个滤波器对应的模式,计算序列在各个位置的匹配程度。(与边缘检测不同的是,这里使用的卷积核(滤波器)是有生物意义的motifs)
  3. 通过ReLU进行阈值化:ReLU(Rectified Linear Unit)是一种常见的激活函数,它对负数输出0,对正数保持不变。这个操作可以增加模型的非线性,使得模型可以学习更复杂的模式。
  4. 最大池化(Max Pooling):这是一种减小序列长度,同时保留关键信息的操作。在卷积神经网络中,池化层通常跟在卷积层后面,用于降低特征的维度和控制过拟合。
  5. 使用逻辑回归预测概率:在所有处理步骤之后,我们可以用一个逻辑回归层(通常是一个全连接层,加上一个sigmoid激活函数)来预测类别。

值得注意的是,虽然我们在开始时将滤波器初始化为PSSM或其他有生物学意义的模式,但在训练过程中,滤波器的参数会被进一步调整,以更好地适应训练数据。这就使得我们既可以利用已有的生物学知识,又可以从数据中学习到新的知识。

Multi-task CNN


http://www.ppmy.cn/news/78267.html

相关文章

DL.to 最新研究(论文)推荐——分割、CVPR、扩散模型、感受野注意力模块

目录 一、CVPR 1.CrowdCLIP:基于视觉-语言模型的无监督人群计数 CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model 2.Beyond mAP:更好地评估实例分割 Beyond mAP: Re-evaluating and Improving Performance in Instance Segmentation with Se…

单片机中GPIO八种工作模式详细分析

今天给大家讲解一下 GPIO 基础,参考资料: STM32F1xx 官方资料: 《STM32中文参考手册V10》-第8章通用和复用功能IO(GPIO和AFIO) GPIO 是通用输入/输出端口的简称,是 STM32 可控制的引脚。GPIO 的引脚与外部硬件设备连接&#xff…

从驯服个体到激活个体,产业互联网正释放新的活力

当互联网行业的发展进入到新周期,仅仅只是以构建平台和中心的方式,业已无法取得真正的效果。无论是头部的互联网玩家,抑或是新入局的产业新秀,几乎都是如此。欲要再度重启产业的活力,必然需要一种新的方式和方法&#…

分布式全局唯一id实现-4 springCloud-MyBatis-Plus集成美团分布式全局id(leaf)

前言:美团的leaf集成了db分段生成id和雪花算法生成分布式id,本文对其实现部分细节展开讨论,leaf 的具体实现请参考:https://tech.meituan.com/MT_Leaf.html; 1 使用db分段id: leaf 的分段id本质上是使用了…

自动控制原理备考-1题-传递函数

首先致敬西北工业大学自动控制原理的无冕之王张科老师。 期末考试,先下手为强,后下手遭殃。今天我们就开始一起针对期末考试有关题型一一梳理,突破解决。 给你一个系统结构图,让你求R(s)和N(s)同时作用下的C(s)。基本…

学习记录: openpyxl 根据某列,对所有列进行升降排序

from openpyxl import load_workbookdef test(path, Sheet_name, Index, Sheet_upname, workbook_save):# 读取文件路径workbook load_workbook(path)# 读取工作簿sheet workbook[Sheet_name]# 读取数据row_lst []for row in sheet.rows:row_data [cell.value for cell in …

【C++/嵌入式笔试面试八股】一、11.C内存分配/堆栈

C内存分配/堆栈 01.C内存分配❤️ #include <stdio.h>const int g_A = 10; //常量区 int g_B = 20; //数据段 static<

OpenAI再出新作,AIGC时代,3D建模师的饭碗危险了!

大家好&#xff0c;我是千与千寻&#xff0c;也可以叫我千寻哥&#xff0c;说起来&#xff0c;自从ChatGPT发布之后&#xff0c;我就开始焦虑&#xff0c;担心自己程序员的饭碗会不会哪天就被AIGC取代了。 有人说我是过度焦虑了&#xff0c;但是我总觉有点危机感肯定没有坏处。…