kaggle新赛:蛋白质功能预测大赛baseline

news/2024/11/23 5:12:48/

日前,Kaggle发布了CAFA 5 Protein Function Prediction蛋白质功能预测大赛。这是一个机器学习中的序列预测任务,需要你开发一个基于蛋白质氨基酸序列和其他数据的模型,预测一组蛋白质的功能。

该竞赛评估参与者对蛋白质序列的基因本体论(GeOntology, GO)术语的预测。

测试集分为三个子生物学:分子功能(MolecularFunction,MF)、生物过程(Biological Process,BP)和细胞成分(Cellular Component,CC)。参与者对每个子生物学分别进行评分。最后的性能指标是在三个子生物学上计算的最大F-measures的算术平均值。考虑到GO的层次结构,使用了加权精度和召回率。评估代码是公开的。

Baseline简析

对任何AI项目的建模过程如下(以往期为例):

part1: data preprocess()

1.1 从预训练的蛋白质功能预测模型(ProtBERT, T5等)中形成初始的embedding.

1.2 从train_terms生成标签,通过考虑蛋白质集中最常见的前k个GO项,为每个蛋白质生成长度为K的稀疏向量,用来指示K个GO项在蛋白质中的真实概率(0或1)

part2: build_transform()/ build_dataset()/ build_dataloader()

2.1 组合蛋白质ID以及对应的embedding到pytorch框架

part3: buiild_mode()

3.1 形式化建模为输入形状为(E,) 输出为(K, )的概率,此时可用任何分类模型进行探索实验,例如timm里面若干分类模型. 下面只是简单的CNN1D + MLP

part4: build_loss() & build_metric()

4.1 探索利用分类loss

4.2 利用F1-meature等指标进行验证

part5: train_one_epoch(), eval_one_epoch(), test_one_epoch()

由于篇幅关系,此处只贴部分代码

关注下方【学姐带你玩AI】🚀🚀🚀

回复“蛋白质”领取完整baseline

码字不易,欢迎大家点赞评论收藏!


http://www.ppmy.cn/news/147506.html

相关文章

3D元宇宙数字展厅—虚拟智能化办公展厅引领未来办公新风尚

随着数字化技术和虚拟现实的迅猛发展,传统的办公方式正在经历一场革命性的变革。在这个数字化时代,虚拟智能化办公展厅正以其独特的优势和创新的展示方式,引领着未来办公的新风尚。 让我们一同探索虚拟智能化办公展厅的魅力,以及它…

CH9102与CP2102应用注意事项

文章目录 概述应用差异说明驱动说明GPIO使用说明硬件差异说明CH9102F VS CP2102N-GQFN24CH9102X VS CP2102CH9102X VS CP2102N-GQFN28 其他说明 CH9102资料链接 概述 CH9102(WCH)与CP2102的不同子型号之间可实现pintopin兼容,可以在不更改硬…

CH9102:国产USB转高速串口RS232芯片兼容替代CP2102

目录 CH9102简介CH9102芯片特性 差异说明1. 应用差异2. 硬件差异3. 其他说明 CH9102简介 CH9102是一个USB总线的转接芯片,实现USB转高速异步串口。提供了常用的MODEM联络信号,用于为计算机扩展异步串口,或者将普通的串口设备或者MCU直接升级…

codevs 2102

codevs 2102 典型的石子归并&#xff0c;但此题与原题不同的是&#xff1a;这是一个圆圈&#xff0c;所以我们断环为链&#xff0c;但从哪里断了&#xff0c;最后决定随便断&#xff0c;本题是从1断&#xff0c;再将链延长为2倍 #include <iostream> #include <cstd…

微信小程序+esp8266NodeMcu(cp2102)+onenet物联平台(二)

目录 一、搭建环境 1、esp8266NodeMcu(cp2102)驱动安装 2、为esp8266NodeMcu搭建Arduino开发环境 3、安装PubSubClient库 二、编写代码 上一篇文章微信小程序esp8266NodeMcu(cp2102)onenet物联平台&#xff08;一&#xff09;介绍了onenet平台注册及设备连接&#xff0c;接…

安装CP2102驱动

CP2102是一款USB转TTL电平的USB转串口芯片&#xff0c;网上的资源多为虚假软件&#xff0c;根本不能用&#xff0c;现给出官方网址 官网地址&#xff1a;https://www.silabs.com/products/development-tools/software/usb-to-uart-bridge-vcp-drivers

矽杰微 X8P2102 单片机

X8P2102是无锡矽杰微电子公司推出的一款基于CMOS技术的高速低功耗8位单片机,内置2kx16bit一次性可编程用户程序存储器(OTP-ROM)&#xff0c;集成多路ADC(模拟-数字)转换电路&#xff0c;很多复用端口以适应不同的产品需求。 X8P2102的核心是一个嵌入式8位处理器&#xff0…

hdu 2102

题意&#xff1a;题干讲得很明确了。 思路&#xff1a;简单的BFS。我做的时候在两个地方被坑了。一&#xff0c;走到传送门也需要花费时间。二&#xff0c;花费的时间小于等于限制时间即可&#xff0c;而不需要小于他。 AC代码&#xff1a; #include<bits/stdc.h> usi…