[比赛简介]ICR - Identifying Age-Related Conditions

news/2025/1/3 6:30:40/

比赛链接:https://www.kaggle.com/competitions/icr-identify-age-related-conditions

 比赛简介 

本次比赛的目标是预测一个人是否患有三种疾病中的任何一种。您被要求预测该人是否患有三种疾病中的任何一种或多种(1 类),或者三种疾病中的任何一种(0 类)都没有。您将创建一个针对健康特征测量值进行训练的模型。

要确定某人是否患有这些疾病,需要一个漫长而侵入性的过程来收集患者的信息。使用预测模型,我们可以缩短此过程,并通过收集与条件相关的关键特征,然后对这些特征进行编码,从而将患者详细信息保密。

您的工作将帮助研究人员发现某些特征的测量与潜在患者状况之间的关系。

年龄只是一个数字,但随着年龄的增长,一系列健康问题也随之而来。从心脏病和痴呆到听力损失和关节炎,衰老是许多疾病和并发症的危险因素。不断发展的生物信息学领域包括对干预措施的研究,这些干预措施可以帮助减缓和逆转生物衰老,预防与年龄相关的重大疾病。数据科学可以在开发新方法来解决不同数据问题方面发挥作用,即使样本数量很少。

目前,像XGBoost和随机森林这样的模型被用来预测医疗状况,但模型的性能还不够好。在处理生命岌岌可危的关键问题时,模型需要在不同案例之间可靠且一致地做出正确的预测。

竞赛主办方InVitro Cell Research,LLC(ICR)成立于2015年,是一家专注于再生和预防性个性化医疗的私人投资公司。他们在大纽约市地区的办公室和实验室提供最先进的研究空间。Invitro Cell Research的科学家使他们与众不同,帮助指导和定义他们研究如何快速修复老年人的使命。

在本次竞赛中,您将使用健康特征数据的测量来解决生物信息学中的关键问题。根据最少的训练,您将创建一个模型来预测一个人是否患有三种疾病中的任何一种,目的是改进现有方法。

您可以帮助推进不断发展的生物信息学领域,并探索使用各种数据解决复杂问题的新方法。

评估方法

使用平衡对数损失评估提交。总体效果是,每个类对最终分数的重要性大致相同。

每个观察要么是1类的,要么是0类的。对于每个观测值,您必须为每个类提交概率:

其中 (N_{c}) 是类 (c) 的观测值数,(\log) 是自然对数,(y_{c i}) 如果观测值 (i) 属于类 (c),则为 1,否则为 0,(p_{c i}) 是观测值 (i) 属于类 (c) 的预测概率。

给定行的提交概率不需要求和为 1,因为它们在评分之前会重新缩放(每行除以行总和)。为了避免对数函数的极端情况,每个预测概率p替换为:

提交文件

对于测试集中的每一个id,必须预测两个类中哪个类的概率。该文件应包含标头并具有以下格式: 

Id,class_0,class_1
00eed32682bb,0.5,0.5
010ebe33f668,0.5,0.5
02fa521e1838,0.5,0.5
040e15f562a2,0.5,0.5
046e85c7cc7f,0.5,0.5
...

数据描述

比赛数据包括与三种年龄相关疾病相关的五十多个匿名健康特征。你的目标是预测受试者是否被诊断出患有这些疾病之一 - 二元分类问题。

请注意,这是一个代码竞赛,其中实际的测试集是隐藏的。在此版本中,我们以正确的格式提供了一些示例数据,以帮助您编写解决方案。对提交进行评分后,此示例测试数据将替换为完整的测试集。完整测试集中大约有 400 行。

数据集

  • train.csv - 训练集。
    • Id 每个观测值的唯一标识符。
    • AB-GL 56个匿名健康特征。除 EJ外,所有都是数字,它是分类的。
    • Class 二元目标:1表示受试者已被诊断出患有三种疾病之一,0表示他们没有。
  • test.csv - 测试集。您的目标是预测此集合中的主体属于这两个类中每个类的概率。
  • greeks.csv - 补充元数据,仅适用于训练集。
    • Alpha标识与年龄相关的疾病的类型(如果存在)。
      • A无年龄相关疾病。对应于类0
      • BDG三种与年龄相关的条件。对应于类1
    • BetaGammaDelta三个实验特征。
    • Epsilon收集此主题数据的日期。请注意,测试集中的所有数据都是在收集训练集之后收集的。

http://www.ppmy.cn/news/106242.html

相关文章

uni-app 金额格式化

普通过滤器(filter)在当前页面定义&#xff0c;复制红色代码即可 <template> <view> <text >{{balance|money}}</text> </view> </template> <script> export default{ data(){ return{ …

通过源码编译安装LAMP平台的搭建

目录 1. 编译安装Apache httpd服务2 编写mysqld服务3 编译安装PHP 解析环境安装论坛 LAMP架构是目前成熟的企业网站应用模式之一&#xff0c;指的是协同工作的一整套系统和相关软件&#xff0c;能够提供动态Web站点服务及其应用开发环境。 LAMP是一个缩写词&#xff0c;具体包…

【通信接口】CAN总线协议

目录 一、什么是CAN 1、CAN 的概念 2、节点构成&#xff08;CAN 总线通信模型&#xff09; 3、差分信号&#xff08;电平特性&#xff09; 4、CAN 总线的特点 二、CAN 总线协议的通信过程 1、发送过程 2、接收过程 3、概括 三、CAN 通信帧的分类 一、什么是CAN 1、C…

使用 VSCode SSH 公网远程连接本地服务器开发 - cpolar内网穿透

文章目录 前言视频教程1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 转…

职业规划提示

文章目录 职业规划提示1. 学习的步伐不停止2.学会问、学会听&#xff0c;学会学习3. 为目前的工作全力以赴4. 构建人际网络5. 识别你的工作6. 慎重决定下一个工作7. 为未来做准备8. 量力而行9. 实现您的梦想 职业规划提示 从网络上看到的资源,个人觉得有些参考价值&#xff0c…

2核4G5M性能测评:腾讯云轻量应用服务器CPU内存带宽系统盘

腾讯云轻量应用服务器2核4G5M配置一年168元&#xff0c;三年628元&#xff0c;100%CPU性能&#xff0c;5M带宽下载速度640KB/秒&#xff0c;60GB SSD系统盘&#xff0c;月流量500GB&#xff0c;折合每天16.6GB流量&#xff0c;超出月流量包的流量按照0.8元每GB的支付流量费&…

【已解决】记一次git删除指定的某次历史提交,并执行后续提交

文章目录 一、问题二、解决三、拓展学习1.git log常用参数最近n条记录按文件或目录查看按照日期查看按作者和邮箱查看按指定格式查看按指定提交内容或提交说明查看查看某次提交以及之前的记录 常用组合命令(3) 其他相关命令 2.git rebase 一、问题 新项目&#xff0c;一个分支…

HarmonyOS/OpenHarmony应用开发-ArkTS语言@BuilderParam引用@Builder函数

当开发者创建了自定义组件&#xff0c;并想对该组件添加特定功能时&#xff0c;例如在自定义组件中添加一个点击跳转操作。若直接在组件内嵌入事件方法&#xff0c;将会导致所有引入该自定义组件的地方均增加了该功能。为解决此问题&#xff0c;ArkUI引入了BuilderParam装饰器&…