AI在医学领域:Arges框架在溃疡性结肠炎上的应用

news/2024/10/10 23:03:49/

      溃疡性结肠炎(UC)是一种慢性炎症性肠病(IBD),在全球大约影响着500万人,导致肠道炎症和溃疡。在UC的临床试验中,通常通过内窥镜视频来评估结肠疾病的严重程度,并使用如Mayo内窥镜下分数(MES)和溃疡性结肠炎内窥镜严重指数(UCEIS)等标准评分系统来衡量。专家对视频的人工评估既耗时又容易受到评估者间差异的影响,这强调了自动化解决方案的必要性。然而,自动化内窥镜疾病评分面临着独特的挑战:

  • 在临床环境中,疾病评分并非常见做法,因此标注数据稀缺;
  • 在临床试验中,数据通常在视频级别进行标注,这挑战了基于帧的全监督网络的使用;
  • 由于视频通常很长,时长超过30分钟,对所有视频帧进行标注以及将完整视频作为3D CNN和LSTM的输入是具有挑战性的。此外,最近的发现表明,时间意识对于手动和算法疾病评分是一个重要组成部分,这表明需要超越静态的、基于帧的模型。

   本文介绍一个深度学习框架Arges,用于从内窥镜视频中对UC疾病进行表征。它包括一个基础SSL编码器(ArgesFM),后面跟着一个下游分类器(ArgesMES/ArgesUCEIS),用于估计每个视频的疾病严重程度得分。

1 数据和方法

1.1 Arges框架

Arges框架的组成

1.1.1 基础模型(ArgesFM)

目的: 提取视频帧的特征,为下游任务提供通用的表示。

模型架构: 基于自监督学习(SSL)的视觉Transformer(ViT-Base)。采用视觉变换器(ViT-Base)作为编码器,通过自注意力机制捕捉帧内的空间关系。

预训练方法: 使用DINOv2算法进行预训练,通过知识蒸馏的方式学习图像特征。

​​​​​​​1.1.2 下游分类器

目的: 利用ArgesFM提取的特征,评估视频级别的UC严重程度。

模型架构: 基于Transformer的网络结构,包含位置编码和时间注意力机制。

聚合方法: 使用基于注意力的多实例学习(MIL)聚合器,将视频帧的特征聚合为视频级别的表示。

下游分类器包括ArgesMES和ArgesUCEIS两个部分。

  • ArgesMES:用于估计Mayo内窥镜下分数(MES)。
  • ArgesUCEIS:用于估计Ulcerative Colitis Endoscopic Index of Severity (UCEIS)的三个组成部分得分,包括出血、糜烂和血管模式。

1.2 数据集

来自四个临床试验的IBD内镜视频数据,包括两个UC试验和两个CD试验。

  • 规模: 超过71M帧,是迄今为止最大的IBD数据集。
  • 内容: 包括视频级别的MES和UCEIS评分标签,以及用于模型预训练的未标注数据。
  • 特点: 数据集涵盖了不同地区、不同严重程度的IBD患者,具有高度的多样性和代表性。

1.3 训练过程

1.3.1 数据分割

将来自两个UC和两个CD临床试验的数据划分为80%的训练集和20%的测试集,用于模型训练和评估。

1.3.2 数据预处理

  • 视频被转换成帧,速率为每秒30帧。
  • 每帧的大小被调整为224x224像素,并使用ImageNet的标准化值进行归一化处理。
  • 原始视频的分辨率变化范围在640x510到1280x960之间。

1.3.3 训练细节

  • ArgesFM在4个A10G GPU上训练了300,000次迭代,使用1个全局裁剪(224x224x3)和8个局部裁剪(96x96x3),批次大小为256。
  • 下流任务中,独立训练了四个下游分类器模型,用于估计MES(ArgesMES)和三个UCEIS(ArgesUCEIS)组成部分得分。
  • 训练了15个周期,学习率为10^-4,权重衰减为10^-5,在1个A10G GPU上进行。
  • 使用多类别交叉熵损失和加权采样来解决数据中的类别不平衡问题。

2 实验和结果

2.1 实验设置

2.1.1数据集

使用来自两个UC和两个CD临床试验的数据集,包括61M帧的训练数据和20%的测试数据。

2.1.2 模型

  • ArgesFM: 使用ViT-Base作为编码器,DINOv2进行预训练。
  • ArgesMES/ArgesUCEIS: 使用Transformer作为下游分类器,包含位置编码和时间注意力机制,以及基于注意力的MIL聚合器。

2.1.3基准模型

  • 基于CNN的WSL模型: WSL(弱监督学习)CDW-CE改进的交叉熵损失函数
  • 基于SSL的模型: EndoFM

2.1.4 评估指标

使用F1分数和加权Cohen Kappa系数评估模型性能。

2.2 实验结果

  • MES评分: ArgesMES在测试集和前瞻性数据上均优于SOTA模型,F1分数提升4.1%。
  • UCEIS评分: ArgesUCEIS在测试集和前瞻性数据上均优于基于CNN的WSL模型,F1分数提升显著。
  • 模型泛化能力: 所有模型在未见过的前瞻性数据上均表现出非劣效的F1分数,证明模型的泛化能力。
  • 模型解释性: 基于注意力的MIL聚合器能够提供“高注意力”区域,便于临床解释和模型质量控制


http://www.ppmy.cn/news/1537164.html

相关文章

React常见优化问题

在React开发中,性能优化是一个重要且持续的过程,旨在提升应用的响应速度和用户体验。以下是一些常见的React优化问题详解,并附上相应的代码示例。 1. 避免不必要的组件渲染 React组件的渲染是由其props或state的变化触发的。但是,…

古典舞在线交流:SpringBoot平台实现与优化

第一章 绪论 1.1研究背景 在当今的社会,可以说是信息技术的发展时代,在社会的方方面面无不涉及到各种信息的处理。信息是人们对客观世界的具体描述,是人们进行交流与联系的重要途径。人类社会就处在一个对信息进行有效合理的加工中。它将促进…

Unite Shanghai 2024 技术专场 | Unity 6及未来规划:Unity引擎和服务路线图

在 2024 年 7 月 24 日的 Unite Shanghai 2024 技术专场演讲中,Unity 高级技术产品经理 Jeff Riesenmy 带来演讲 Unity 6 and Beyond: A Roadmap of Unity Engine and Services。作为本次 Unite 首场专题演讲,他介绍了 Unity 引擎的最新进展及其配套的工…

C语言之扫雷小游戏(完整代码版)

说起扫雷游戏,这应该是很多人童年的回忆吧,中小学电脑课最常玩的必有扫雷游戏,那么大家知道它是如何开发出来的吗,扫雷游戏背后的原理是什么呢?今天就让我们一探究竟! 扫雷游戏介绍 如下图,简…

十、kotlin的协程

协程 基本概念定义组成挂起和恢复结构化并发协程构建器作用域构建器挂起函数阻塞与非阻塞runBlocking全局协程像守护线程 Job的生命周期 常用函数延时和等待启动和取消启动取消 暂停 协程启动调度器启动方式启动模式线程上下文继承的定义继承的公式 协程取消与超时取消挂起点取…

【Linux第一弹】- 基本指令

🌈 个人主页:白子寰 🔥 分类专栏:重生之我在学Linux,C打怪之路,python从入门到精通,数据结构,C语言,C语言题集👈 希望得到您的订阅和支持~ 💡 坚持…

C#中的结构

结构是几个数据组成的数据结构 1)结构是一种值类型,用来封装一组相关的变量 2)想方法传递结构时候,通过值传递的方式进行传递 3)结构的实例化可以不用new 4)结构的构造函数必须带参数 5)不…

HCIP-HarmonyOS Application Developer 习题(四)

1、以下哪个Harmonyos的AI能力可以提供文档翻拍过程中的辅助增强功能? A.文档检测矫正 B.通用文字识别 C.分词 D.图像超分辨率 答案:A 分析:文档校正提供了文档翻拍过程的辅助增强功能,包含两个子功能: 文档检测:能够…