AI在医学领域:基础模型和视觉-语言模型在计算病理学应用概述

      近年来,人工智能(AI)基于方法在计算病理学(CPath)领域中的应用迅速增长,这主要得益于数字幻灯片扫描仪的广泛采用。因此,大规模的全幻灯片图像(Whole Slide Images, WSIs)的整理和注释成为可能,确保了训练这些基于AI的模型所需的充足数据。这些基于AI的模型的目标是自动化和加速CPath的诊断和预后过程。

     CPath面临的挑战:

  • 数据收集挑战:这可能包括获取高质量、大规模的病理学数据的难度,这些数据对于训练有效的AI模型至关重要。
  • 数据注释挑战:病理学图像的注释需要专业知识,而且可能是耗时和昂贵的。这涉及到确保数据准确标记,以便模型可以从中学习。
  • 缺乏多样化数据:在不同的器官、疾病类型、染色技术等方面获取多样化的数据集对于训练鲁棒的模型非常重要。
  • 任务数量庞大:病理学涉及多种不同的诊断和分析任务,模型需要能够适应这些不同的任务。
  • 深度学习架构的挑战:设计和优化深度学习模型以处理病理学图像的复杂性和多样性可能具有挑战性。

应对上述挑战,FMs和VLMs提供自动化工具和加速诊断过程来改变病理学家的诊断工作流程

  • 基础模型(FM):利用自监督学习(SSL)方案学习任务无关的丰富表示空间,可以适应各种下游任务,并具有对组织样本变化的鲁棒性。
  • 视觉-语言模型(VLM):利用自然语言病理报告作为语义信息源,可以显著提高现有模型性能,并生成自然语言形式的预测结果。

1 病理学中的多模态数据集

病理学中的多模态数据集通常包含两种主要模态:视觉(图像)和语言(文本)。这些数据集可以用于训练和评估各种深度学习模型,例如基础模型和视觉-语言模型,以解决计算病理学中的各种任务。

1.1 数据集类型

  • 图像-文本对:包含组织切片图像和与之相关的文本信息,例如病理报告、图像描述或问题/答案对。例如,PathGen-1.6M、Quilt-1M 和 OpenPath 都属于这一类别,它们包含从不同来源获取的图像和文本,例如 TCGA、PubMed、病理教科书和教育视频。
  • WSI VQA:包含全切片图像和与之相关的问题/答案对。例如,PathText 和 WSI-VQA 都属于这一类别,它们使用 TCGA 数据库中的图像和报告来生成问题/答案对,并可以进行多种类型的VQA,例如闭式和开放式。
  • VQA:包含低至中质量的图像和与之相关的问题/答案对。例如,PathMMU 和 PathVQA 都属于这一类别,它们使用病理教科书和 PEIR 数字图书馆中的数据来生成图像和问题/答案对,并可以进行多种类型的VQA,例如闭式和开放式。
  • 指令微调数据集:包含指令和与之相关的答案对,用于提供对话能力。例如,Quilt-Instruct、PathInstruct 和 PathChatInstruct 都属于这一类别,它们使用教育病理学视频来生成指令和答案对,并可以用于微调现有的多模态模型以获得对话能力。

1.2 数据来源

  • PubMed:包含大量的病理图像和文本,是许多数据集的常见数据源。
  • TCGA:包含大量的全切片图像和相应的病理报告,是许多数据集的主要数据源。
  • 内部专有数据集:由医院或研究机构收集和组织。
  • OpenPath:包含来自Twitter帖子和回复的病理图像和文本,是一个独特的数据源。
  • 病理教科书和图谱:是重要的知识来源,可以用于提取图像描述/文本。

1.3 数据标注和预处理

  • 解析:使用解析工具从PubMed或病理教科书中提取图像和文本。
  • 图像分类器:使用图像分类器区分病理图像和非病理图像,并检测和分离子图像。
  • LLM提示:使用LLM提示来格式化和完善图像描述/文本,或根据预定义模板结构化提取的信息。
  • CLIP模型:使用CLIP模型和余弦相似度作为度量标准来分类病理图像和非病理图像。
  • 其他手工算法和启发式方法:例如,路径分割、图像增强、图像去噪等。

1.4 数据集的优缺点

  • 高质量数据集:例如 PathQABench,由专家病理学家进行标注,质量高但规模较小。
  • 大规模数据集:例如 Quilt-1M 和 PathMMU,规模大但可能存在噪声。
  • 特定领域数据集:例如 PathVQA,专注于病理学,但可能缺乏泛化能力。

1.5 数据集的融合

  • 数据集子集:许多数据集包含其他数据集作为子集,例如 Quilt-1M 和 PathMMU。
  • 数据集扩展:例如,PathLAION 是从 LAION-5B 数据集中提取的病理图像子集。

2 基础模型(FM)

基础模型(FM)深度学习领域的一种模型,它通过自监督学习(SSL)方案学习任务无关的丰富表示空间,可以适应各种下游任务,并具有对输入数据的鲁棒性。在计算病理学中,FM 可以用于各种任务,例如癌症检测、肿瘤检测、疾病/癌症/组织/肿瘤/分子亚型、癌症分级、图像/组织/肿瘤/细胞分割、生存预测、文本到图像检索、图像到文本检索、图像到图像检索、图像字幕、模式/组织/图像分类、生物标志物预测/检测/筛选/评分、转移检测、器官移植评估、突变检测/预测、VQA 和报告生成等。

2.1 FM 的特点

  • 自监督学习(SSL):FM 使用 SSL 方案在预训练阶段进行训练,不需要显式标签或注释。
  • 通用表示空间:FM 学习一个通用且丰富的表示空间,可以用于各种下游任务。
  • 大规模数据集:FM 使用包含来自不同器官和组织部位的样本的大规模和多样化的数据集进行训练。
  • 大模型规模:FM 通常具有数百万参数,需要大量的计算资源进行训练。

2.2 FM 的类别

  • 视觉基础模型(VFMs):专注于学习视觉表示空间,例如 Virchow、RudolfV、PLUTO 和 Hibou。
  • 视觉-语言基础模型(VLFMs):学习视觉-语言表示空间,例如 PathChat 和 PathAsst。
  • FM 的框架、基准和适应:例如 eva3 框架、基准分析和适应现有 FM。

2.3 FM 的预训练工作流程和策略

  • 单模态视觉预训练:使用 SSL 方案,例如自蒸馏、对比学习和掩码图像建模(MIM),学习视觉表示空间。
  • 视觉-语言预训练:使用 SSL 方案,例如 CLIP 和 CoCa,学习视觉-语言表示空间。
  • 指令微调:使用指令微调数据集微调预训练模型,以获得对话能力。

2.4 FM 的下游任务

  • 线性探针:在预训练模型之上训练线性分类器/回归器,不需要更新预训练模型的参数。
  • KNN 探针:使用 K 近邻算法利用预训练模型。
  • 微调:在预训练模型之上添加分类器/回归器,并更新预训练模型的参数。
  • 零样本评估:直接使用预训练模型进行下游任务,不需要探针或微调。
  • 少样本评估:预训练模型只看到下游任务数据集的少量示例。
  • 简单样本评估:少样本评估的一种变体,预训练模型只看到下游任务数据集的简单示例。

3 视觉-语言模型(VLM)

视觉-语言模型(VLM)是深度学习领域的一种模型,它结合了视觉和语言信息,以解决计算病理学中的各种任务。VLM 可以根据它们使用语言模态的原因进行分类,例如:

  • 字幕生成:需要视觉和语言模态来生成字幕,例如 TraP-VQA、PathVQA 和 PathM3。
  • VQA:需要视觉和语言模态来回答视觉问题,例如 TraP-VQA、PathVQA 和 PathM3。
  • 语义信息注入:使用语言模态作为语义信息的来源,以增强模型性能,例如 MI-Zero 和 PathChat。

3.1 VLM 的类别

  • VLMs:专注于解决单个或两个视觉-语言任务,例如字幕生成和 VQA。
  • VLFMs:使用 FM 类似的方法进行训练,并适应不同的下游任务,例如 PathGen-CLIP 和 Quilt-Net。

3.2 VLM 的架构组件

  • 预处理:使用 LLM 清洁和优化字幕或生成关于特定类标签或图像中形态或纹理模式的描述。
  • 视觉模块/编码器:将 WSI 片转换为图像嵌入,例如 CNN、ViT 和特殊编码器。
  • 语言编码器:将文本转换为嵌入,例如 BERT、GPT 和 PubMedBERT。
  • 字幕/文本生成模块:生成文本序列,例如 RNN、LSTM、Transformer 解码器和 LLM。
  • 视觉-语言对齐/融合模块:将视觉和语言嵌入组合,例如 CLIP 和自定义方法。

3.3 VLM 的相关工作

  • VLM 攻击:例如 Thota 等人研究的 Projected Gradient Descent (PGD) 攻击。
  • 病理报告处理:例如 Lucassen 等人提出的报告预处理工作流程。
  • 文本引导的扩散模型:用于图像生成,例如 PathLDM。

4 结论

  • VLFMs 将成为主流:结合了 FM 和 VLM 优势的 VLFMs 将在未来占据主导地位。
  • 更多语言先验知识:将更多地使用 LLM 来提供更多语言先验知识,以增强 VLM 的性能。
  • 更强大的模型:将开发更强大的模型来解决更复杂的任务,例如多器官和疾病类型的病理学诊断。

http://www.ppmy.cn/news/1521283.html

相关文章

盘点4款超好用的电脑数据恢复工具

如今我们的生活和工作越来越离不开电脑,因此电脑里面也储存了我们大量的数据:图片,文档,工作资料等。但是这些重要数据却会因为误删除、病毒攻击、系统崩溃等原因遭到丢失。所以数据恢复软件就变得十分的重要,今天&…

零基础转行学网络安全怎么样?

🤟 基于入门网络安全打造的:👉黑客&网络安全入门&进阶学习资源包 如果您对转行学习网络安全感兴趣,以下是一些分析和建议: 一、网络安全行业的前景 网络安全行业作为一个新兴且不断发展的领域,具…

天润融通解开售后维修的成本枷锁,提高维修服务效率

如今,企业客户服务在开展业务咨询和售后受理时,主要方式还是通过电话与在线方式进行。这种方式虽然方便,但是对于一些非常紧急的情况还是显得有些不够。 比如,虽然现在许多企业APP已经实现了一键咨询和一键报修,但当客…

基于JAVA+SpringBoot+Vue的大学校园回忆录系统

基于JAVASpringBootVue的大学校园回忆录系统 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接🍅 …

vscode +STM32 VS CODE EXTENSION

stm32 vs code extersion 1.0.0版本可以直接导入cubeide的工程,之后版本不可以,所以为了省事,使用stm32 vs code extersion 1.0.0插件。 安装完stm32 vs code extersion插件,会默认把相关插件一起安装。但是需要手动安装Ninja&am…

Nginx: TCP建立连接的优化和启用Fast Open功能

TCP 建立连接优化 在三次握手中,相关TCP的内核参数可优化这一过程 net.ipv4.tcp_syn_retries 6net.ipv4.tcp_synack_retries 5net.ipv4.tcp_syncookies 0net.ipv4.tcp_max_syn_backlognet.core.somaxconnnet.core.netdev_max_backlog 1 ) net.ipv4…

HTTP 之 消息结构(二十二)

HTTP(超文本传输协议)是一种用于传输超媒体文档的协议,它定义了客户端和服务器之间请求和响应的消息结构。HTTP消息由一系列标准头部字段、一个空行和可选的消息体组成。 客户端请求消息 请求消息包括以下格式:请求行(…

VR虚拟驾驶未来发展_vr自动驾驶汽车所带来的改变

在自动驾驶汽车的基础上,VR虚拟现实技术的应用也让自动驾驶汽车更加智能化,能够实现更高级的驾驶体验,今天这篇文章就和大家一起探讨一下 VR虚拟驾驶未来发展的趋势,以及虚拟现实自动驾驶汽车所带来的几个改变。 一、VR 虚拟驾驶未…

hadoop的sbin

路径:opt/homebrew/sbin Hadoop 的 sbin 目录下包含了一系列 shell 脚本,用于启动、停止和管理 Hadoop 的各个组件和服务。下面逐一解释这些脚本的作用: 启动和停止脚本 start-all.sh 用于启动所有的 Hadoop 守护进程,包括 Name…

Qt-高DPI显示器

与标准DPI显示器相比,高DPI显示器增加了像素密度。 像素密度以每英寸点数(DPI)或每英寸像素(PPI)来衡量,由显示像素的数量和它们的大小决定。因此,单独的像素数量不足以确定显示器是否属于高dpi类别。 4K显示器有固定的像素数(约8米)&#x…

【时时三省】(C语言基础)指针进阶 例题2

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 第一个arr 数组名相当于首元素地址 因为他没有放到strlen内部 也没有取地址 strlen是找\0 找不到\0就不会停下来 所以它打印的就是随机值 第二个arr0 首元素地址加零还…

C++ 图形框架 Duilib

Duilib是一个开源的DirectUI界面库,遵循BSD协议,可以免费用于商业项目。它具有以下特点: 简约易扩展的设计:Duilib遵循简洁、清晰的设计理念,使得用户界面更加直观、易于使用。同时,它也提供了丰富的扩展接…

镭速传输助力汽车行业打造安全高效的大文件传输新纪元

在数字化浪潮的推动下,汽车行业正迈向智能化和互联互通的新阶段,这对数据传输和管理提出了更高标准。大文件的快速传输、长距离传输的效率、跨国数据的合规性与安全性、以及数据脱敏需求等,成为汽车企业数字化转型中必须面对的挑战。 传输效率…

达梦数据库-DM8 企业版安装指南

一、DM8 企业版简介 达梦数据库(DM8)是中国自主研发的一款高性能数据库管理系统,广泛应用于企业级应用场景。DM8 企业版具备高可用性、强一致性和高性能等特点,支持多种操作系统和硬件平台。本文将详细介绍如何在 Kylin 操作系统上安装达梦数据库 DM8 企业版。 二、安装前…

Linux系统使用Docker compose搭建开源文档系统Paperless-ngx

文章目录 前言1. 部署Paperless-ngx2. 本地访问Paperless-ngx3. Linux安装Cpolar4. 配置公网地址5. 远程访问6. 固定Cpolar公网地址7. 固定地址访问 前言 本文主要介绍如何在Linux系统本地部署Paperless-ngx开源文档管理系统,并结合cpolar内网穿透工具解决本地部署…

过滤器Filter(JavaEE有三大组件: servlet filter linstener)

目录 1、概念 2、过滤器作用 3、编写过滤器 4 过滤器链和优先级 4.1 过滤器链 2 过滤器优先级 5、过滤器应用:全局编码加身份认证拦截器 1、概念 过滤器(Filter)是处于客户端与服务器目标资源之间的一道过滤技术。 2、过滤器作用 执行顺序在Servl…

macos系统内置php文件列表 系统自带php卸载方法

在macos系统中, 自带已经安装了php, 根据不同的macos版本php的版本号可能不同, 我们可以通过 which php 命令来查看mac自带的默认php安装路径, 不过注意这个只是php的执行文件路径. 系统自带php文件列表 一下就是macos默认安装的php文件列表. macos 10.15内置PHP文件列表配置…

WebRTC协议下的视频汇聚融合技术:EasyCVR视频技术构建高效视频交互体验

视频汇聚融合技术是指将来自不同源、不同格式、不同网络环境的视频流进行集中处理、整合和展示的技术。随着视频监控、远程会议、在线教育、直播娱乐等领域的快速发展,视频数据的规模急剧增长,对视频处理能力和效率提出了更高要求。视频汇聚融合技术通过…

解决code ERESOLVE,pm ERR! ERESOLVE unable to resolve dependency tre问题

目录 一、错误原因二、解决方法 一、错误原因 “npm ERR! code ERESOLVE” 错误通常发生在执行 npm install 或者 npm ci 命令时,表示在解析依赖时发生了问题。可能的原因包括: 依赖版本冲突:不同依赖包要求使用相同的包的不同版本&#xf…

【CSS】background样式没有生效

1. 问题背景 设置了background-size:"100% 100%" 没有生效。 background: url(${this.getUrl(this.state.scenelist.length > 1 ? item.bannerLongUrl : item.bannerShortUrl)}),\ background-size:"100% 100%"2.分析 2.1 结论 由于图片需要远程获…