基于MLLMs的3D医学图像分析(Python代码实现+数据可视化分析)

server/2025/3/4 13:34:53/

摘要

医学图像分析对临床诊断和治疗至关重要,而多模态大语言模型(MLLMs)的应用日益广泛。然而,先前研究主要集中于2D医学图像,尽管3D图像蕴含更丰富的空间信息,但其分析仍处于探索不足的领域。本文旨在推动基于MLLMs的3D医学图像分析。为此,我们构建了大规模3D多模态医学数据集M3D-Data,包含12万图像-文本对和66.2万指令-响应对,覆盖图像-文本检索、报告生成、视觉问答、定位与分割等多种任务。同时,我们提出了通用型3D医学MLLM模型M3D-LaMed,结合预训练的3D视觉编码器与高效空间池化感知器,实现了对3D医学图像的端到端理解与推理。此外,我们提出了首个综合性3D医学多模态基准M3D-Bench,支持8项任务的自动化评估。实验表明,M3D-LaMed在多个任务中显著优于现有方法。代码、数据与模型已开源:https://github.com/BAAI-DCAI/M3D。

关键词:3D医学图像,多模态大语言模型,医学图像分割,视觉语言定位,跨模态学习


1. 引言

医学场景中广泛存在多模态信息,包括患者信息、诊断报告和多种模态的医学图像。诊断报告与医学图像的结合为模型训练提供了高质量的标注数据。近年来,多模态大语言模型(MLLMs)通过融合视觉模型的感知能力与大语言模型(LLMs)的生成能力,在医学图像分析中展现出显著潜力。然而,现有医学MLLMs主要针对2D图像设计,难以直接应用于包含丰富空间信息的3D医学图像(如CT、MRI)。传统方法需逐层分析切片或完全失效,限制了其临床应用。

本文针对3D医学图像分析,提出以下贡献:

  1. M3D-Data:当前最大的公开3D医学多模态数据集,包含12万3D图像-文本对和66.2万指令-响应对;

  2. M3D-LaMed:首个支持3D医学图像检索、报告生成、视觉问答、定位与分割的通用型MLLM;

  3. M3D-Bench:涵盖8项任务的综合性评估基准,引入基于LLM的自动化评估方法。


2. 相关工作

2.1 医学多模态数据集

现有医学数据集受隐私限制难以大规模构建。PMC-OA通过爬取医学论文构建了160万2D图像-文本对;MedMD整合了公共2D数据集并爬取5.1万3D图像-文本对。本文提出的M3D-Data通过专业医学网站爬取数据,并设计自动化流水线生成指令-响应对,规模远超现有数据集(见表1)。

2.2 医学多模态大语言模型

现有医学MLLMs(如LLaVA-Med、Med-PaLM M)通过微调2D开源模型实现,但无法处理3D图像。RadFM虽支持3D图像,但仅用于文本生成任务。M3D-LaMed首次实现3D医学图像的视觉语言定位与分割,扩展了MLLMs的医学应用边界。

In segmentation datasets, the number of texts can be linked to semantic masks.

3. 数据集

3.1 图像-文本对数据(M3D-Cap)

从公开医学网站(如Radiopaedia)爬取12万3D CT图像及其专家审核的诊断报告,支持图像-文本检索与报告生成任务。

3.2 指令-响应对数据

  1. 视觉问答数据(M3D-VQA):利用Qwen-72B大模型从诊断报告生成五类问题(平面、相位、器官、异常类型、位置),经自过滤与专家验证通过率达99.4%(图1a);

  2. 定位与分割数据(M3D-RefSeg/M3D-Seg):整合25个公共分割数据集(如AbdomenCT-1K、TotalSegmentator),构建图像-掩码-文本三元组,支持定位与分割任务(图1b)。

图1所示。M3D-Data的生成管道。(a)在VQA数据生成管道中,我们采用LLM生成使用基于提示的方法从医疗报告中提取五类问题。随后,我们消除脏数据通过自过滤和LLM和专家设置的测试,通过率达到99.4%。(b)定位和分割数据生成管道,实现了三种可行的方法构建图像-掩码-文本三元组;包括基于标签的指令、基于定义的指令和注释指令。所需的方框坐标For定位任务可以直接从遮罩生成。

图2。M3D-VQA在5个问题类型上的数据统计。What, which和where是三个典型的问题。
在词云中显示5个主题的样本。


4. 方法

4.1 模型架构

 

图3。概述我们的M3D-LaMed模型。(a)采用交叉模态对比法对三维图像编码器进行预训练
图像-文本对的学习损失,执行图像-文本检索。(b)在M3D-LaMed模型中,三维医学图像
输入预训练的3D图像编码器和有效的3D空间池感知器,以生成精细的嵌入插入LLM。输出[SEG]令牌用作使用提示的3D医学分割的提示模型,从而得到3D掩模输出。与我们的M3D-Data, M3D-LaMed可以利用各种3D医疗任务。 

4.2 视觉编码器预训练

4.3 MLLM训练

分两阶段微调:

  1. 感知器微调:冻结视觉编码器与LLM,仅优化3D感知器;

  2. 端到端微调:联合优化视觉编码器、感知器、LLM与分割模块,采用LoRA策略高效微调LLM参数。


5. 评估与基准

5.1 M3D-Bench评估任务

  1. 图像-文本检索:基于召回率(R@1, R@5, R@10)评估跨模态匹配能力;

  2. 报告生成:结合BLEU、ROUGE等传统指标与LLM语义评分;

  3. 视觉问答:分闭式(多选)与开放式(生成)两类,计算准确率与文本相似度;

  4. 定位与分割:通过交并比(IoU)与Dice系数评估定位与分割精度。

5.2 实验结果

  1. 图像-文本检索:M3D-LaMed在2000测试样本上R@1达19.1%,远超PMC-CLIP(表2);

  2. 报告生成:MLP感知器版本BERT-Score达88.46%,优于RadFM(表3);

  3. 视觉问答:闭式任务平均准确率75.78%,开放式任务BERT-Score 91.53%(表4-5);

  4. 定位与分割:在AbdomenCT-1K上语义分割Dice达81.27%,超越SegVol(表6)。


6. 结论

本文通过构建M3D-Data、提出M3D-LaMed模型与M3D-Bench基准,推动了3D医学图像分析的标准化与自动化。实验表明,M3D-LaMed在多种任务中表现优异,且展现出对分布外问题的强泛化能力。未来工作将扩展至多模态实时交互与临床部署。

5.3 图像-文本检索结果

M3D-Cap的2000个测试样本中,我们采用R@10指标评估文本到图像(TR)和图像到文本(IR)检索性能。如图5所示(颜色标记表示预测内容与答案的相似性),我们的模型在IR任务中较PMC-CLIP[35]提升54%。即使在最困难设置(2000样本,R@1指标),本文模型在IR任务中的优势仍达17.95%,图像示例显示基于文本检索的图像与正确内容具有高度一致性。


6. 定性分析与案例研究

6.3 报告生成结果

表3比较了RadFM模型与本文模型在使用感知器中线性层(Linear)或MLP时的表现。无论采用传统指标(如BLEU)还是基于Qwen-72B大语言模型的评分,本文模型均优于RadFM。例如:

  • 采用MLP时,本文模型在BLEU得分上超越RadFM 2.92%;
  • 基于LLM的评分体系下,优势进一步扩大至4.17%。
    此外,MLP配置下的模型表现略优于Linear配置。图5进一步展示了本文模型强大的生成能力——生成报告与正确答案在内容上具有显著一致性。

6.4 视觉问答结果

我们在封闭式(多选题)和开放式问答任务上评估M3D-LaMed模型性能:

  • 封闭式问答:共5000条题目,涵盖5类主题(平面、相位、器官、异常类型、位置);
  • 开放式问答:共13791条自由格式问题。
    表4显示,在"相位"分类任务中,本文模型准确率达79.75%,较RadFM[68](28.70%)提升显著。其他任务细节如图表所示。

图表位置标记

  • 图5:图像-文本检索与报告生成的定性对比(颜色标记表示相似内容)
  • 表3:报告生成任务性能对比(基于Linear/MLP感知器配置)
  • 表4:视觉问答任务准确率统计

6.5 定位任务结果

图4展示了三维视觉语言定位任务的评估结果,包含两个子任务:

  • REG(指代表达生成)​:需从输入图像中生成边界框(输出任务)
  • REC(指代表达理解)​:需根据输入边界框定位目标(输入任务)

我们比较了冻结视觉编码器与解锁视觉编码器两种微调策略的结果:

  • 解锁视觉编码器显著提升了REG任务性能(例如边界框生成准确率提高29.25%)
  • 在REC任务中,解锁策略未取得一致的性能提升

图7展示了模型在三维视觉语言定位任务中的定性能力演示。


6.6 分割任务结果

表6评估了三维分割任务(包括语义分割SS和指代分割RES):

  • 通过多模态大模型的理解能力,我们在多个指标上超越SegVol[13]
  • 模型还具备SegVol缺乏的指代分割(RES)能力

图7进一步展示了模型在分割任务中的定性表现。


6.7 消融研究

表7在封闭式VQA任务中对四个关键组件进行消融分析:

  1. 视觉预训练:从头训练(省略预训练)
  2. 空间池化:直接对序列令牌池化(省略空间池化层)
  3. MLP:替换为单线性层
  4. 解锁视觉编码器:微调时冻结视觉编码器

实验表明:

  • 所有组件均不可替代
  • 以视觉预训练为基础并解锁视觉编码器的策略效果最佳

6.8 面向OOD问题的案例研究

我们通过设计非常规问题(如图8所示)探究模型的泛化能力:

  • 胸部CT示例:模型将阑尾识别为最小器官(训练数据未包含此概念)
  • 语法异常查询:对"最聪明的器官"回答"大脑"(该短语未在训练中出现)
  • 严格约束查询:成功回答单字/三字/五字限制的异常描述查询
  • 扩展场景:对手术规划等非训练领域问题生成合理响应

结果表明:

  • 模型通过轻量级LoRA微调而非全参数微调,在保持LLM原有知识的同时增强了专业能力
  • 这种基于鲁棒LLM基础进行多模态数据微调的方法,为构建医疗领域MLLM提供了必要路径

7. 结论

本研究通过以下贡献推进三维医学影像分析领域的发展:

  1. 构建首个大规模三维多模态医学数据集M3D-Data,包含12万图像-文本对和66.2万指令-响应对
  2. 提出通用型三维多模态大语言模型M3D-LaMed,支持图像-文本检索、报告生成、视觉问答、定位和分割任务
  3. 建立首个三维医学影像分析基准测试集M3D-Bench,涵盖八项核心任务

我们证明了基于LLM构建三维医疗分析模型的有效性:

  • 利用LLM的固有泛化能力处理多模态理解
  • 通过轻量级微调适配专业医疗任务需求

代码、数据及模型的开源将促进未来在以下方向的研究:

  • 跨模态表示学习(融合PET/MRI等多模态数据)
  • 轻量化微调策略开发
  • 临床部署优化(实时性提升与鲁棒性增强)

图8.分布外问题(OOD)问题的案例研究。我们在OOD对话上测试了M3D-LaMed模型,这意味着所有的问题都与我们的训练数据无关。我们发现M3D-LaMed具有很强的泛化性,可以对OOD问题产生合理的答案,而不是胡言乱语。在每一组对话中,左边的化身和问题来自用户,右边的化身和答案来自M3D-LaMed。

References
[1] Quantification of uncertainties in biomedical im
age quantification challenge 2021.
https:// qubiq21.grand- challenge.org/ . Ac
cessed: 18 Aug 2023. 21
[2] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc,
Antoine Miech, Iain Barr, Yana Hasson, Karel
Lenc, Arthur Mensch, Katherine Millican, Mal
colm Reynolds, et al. Flamingo: a visual language
model for few-shot learning. Advances in Neural
Information Processing Systems , 35:23716–23736,
2022. 2
[3] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui,
et al. Qwen technical report.
arXiv preprint
arXiv:2309.16609 , 2023. 5 , 22
[4] Satanjeev Banerjee and Alon Lavie. Meteor: An
automatic metric for mt evaluation with improved
correlation with human judgments. In Proceed
ings of the acl workshop on intrinsic and extrin
sic evaluation measures for machine translation
and/or summarization , pages 65–72, 2005. 8
[5] Asma Ben Abacha, Sadid A Hasan, Vivek V Datla,
Dina Demner-Fushman, and Henning Muller. Vqa- ¨
med: Overview of the medical visual question an
swering task at imageclef 2019. In Proceedings of
CLEF (Conference and Labs of the Evaluation Fo
rum) 2019 Working Notes . 9-12 September 2019,

http://www.ppmy.cn/server/172345.html

相关文章

spark 虚拟机基本命令(2)

cp 命令,复制 格式:cp 源文件 目标文件 cp -r 命令 复制目录 格式:cp -r 源文件 目标文件夹 mv 命令,重命名和移动 格式:mv 源文件 目标文件 说明:若源文件和目标文件在同一个目录下,就是重命…

在openshift上部署Gitlab

1.在OperatorHub搜索GitLab 点击install Update approval 改为 Manual 2.Create GitLab kind: GitLab apiVersion: apps.gitlab.com/v1beta1 metadata:name: gitlabnamespace: gitlab-system spec:chart:values:certmanager:install: falseglobal:hosts:domain: example.com…

基于Hadoop的汽车大数据分析系统设计与实现【爬虫、数据预处理、MapReduce、echarts、Flask】

文章目录 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主 项目介绍爬虫数据概览HIve表设计Cars Database Tables 1. cars_data2. annual_sales_volume3. brand_sales_volume4. city_sales_volume5. sales_volume_by_year_and_brand6. sales_distri…

【tplink】校园网接路由器如何单独登录自己的账号,wan-lan和lan-lan区别

老式路由器TPLINK,接入校园网后一人登录,所有人都能通过连接此路由器上网,无法解决遂上网搜索,无果,幸而偶然看到一个帖子说要把信号源网线接入路由器lan口,开启新世界。 一、wan-lan,lan-lan区…

在 Ubuntu 系统 22.04 上安装 Docker

在 Ubuntu 系统 22.04 上安装 Docker 在 Ubuntu 系统 22.04 上安装 Docker1. 更新系统包2. 安装依赖工具3. 添加 Docker 官方 GPG 密钥4. 添加 Docker 的 APT 仓库5. 安装 Docker Engine6. 启动并设置 Docker 服务7. 验证安装8. 配置非 Root 用户权限(可选&#xf…

【现代深度学习技术】卷积神经网络03:填充和步幅

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重…

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_init_cycle 函数 - 详解(9)

详解(9) 获取并存储主机名 if (gethostname(hostname, NGX_MAXHOSTNAMELEN) -1) {ngx_log_error(NGX_LOG_EMERG, log, ngx_errno, "gethostname() failed");ngx_destroy_pool(pool);return NULL;}/* on Linux gethostname() silently truncat…

解决寻找两个正序数组中位数问题:C语言实现与解析

在算法学习和实际编程应用中,处理数组相关的问题是很常见的。其中,寻找两个正序数组的中位数就是一个经典的题目,不仅考验对数组操作的熟悉程度,还涉及到对算法效率的考量。今天,我们就来深入探讨如何使用C语言解决这一…