摘要
医学图像分析对临床诊断和治疗至关重要,而多模态大语言模型(MLLMs)的应用日益广泛。然而,先前研究主要集中于2D医学图像,尽管3D图像蕴含更丰富的空间信息,但其分析仍处于探索不足的领域。本文旨在推动基于MLLMs的3D医学图像分析。为此,我们构建了大规模3D多模态医学数据集M3D-Data,包含12万图像-文本对和66.2万指令-响应对,覆盖图像-文本检索、报告生成、视觉问答、定位与分割等多种任务。同时,我们提出了通用型3D医学MLLM模型M3D-LaMed,结合预训练的3D视觉编码器与高效空间池化感知器,实现了对3D医学图像的端到端理解与推理。此外,我们提出了首个综合性3D医学多模态基准M3D-Bench,支持8项任务的自动化评估。实验表明,M3D-LaMed在多个任务中显著优于现有方法。代码、数据与模型已开源:https://github.com/BAAI-DCAI/M3D。
关键词:3D医学图像,多模态大语言模型,医学图像分割,视觉语言定位,跨模态学习
1. 引言
医学场景中广泛存在多模态信息,包括患者信息、诊断报告和多种模态的医学图像。诊断报告与医学图像的结合为模型训练提供了高质量的标注数据。近年来,多模态大语言模型(MLLMs)通过融合视觉模型的感知能力与大语言模型(LLMs)的生成能力,在医学图像分析中展现出显著潜力。然而,现有医学MLLMs主要针对2D图像设计,难以直接应用于包含丰富空间信息的3D医学图像(如CT、MRI)。传统方法需逐层分析切片或完全失效,限制了其临床应用。
本文针对3D医学图像分析,提出以下贡献:
-
M3D-Data:当前最大的公开3D医学多模态数据集,包含12万3D图像-文本对和66.2万指令-响应对;
-
M3D-LaMed:首个支持3D医学图像检索、报告生成、视觉问答、定位与分割的通用型MLLM;
-
M3D-Bench:涵盖8项任务的综合性评估基准,引入基于LLM的自动化评估方法。
2. 相关工作
2.1 医学多模态数据集
现有医学数据集受隐私限制难以大规模构建。PMC-OA通过爬取医学论文构建了160万2D图像-文本对;MedMD整合了公共2D数据集并爬取5.1万3D图像-文本对。本文提出的M3D-Data通过专业医学网站爬取数据,并设计自动化流水线生成指令-响应对,规模远超现有数据集(见表1)。
2.2 医学多模态大语言模型
现有医学MLLMs(如LLaVA-Med、Med-PaLM M)通过微调2D开源模型实现,但无法处理3D图像。RadFM虽支持3D图像,但仅用于文本生成任务。M3D-LaMed首次实现3D医学图像的视觉语言定位与分割,扩展了MLLMs的医学应用边界。
3. 数据集
3.1 图像-文本对数据(M3D-Cap)
从公开医学网站(如Radiopaedia)爬取12万3D CT图像及其专家审核的诊断报告,支持图像-文本检索与报告生成任务。
3.2 指令-响应对数据
-
视觉问答数据(M3D-VQA):利用Qwen-72B大模型从诊断报告生成五类问题(平面、相位、器官、异常类型、位置),经自过滤与专家验证通过率达99.4%(图1a);
-
定位与分割数据(M3D-RefSeg/M3D-Seg):整合25个公共分割数据集(如AbdomenCT-1K、TotalSegmentator),构建图像-掩码-文本三元组,支持定位与分割任务(图1b)。
图1所示。M3D-Data的生成管道。(a)在VQA数据生成管道中,我们采用LLM生成使用基于提示的方法从医疗报告中提取五类问题。随后,我们消除脏数据通过自过滤和LLM和专家设置的测试,通过率达到99.4%。(b)定位和分割数据生成管道,实现了三种可行的方法构建图像-掩码-文本三元组;包括基于标签的指令、基于定义的指令和注释指令。所需的方框坐标For定位任务可以直接从遮罩生成。
图2。M3D-VQA在5个问题类型上的数据统计。What, which和where是三个典型的问题。
在词云中显示5个主题的样本。
4. 方法
4.1 模型架构
图3。概述我们的M3D-LaMed模型。(a)采用交叉模态对比法对三维图像编码器进行预训练
图像-文本对的学习损失,执行图像-文本检索。(b)在M3D-LaMed模型中,三维医学图像
输入预训练的3D图像编码器和有效的3D空间池感知器,以生成精细的嵌入插入LLM。输出[SEG]令牌用作使用提示的3D医学分割的提示模型,从而得到3D掩模输出。与我们的M3D-Data, M3D-LaMed可以利用各种3D医疗任务。
4.2 视觉编码器预训练
4.3 MLLM训练
分两阶段微调:
-
感知器微调:冻结视觉编码器与LLM,仅优化3D感知器;
-
端到端微调:联合优化视觉编码器、感知器、LLM与分割模块,采用LoRA策略高效微调LLM参数。
5. 评估与基准
5.1 M3D-Bench评估任务
-
图像-文本检索:基于召回率(R@1, R@5, R@10)评估跨模态匹配能力;
-
报告生成:结合BLEU、ROUGE等传统指标与LLM语义评分;
-
视觉问答:分闭式(多选)与开放式(生成)两类,计算准确率与文本相似度;
-
定位与分割:通过交并比(IoU)与Dice系数评估定位与分割精度。
5.2 实验结果
-
图像-文本检索:M3D-LaMed在2000测试样本上R@1达19.1%,远超PMC-CLIP(表2);
-
报告生成:MLP感知器版本BERT-Score达88.46%,优于RadFM(表3);
-
视觉问答:闭式任务平均准确率75.78%,开放式任务BERT-Score 91.53%(表4-5);
-
定位与分割:在AbdomenCT-1K上语义分割Dice达81.27%,超越SegVol(表6)。
6. 结论
本文通过构建M3D-Data、提出M3D-LaMed模型与M3D-Bench基准,推动了3D医学图像分析的标准化与自动化。实验表明,M3D-LaMed在多种任务中表现优异,且展现出对分布外问题的强泛化能力。未来工作将扩展至多模态实时交互与临床部署。
5.3 图像-文本检索结果
在M3D-Cap的2000个测试样本中,我们采用R@10指标评估文本到图像(TR)和图像到文本(IR)检索性能。如图5所示(颜色标记表示预测内容与答案的相似性),我们的模型在IR任务中较PMC-CLIP[35]提升54%。即使在最困难设置(2000样本,R@1指标),本文模型在IR任务中的优势仍达17.95%,图像示例显示基于文本检索的图像与正确内容具有高度一致性。
6. 定性分析与案例研究
6.3 报告生成结果
表3比较了RadFM模型与本文模型在使用感知器中线性层(Linear)或MLP时的表现。无论采用传统指标(如BLEU)还是基于Qwen-72B大语言模型的评分,本文模型均优于RadFM。例如:
- 采用MLP时,本文模型在BLEU得分上超越RadFM 2.92%;
- 基于LLM的评分体系下,优势进一步扩大至4.17%。
此外,MLP配置下的模型表现略优于Linear配置。图5进一步展示了本文模型强大的生成能力——生成报告与正确答案在内容上具有显著一致性。
6.4 视觉问答结果
我们在封闭式(多选题)和开放式问答任务上评估M3D-LaMed模型性能:
- 封闭式问答:共5000条题目,涵盖5类主题(平面、相位、器官、异常类型、位置);
- 开放式问答:共13791条自由格式问题。
表4显示,在"相位"分类任务中,本文模型准确率达79.75%,较RadFM[68](28.70%)提升显著。其他任务细节如图表所示。
图表位置标记
- 图5:图像-文本检索与报告生成的定性对比(颜色标记表示相似内容)
- 表3:报告生成任务性能对比(基于Linear/MLP感知器配置)
- 表4:视觉问答任务准确率统计
6.5 定位任务结果
图4展示了三维视觉语言定位任务的评估结果,包含两个子任务:
- REG(指代表达生成):需从输入图像中生成边界框(输出任务)
- REC(指代表达理解):需根据输入边界框定位目标(输入任务)
我们比较了冻结视觉编码器与解锁视觉编码器两种微调策略的结果:
- 解锁视觉编码器显著提升了REG任务性能(例如边界框生成准确率提高29.25%)
- 在REC任务中,解锁策略未取得一致的性能提升
图7展示了模型在三维视觉语言定位任务中的定性能力演示。
6.6 分割任务结果
表6评估了三维分割任务(包括语义分割SS和指代分割RES):
- 通过多模态大模型的理解能力,我们在多个指标上超越SegVol[13]
- 模型还具备SegVol缺乏的指代分割(RES)能力
图7进一步展示了模型在分割任务中的定性表现。
6.7 消融研究
表7在封闭式VQA任务中对四个关键组件进行消融分析:
- 视觉预训练:从头训练(省略预训练)
- 空间池化:直接对序列令牌池化(省略空间池化层)
- MLP:替换为单线性层
- 解锁视觉编码器:微调时冻结视觉编码器
实验表明:
- 所有组件均不可替代
- 以视觉预训练为基础并解锁视觉编码器的策略效果最佳
6.8 面向OOD问题的案例研究
我们通过设计非常规问题(如图8所示)探究模型的泛化能力:
- 胸部CT示例:模型将阑尾识别为最小器官(训练数据未包含此概念)
- 语法异常查询:对"最聪明的器官"回答"大脑"(该短语未在训练中出现)
- 严格约束查询:成功回答单字/三字/五字限制的异常描述查询
- 扩展场景:对手术规划等非训练领域问题生成合理响应
结果表明:
- 模型通过轻量级LoRA微调而非全参数微调,在保持LLM原有知识的同时增强了专业能力
- 这种基于鲁棒LLM基础进行多模态数据微调的方法,为构建医疗领域MLLM提供了必要路径
7. 结论
本研究通过以下贡献推进三维医学影像分析领域的发展:
- 构建首个大规模三维多模态医学数据集M3D-Data,包含12万图像-文本对和66.2万指令-响应对
- 提出通用型三维多模态大语言模型M3D-LaMed,支持图像-文本检索、报告生成、视觉问答、定位和分割任务
- 建立首个三维医学影像分析基准测试集M3D-Bench,涵盖八项核心任务
我们证明了基于LLM构建三维医疗分析模型的有效性:
- 利用LLM的固有泛化能力处理多模态理解
- 通过轻量级微调适配专业医疗任务需求
代码、数据及模型的开源将促进未来在以下方向的研究:
- 跨模态表示学习(融合PET/MRI等多模态数据)
- 轻量化微调策略开发
- 临床部署优化(实时性提升与鲁棒性增强)
图8.分布外问题(OOD)问题的案例研究。我们在OOD对话上测试了M3D-LaMed模型,这意味着所有的问题都与我们的训练数据无关。我们发现M3D-LaMed具有很强的泛化性,可以对OOD问题产生合理的答案,而不是胡言乱语。在每一组对话中,左边的化身和问题来自用户,右边的化身和答案来自M3D-LaMed。
![]() | ![]() |