小罗碎碎念
在医学领域,尤其是乳腺癌治疗方面,准确评估患者的复发风险至关重要。对于占乳腺癌很大比例的 HR+/HER2 - 亚型患者,目前主要依靠 Oncotype DX 的复发评分(RS)来指导治疗决策。
然而,该检测存在成本高昂、获取时间长等问题,这使得其在全球范围内的广泛应用受到限制。针对这一现状,来自纪念斯隆・凯特琳癌症中心等机构的研究团队开展了一项重要研究,旨在利用深度学习技术,通过常规的 H&E 染色全切片图像(WSI)和病理报告文本,开发出一种能够准确预测 RS 的多模态模型,以解决当前临床检测中面临的可及性难题。
研究团队开发了名为 Orpheus 的多模态深度学习模型,该模型整合了图像和文本数据。在图像分析方面,采用了基于 Transformer 的架构,并结合自监督学习对大量 WSI 进行预训练,从而有效提取组织特征。
对于病理报告文本,则利用预训练的语言模型进行分析。通过对三个独立队列(包含 6172 例患者)的验证,Orpheus 在预测高风险患者(RS > 25)时表现出色,其受试者工作特征曲线下面积(AUC)达到了 0.89,显著优于现有的临床病理模型(AUC 为 0.73)。
此外,在 RS≤25 的低风险患者中,Orpheus 预测远处转移的能力(时间依赖性 AUC 为 0.75)也明显优于原始的 RS 检测(AUC 为 0.49)。
这项研究成果具有重要的临床意义和应用价值。对于资源有限的地区,Orpheus 有望作为一种经济、高效的替代方案,无需进行传统的分子检测即可为患者提供精准的风险分层,从而指导化疗决策。
在临床实践中,Orpheus 可以作为一种筛选工具,帮助医生更精准地识别高风险患者,避免不必要的化疗,同时为低风险患者制定更个性化的随访策略。从技术角度来看,该研究提出的多模态框架为其他癌症类型的 AI 模型开发提供了可借鉴的范例,未来可进一步结合基因组学、影像学等多维度数据,提升模型的性能和临床实用性。
此外,模型的可解释性分析揭示了肿瘤微环境(如基质比例、淋巴细胞浸润)与 RS 之间的关联,为深入理解乳腺癌的生物学机制提供了新的视角。目前,该研究已通过伦理审查,并计划在更大规模的队列中进行验证,以推动其临床转化应用。
交流群
欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。
目前小罗全平台关注量52,000+
,交流群总成员1100+
,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业
,即可邀您入群。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
已订阅星球用户无需二次付费,可以直接获取本篇推送的pdf版本,并且可以在星球中向我提问!
一、文献概述
文章介绍了一种名为Orpheus的多模态深度学习工具,用于从H&E染色的全切片图像中推断乳腺癌的复发风险评分(RS)。该工具旨在解决现有检测方法成本高、耗时长的问题,为临床决策提供更便捷的解决方案。
文章详细描述了Orpheus的开发过程,包括数据收集、模型训练和验证等环节,并展示了其在不同数据集上的表现和临床应用潜力。
1-1:研究背景
- 乳腺癌亚型:激素受体阳性、HER2阴性(HR+/HER2-)的早期乳腺癌是最常见的亚型,占诊断病例的约70%。
- 现有检测方法的局限性:Oncotype DX®复发评分(RS)是广泛使用的预测工具,但其成本和检测时间限制了全球应用。
- 研究目的:开发一种基于常规病理切片的深度学习工具,以更经济、快速地预测复发风险。
1-2:方法与模型
- 数据收集:研究团队从三个机构收集了6172个病例,包括病理切片、临床数据和基因组数据。
- 模型开发:Orpheus模型基于Transformer架构,结合自监督学习技术,从病理切片图像中提取特征,并与文本报告等其他模态数据进行融合。
- 训练与验证:模型在MSK-BRCA队列上进行训练和验证,并在IEO-BRCA和MDX-BRCA两个独立队列上进行外部验证。
1-3:结果与表现
- 高风险病例识别:Orpheus在识别TAILORx高风险病例(RS >25)方面表现出色,AUC达到0.89,优于现有的基于临床病理特征的列线图(AUC 0.73)。
- 低风险病例预测:在RS ≤25的患者中,Orpheus能更准确地预测远处复发风险,平均时间依赖性AUC为0.75,而Oncotype DX® RS本身为0.49。
- 多模态融合优势:结合图像和文本报告的多模态模型在预测性能上优于单一模态模型。
1-4:临床应用与意义
- 辅助治疗决策:Orpheus能够帮助医生更精准地识别需要辅助化疗的高风险患者,减少不必要的检测和治疗。
- 个性化随访策略:对于低风险患者,Orpheus可以指导更个性化的随访计划,提高患者管理和资源分配的效率。
- 潜在扩展应用:Orpheus不仅限于乳腺癌,其多模态学习框架具有广泛适用性,可推广到其他类型癌症的精准医学应用中。
1-5:讨论与展望
- 成本效益:Orpheus降低了对昂贵基因检测的依赖,具有显著的成本效益优势,尤其在资源有限的地区。
- 技术优势:多模态数据融合提高了模型的准确性和鲁棒性,展示了人工智能在肿瘤学中的广阔前景。
- 未来研究方向:进一步验证和优化模型,探索更多临床应用场景,如局部复发预测、临床试验资格评估等。
二、重点关注
2-1:检测技术与分析流程
- Resection(切除):早期乳腺癌手术切除流程。
- Profiling(分析):涉及H&E(苏木精-伊红染色)、IHC(免疫组化)技术,以及Recurrence score(复发评分)检测。
- Digitization(数字化):包含Scan histology(组织学扫描)和Pathologist report(病理报告)。
- Modeling(建模):通过切片推断复发评分(Infer recurrence score from slides),并解读肿瘤结构(Interpret tumor architecture)。
2-2:乳腺癌病理分析中的多模态融合技术
病理结果
- 肿瘤总体分级(Overall Tumor Grade):综合评分7,II/III级(中度分化)。
- 雌激素受体(Estrogen Receptor):70%的肿瘤细胞核染色阳性。
- 孕激素受体(Progesterone Receptor):20%的肿瘤细胞核染色阳性。
- HER2:阴性(1+)。
技术模型
- CTransPath ,用于处理病理图像。
- Vision Transformer(视觉Transformer) ,对图像特征进行提取和分析,用于细胞核解读(nuclear interpretation)。
- Language Transformer(语言Transformer) ,先通过Tokenizer(分词器)处理文本信息,如肿瘤总体情况、分级等。
- tensor fusion(张量融合) ,将视觉和语言模型提取的特征进行融合,最终输出一个在[0,100]范围内的分数(s) 。
2-3:早期乳腺癌的风险评估和调整流程
HR+/HER2-原发性乳腺癌肿瘤相关的预处理流程
- 疾病类型:HR+/HER2-原发性肿瘤(HR+/HER2- primary tumor)。
- 检测技术与步骤:
- 切除(resection):对HR+/HER2-原发性肿瘤进行手术切除。
- 切片制备(slide preparation):进行常规的苏木精 - 伊红(H&E)染色切片制备。
- 扫描(scanning):对全切片图像(Whole slide images)进行扫描 。
基于Orpheus模型的风险评估流程
- 模型:Orpheus,一个AI模型,在召回率为23%时,精度大于90%。
- 评估结果及后续措施:
- AI预测为低风险(AI - predicted low risk)时,可能会安排基因检测(Order genomic test)。
- AI预测为高风险(AI - predicted high risk) ,进行下一步操作。
- AI预测为非高非低风险(AI - predicted neither low nor high risk)时,也会安排基因检测。
乳腺癌风险调整及治疗建议
- 检测与模型:Oncotype DX检测,用于评估乳腺癌风险。Orpheus+模型,基于检测结果进一步判断。
- 治疗建议:若Oncotype DX检测显示非高风险,经Orpheus+模型评估。若为低风险,可省略辅助化疗(Omit adjuvant chemotherapy) ;若为高风险,则推荐辅助化疗(Recommend adjuvant chemotherapy)。Orpheus+模型还能识别出Oncotype DX判定为低风险但实际有远处转移风险的情况。
2-4:数据和代码
数据申请流程
代码
- 多模态建模包Orpheus可在https://github.com/kmboehm/orpheus获取;
- 全切片图像的预处理管道在https://github.com/KatherLab/STAMP;
- 从图像回归转录组程序的代码在https://github.com/KatherLab/marugoto/releases/tag/v1.0.0-regression;
- GAN训练使用https://github.com/POSTECHCVLab/PyTorch-StudioGAN,权重和配置参数在https://www.synapse.org/breastGAN;
- 基于HoverNet推理计算核特征的代码在https://gist.github.com/kmboehm/aea77f24a9cdbb1f246dacaae812053d。
三、项目复现流程
1. 项目概述
Orpheus 是一个基于 Transformer 的多模态集成框架,结合 H&E染色全切片图像 和 病理报告文本,用于预测癌症的预后/预测评分(如 Oncotype 评分)。
核心功能
-
提取图像和文本的嵌入特征。
-
训练视觉、语言和多模态模型。
-
生成综合预测评分并评估性能。
-
预印本参考:Oncotype 评分应用研究
2. 环境配置
2.1 提取图像嵌入(STAMP)
步骤
- 使用 STAMP 工具(https://github.com/KatherLab/STAMP) 提取全切片图像的 tile-wise 嵌入。
- 将
.h5
文件转换为.pt
文件:# 示例代码(需修改路径) import torch from h5py import File import osstamp_dir = 'path/to/stamp/output' os.mkdir('pt_files') file_names = os.listdir(stamp_dir) for file_name in file_names:with File(os.path.join(stamp_dir, file_name), "r") as f:embeddings = f["feats"][:]embeddings = torch.from_numpy(embeddings).float()file_name_pt = file_name.replace('.h5', '.pt')torch.save(embeddings, os.path.join("pt_files", file_name_pt))
2.2 安装依赖项
-
使用 Conda 安装核心包:
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 einops lightning wandb torchmetrics pandas numpy h5py datasets transformers evaluate scipy scikit-learn seaborn matplotlib statsmodels accelerate tokenizers=0.13.02 -c pytorch -c nvidia -c huggingface -c conda-forge
-
补充安装:
pip install -U 'jsonargparse[signatures]>=4.26.1'
-
注意:根据系统调整 PyTorch 版本(参考 PyTorch 官方指南)。
3. 数据准备
3.1 数据格式要求
CSV 文件列说明
case_id
:样本唯一标识。score
:目标评分(0-1 的浮点数)。input_visual_embedding_path
:图像嵌入路径(.pt
文件,无图像填NONE
)。text
:病理报告文本(无文本填NONE
)。split
:数据集划分(train
/val
/test
)。output_*_embedding_path
:输出嵌入路径(按需填写或NONE
)。
3.2 生成示例数据
运行以下脚本生成测试数据:
python orpheus/utils/utils.py
- 示例数据默认保存在
orpheus/scratch
目录。
4. 模型训练与推理
4.1 训练视觉模型
- 修改配置文件:
- 检查
orpheus/vision/config.yaml
,调整超参数和路径。
- 检查
- 启动训练:
python orpheus/main.py fit --config orpheus/vision/config.yaml
- 输出:日志在
outputs/training_logs
,模型检查点在outputs/vision-models
。
- 输出:日志在
4.2 生成视觉嵌入
- 禁用 W&B 日志:
wandb disabled
- 执行预测:
python orpheus/main.py predict --config orpheus/vision/config.yaml --ckpt_path outputs/vision-models/{best_model}.ckpt
- 输出:嵌入文件保存在
preds/visual/{split}
,路径记录在 CSV 的output_visual_embedding_path
。
- 输出:嵌入文件保存在
4.3 训练语言模型
- 启动训练:
python orpheus/language/train.py --df_path scratch/example.csv
- 输出:模型检查点在
outputs/text-models
。
- 输出:模型检查点在
4.4 生成语言嵌入
- 执行预测:
python orpheus/language/infer.py --df_path scratch/example.csv --ckpt_path outputs/text-models/{best_model}
- 输出:嵌入文件保存在
preds/linguistic/{split}
,路径记录在 CSV 的output_linguistic_embedding_path
。
- 输出:嵌入文件保存在
4.5 训练多模态模型
- 启动训练:
python orpheus/main.py fit --config orpheus/multimodal/config.yaml
- 输出:模型检查点在
outputs/multimodal-models
。
- 输出:模型检查点在
4.6 生成多模态嵌入
- 执行预测:
python orpheus/main.py predict --config orpheus/multimodal/config.yaml --ckpt_path outputs/multimodal-models/{best_model}.ckpt
- 输出:嵌入文件保存在
preds/multimodal/{split}
,路径记录在 CSV 的output_multimodal_embedding_path
。
- 输出:嵌入文件保存在
5. 结果对齐与评估
5.1 对齐多模态评分
python orpheus/multimodal/align.py --df_path scratch/example.csv --img_pred_dir preds/visual --lan_pred_dir preds/linguistic --mult_pred_dir preds/multimodal --output_df_path all_predictions.csv
- 输出:在
all_predictions.csv
中新增pred_vis
(视觉预测)、pred_lan
(语言预测)、pred_mul
(多模态预测)列。
5.2 评估模型性能
python eval.py --pred_df_path all_predictions.csv
- 输出:
- 指标文件:
metrics.json
(包含 R²、MAE、Pearson 相关系数等)。 - 图表:保存在
plots/{metric}
目录(如plots/r2.png
)。
- 指标文件:
6. 关键注意事项
- 依赖兼容性:确保 PyTorch、CUDA 和 Hugging Face 库版本匹配。
- 数据路径:所有输入输出路径需在 CSV 中正确填写,避免
NONE
冲突。 - 模型选择:训练时选择验证损失最低的检查点(如
outputs/vision-models/best_model.ckpt
)。 - W&B 管理:训练时启用日志(
wandb login
),预测时禁用以节省资源。
通过以上步骤,可完成从数据准备到多模态评分预测的全流程。
科研合作意向统计
为了更好的利用小罗搭建的交流平台,我决定发放一个长期有效的问卷,征集大家在科研方面的任何需求,并且定期整理汇总,方便大家课题合作,招收学生,联系导师……
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!