多模态模型Orpheus,基于病理图像的乳腺癌复发风险智能评估工具|顶刊解读·25-03-17

ops/2025/3/18 6:04:11/

小罗碎碎念

在医学领域,尤其是乳腺癌治疗方面,准确评估患者的复发风险至关重要。对于占乳腺癌很大比例的 HR+/HER2 - 亚型患者,目前主要依靠 Oncotype DX 的复发评分(RS)来指导治疗决策。

然而,该检测存在成本高昂、获取时间长等问题,这使得其在全球范围内的广泛应用受到限制。针对这一现状,来自纪念斯隆・凯特琳癌症中心等机构的研究团队开展了一项重要研究,旨在利用深度学习技术,通过常规的 H&E 染色全切片图像(WSI)和病理报告文本,开发出一种能够准确预测 RS 的多模态模型,以解决当前临床检测中面临的可及性难题。

https://doi.org/10.1038/s41467-025-57283-x

研究团队开发了名为 Orpheus 的多模态深度学习模型,该模型整合了图像和文本数据。在图像分析方面,采用了基于 Transformer 的架构,并结合自监督学习对大量 WSI 进行预训练,从而有效提取组织特征。

论文框架

对于病理报告文本,则利用预训练的语言模型进行分析。通过对三个独立队列(包含 6172 例患者)的验证,Orpheus 在预测高风险患者(RS > 25)时表现出色,其受试者工作特征曲线下面积(AUC)达到了 0.89,显著优于现有的临床病理模型(AUC 为 0.73)。

此外,在 RS≤25 的低风险患者中,Orpheus 预测远处转移的能力(时间依赖性 AUC 为 0.75)也明显优于原始的 RS 检测(AUC 为 0.49)。

这项研究成果具有重要的临床意义和应用价值。对于资源有限的地区,Orpheus 有望作为一种经济、高效的替代方案,无需进行传统的分子检测即可为患者提供精准的风险分层,从而指导化疗决策

在临床实践中,Orpheus 可以作为一种筛选工具,帮助医生更精准地识别高风险患者,避免不必要的化疗,同时为低风险患者制定更个性化的随访策略。从技术角度来看,该研究提出的多模态框架为其他癌症类型的 AI 模型开发提供了可借鉴的范例,未来可进一步结合基因组学、影像学等多维度数据,提升模型的性能和临床实用性。

Orpheus + 模型在 Oncotype DX 检测显示非高风险评分时,通过调整风险评估,对患者辅助化疗给出 “推荐” 或 “建议省略” 的决策,并能识别被 Oncotype DX 判定为低风险患者中的远处转移事件。

此外,模型的可解释性分析揭示了肿瘤微环境(如基质比例、淋巴细胞浸润)与 RS 之间的关联,为深入理解乳腺癌的生物学机制提供了新的视角。目前,该研究已通过伦理审查,并计划在更大规模的队列中进行验证,以推动其临床转化应用。


交流群

欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。

目前小罗全平台关注量52,000+,交流群总成员1100+,大部分来自国内外顶尖院校/医院,期待您的加入!!

由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群


知识星球

如需获取推文中提及的各种资料,欢迎加入我的知识星球!

已订阅星球用户无需二次付费,可以直接获取本篇推送的pdf版本,并且可以在星球中向我提问!


一、文献概述

文章介绍了一种名为Orpheus的多模态深度学习工具,用于从H&E染色的全切片图像中推断乳腺癌的复发风险评分(RS)。该工具旨在解决现有检测方法成本高、耗时长的问题,为临床决策提供更便捷的解决方案。

文章详细描述了Orpheus的开发过程,包括数据收集、模型训练和验证等环节,并展示了其在不同数据集上的表现和临床应用潜力。


1-1:研究背景

  • 乳腺癌亚型:激素受体阳性、HER2阴性(HR+/HER2-)的早期乳腺癌是最常见的亚型,占诊断病例的约70%。
  • 现有检测方法的局限性:Oncotype DX®复发评分(RS)是广泛使用的预测工具,但其成本和检测时间限制了全球应用。
  • 研究目的:开发一种基于常规病理切片的深度学习工具,以更经济、快速地预测复发风险。

1-2:方法与模型

  • 数据收集:研究团队从三个机构收集了6172个病例,包括病理切片、临床数据和基因组数据。
  • 模型开发:Orpheus模型基于Transformer架构,结合自监督学习技术,从病理切片图像中提取特征,并与文本报告等其他模态数据进行融合
  • 训练与验证:模型在MSK-BRCA队列上进行训练和验证,并在IEO-BRCA和MDX-BRCA两个独立队列上进行外部验证。

1-3:结果与表现

  • 高风险病例识别:Orpheus在识别TAILORx高风险病例(RS >25)方面表现出色,AUC达到0.89,优于现有的基于临床病理特征的列线图(AUC 0.73)。
  • 低风险病例预测:在RS ≤25的患者中,Orpheus能更准确地预测远处复发风险,平均时间依赖性AUC为0.75,而Oncotype DX® RS本身为0.49。
  • 多模态融合优势:结合图像和文本报告的多模态模型在预测性能上优于单一模态模型。

1-4:临床应用与意义

  • 辅助治疗决策Orpheus能够帮助医生更精准地识别需要辅助化疗的高风险患者,减少不必要的检测和治疗
  • 个性化随访策略:对于低风险患者,Orpheus可以指导更个性化的随访计划,提高患者管理和资源分配的效率。
  • 潜在扩展应用:Orpheus不仅限于乳腺癌,其多模态学习框架具有广泛适用性,可推广到其他类型癌症的精准医学应用中。

1-5:讨论与展望

  • 成本效益:Orpheus降低了对昂贵基因检测的依赖,具有显著的成本效益优势,尤其在资源有限的地区。
  • 技术优势:多模态数据融合提高了模型的准确性和鲁棒性,展示了人工智能在肿瘤学中的广阔前景。
  • 未来研究方向:进一步验证和优化模型,探索更多临床应用场景,如局部复发预测、临床试验资格评估等。

二、重点关注

2-1:检测技术与分析流程

Early-stage HR+/HER2- breast cancer(早期HR+/HER2-乳腺癌)

  • Resection(切除):早期乳腺癌手术切除流程。
  • Profiling(分析):涉及H&E(苏木精-伊红染色)、IHC(免疫组化)技术,以及Recurrence score(复发评分)检测。
  • Digitization(数字化):包含Scan histology(组织学扫描)和Pathologist report(病理报告)。
  • Modeling(建模):通过切片推断复发评分(Infer recurrence score from slides),并解读肿瘤结构(Interpret tumor architecture)。

2-2:乳腺癌病理分析中的多模态融合技术

image-20250314175112294

病理结果

  • 肿瘤总体分级(Overall Tumor Grade):综合评分7,II/III级(中度分化)。
  • 雌激素受体(Estrogen Receptor):70%的肿瘤细胞核染色阳性。
  • 孕激素受体(Progesterone Receptor):20%的肿瘤细胞核染色阳性。
  • HER2:阴性(1+)。

技术模型

  • CTransPath ,用于处理病理图像。
  • Vision Transformer(视觉Transformer) ,对图像特征进行提取和分析,用于细胞核解读(nuclear interpretation)。
  • Language Transformer(语言Transformer) ,先通过Tokenizer(分词器)处理文本信息,如肿瘤总体情况、分级等。
  • tensor fusion(张量融合) ,将视觉和语言模型提取的特征进行融合,最终输出一个在[0,100]范围内的分数(s) 。

2-3:早期乳腺癌的风险评估和调整流程

image-20250314180950778

HR+/HER2-原发性乳腺癌肿瘤相关的预处理流程

  • 疾病类型:HR+/HER2-原发性肿瘤(HR+/HER2- primary tumor)。
  • 检测技术与步骤
    • 切除(resection):对HR+/HER2-原发性肿瘤进行手术切除。
    • 切片制备(slide preparation):进行常规的苏木精 - 伊红(H&E)染色切片制备。
    • 扫描(scanning):对全切片图像(Whole slide images)进行扫描 。

基于Orpheus模型的风险评估流程

  • 模型:Orpheus,一个AI模型,在召回率为23%时,精度大于90%。
  • 评估结果及后续措施
    • AI预测为低风险(AI - predicted low risk)时,可能会安排基因检测(Order genomic test)。
    • AI预测为高风险(AI - predicted high risk) ,进行下一步操作。
    • AI预测为非高非低风险(AI - predicted neither low nor high risk)时,也会安排基因检测。

乳腺癌风险调整及治疗建议

  • 检测与模型:Oncotype DX检测,用于评估乳腺癌风险。Orpheus+模型,基于检测结果进一步判断。
  • 治疗建议:若Oncotype DX检测显示非高风险,经Orpheus+模型评估。若为低风险,可省略辅助化疗(Omit adjuvant chemotherapy) ;若为高风险,则推荐辅助化疗(Recommend adjuvant chemotherapy)。Orpheus+模型还能识别出Oncotype DX判定为低风险但实际有远处转移风险的情况。

2-4:数据和代码

数据申请流程

image-20250314182307410

代码

  • 多模态建模包Orpheus可在https://github.com/kmboehm/orpheus获取;
  • 全切片图像的预处理管道在https://github.com/KatherLab/STAMP;
  • 从图像回归转录组程序的代码在https://github.com/KatherLab/marugoto/releases/tag/v1.0.0-regression;
  • GAN训练使用https://github.com/POSTECHCVLab/PyTorch-StudioGAN,权重和配置参数在https://www.synapse.org/breastGAN;
  • 基于HoverNet推理计算核特征的代码在https://gist.github.com/kmboehm/aea77f24a9cdbb1f246dacaae812053d。

三、项目复现流程

1. 项目概述

Orpheus 是一个基于 Transformer 的多模态集成框架,结合 H&E染色全切片图像病理报告文本,用于预测癌症的预后/预测评分(如 Oncotype 评分)。

核心功能

  • 提取图像和文本的嵌入特征。

  • 训练视觉、语言和多模态模型。

  • 生成综合预测评分并评估性能。

  • 预印本参考:Oncotype 评分应用研究


2. 环境配置

2.1 提取图像嵌入(STAMP)

步骤

  1. 使用 STAMP 工具(https://github.com/KatherLab/STAMP) 提取全切片图像的 tile-wise 嵌入。
  2. .h5 文件转换为 .pt 文件:
    # 示例代码(需修改路径)
    import torch
    from h5py import File
    import osstamp_dir = 'path/to/stamp/output'
    os.mkdir('pt_files')
    file_names = os.listdir(stamp_dir)  
    for file_name in file_names:with File(os.path.join(stamp_dir, file_name), "r") as f:embeddings = f["feats"][:]embeddings = torch.from_numpy(embeddings).float()file_name_pt = file_name.replace('.h5', '.pt')torch.save(embeddings, os.path.join("pt_files", file_name_pt))
    

2.2 安装依赖项

  • 使用 Conda 安装核心包

    conda install pytorch torchvision torchaudio pytorch-cuda=12.1 einops lightning wandb torchmetrics pandas numpy h5py datasets transformers evaluate scipy scikit-learn seaborn matplotlib statsmodels accelerate tokenizers=0.13.02 -c pytorch -c nvidia -c huggingface -c conda-forge
    
  • 补充安装

    pip install -U 'jsonargparse[signatures]>=4.26.1'
    
  • 注意:根据系统调整 PyTorch 版本(参考 PyTorch 官方指南)。


3. 数据准备

3.1 数据格式要求

CSV 文件列说明

  • case_id:样本唯一标识。
  • score:目标评分(0-1 的浮点数)。
  • input_visual_embedding_path:图像嵌入路径(.pt 文件,无图像填 NONE)。
  • text:病理报告文本(无文本填 NONE)。
  • split:数据集划分(train/val/test)。
  • output_*_embedding_path:输出嵌入路径(按需填写或 NONE)。

3.2 生成示例数据

运行以下脚本生成测试数据:

python orpheus/utils/utils.py
  • 示例数据默认保存在 orpheus/scratch 目录。

4. 模型训练与推理

4.1 训练视觉模型

  1. 修改配置文件
    • 检查 orpheus/vision/config.yaml,调整超参数和路径。
  2. 启动训练
    python orpheus/main.py fit --config orpheus/vision/config.yaml
    
    • 输出:日志在 outputs/training_logs,模型检查点在 outputs/vision-models

4.2 生成视觉嵌入

  1. 禁用 W&B 日志
    wandb disabled
    
  2. 执行预测
    python orpheus/main.py predict --config orpheus/vision/config.yaml --ckpt_path outputs/vision-models/{best_model}.ckpt
    
    • 输出:嵌入文件保存在 preds/visual/{split},路径记录在 CSV 的 output_visual_embedding_path

4.3 训练语言模型

  1. 启动训练
    python orpheus/language/train.py --df_path scratch/example.csv
    
    • 输出:模型检查点在 outputs/text-models

4.4 生成语言嵌入

  1. 执行预测
    python orpheus/language/infer.py --df_path scratch/example.csv --ckpt_path outputs/text-models/{best_model}
    
    • 输出:嵌入文件保存在 preds/linguistic/{split},路径记录在 CSV 的 output_linguistic_embedding_path

4.5 训练多模态模型

  1. 启动训练
    python orpheus/main.py fit --config orpheus/multimodal/config.yaml
    
    • 输出:模型检查点在 outputs/multimodal-models

4.6 生成多模态嵌入

  1. 执行预测
    python orpheus/main.py predict --config orpheus/multimodal/config.yaml --ckpt_path outputs/multimodal-models/{best_model}.ckpt
    
    • 输出:嵌入文件保存在 preds/multimodal/{split},路径记录在 CSV 的 output_multimodal_embedding_path

5. 结果对齐与评估

5.1 对齐多模态评分

python orpheus/multimodal/align.py --df_path scratch/example.csv --img_pred_dir preds/visual --lan_pred_dir preds/linguistic --mult_pred_dir preds/multimodal --output_df_path all_predictions.csv
  • 输出:在 all_predictions.csv 中新增 pred_vis(视觉预测)、pred_lan(语言预测)、pred_mul(多模态预测)列。

5.2 评估模型性能

python eval.py --pred_df_path all_predictions.csv
  • 输出
    • 指标文件:metrics.json(包含 R²、MAE、Pearson 相关系数等)。
    • 图表:保存在 plots/{metric} 目录(如 plots/r2.png)。

6. 关键注意事项

  • 依赖兼容性:确保 PyTorch、CUDA 和 Hugging Face 库版本匹配。
  • 数据路径:所有输入输出路径需在 CSV 中正确填写,避免 NONE 冲突。
  • 模型选择:训练时选择验证损失最低的检查点(如 outputs/vision-models/best_model.ckpt)。
  • W&B 管理:训练时启用日志(wandb login),预测时禁用以节省资源。

通过以上步骤,可完成从数据准备到多模态评分预测的全流程。


科研合作意向统计

为了更好的利用小罗搭建的交流平台,我决定发放一个长期有效的问卷,征集大家在科研方面的任何需求,并且定期整理汇总,方便大家课题合作,招收学生,联系导师……


结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!


http://www.ppmy.cn/ops/166694.html

相关文章

【一起来学kubernetes】15、Job使用详解

一、Job的基本概念二、Job的关键特性三、Job的配置实例四、Job的使用场景五、高级用法1. 手动触发任务2. 任务依赖3. 输出结果捕获 六、Job的创建与管理七、生命周期管理1. 创建与启动2. 查看任务状态3. 处理任务完成4. 失败重试 八、对比其他资源九、注意事项与最佳实践十、常…

Web网页开发——水果忍者

开发一个类似于“水果忍者”(Fruit Ninja)的网页游戏涉及多个方面,包括前端和后端技术。由于“水果忍者”是一个实时互动的游戏,主要侧重于前端技术的使用,尤其是JavaScript和HTML5 Canvas来实现游戏逻辑和图形渲染。以…

作物移栽机器人的结构设计的介绍

作物移栽机器人的结构设计是一个复杂的机械与电子结合的系统工程,单纯用代码来实现整个结构设计是不现实的,因为结构设计更多涉及到机械结构、硬件选型等物理层面的内容。不过,我们可以通过代码来模拟作物移栽机器人的部分功能,例…

LightGBM + TA-Lib A股实战进阶:Optuna调优与Plotly可视化详解

LightGBM TA-Lib A 股实战进阶:Optuna 调优与 Plotly 可视化详解 本文系统讲解了 LightGBM 在 A 股市场的应用,涵盖模型构建、Optuna 参数调优及 Plotly 可视化。通过实战案例,帮助读者全面掌握相关技术,提升在金融数据分析与预测…

Docker 使用指南

Docker 是一种开源的容器化平台,它通过使用容器来进行应用程序的打包、分发和部署。下面是 Docker 的基本概念和优势: 容器化:Docker 使用容器来封装应用程序及其所有依赖项,使其能够在任何环境中运行,并且与底层系统隔…

【在校课堂笔记】Python 第5节课 总结

- 第 81 篇 - Date: 2025 - 03 - 17 Author: 郑龙浩/仟濹 【Python 在校课堂笔记】 文章目录 南山 - Python 第5节课一 range 的各种使用二 上次作业三 斐波那契数列代码1 - 不优化代码2 - 优化版 四 打印图形五 九九乘法表六 百钱百鸡七 作业方法 1方法 2方法 3打印结果 南山…

Webpack 前端性能优化全攻略

文章目录 1. 性能优化全景图1.1 优化维度概览1.2 优化效果指标 2. 构建速度优化2.1 缓存策略2.2 并行处理2.3 减少构建范围 3. 输出质量优化3.1 代码分割3.2 Tree Shaking3.3 压缩优化 4. 运行时性能优化4.1 懒加载4.2 预加载4.3 资源优化 5. 高级优化策略5.1 持久化缓存5.2 模…

基于python的图书馆书目推荐数据分析与可视化-django+spider+vue

开发语言:Python框架:django spiderPython版本:python3.8数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 系统登录 管理员功能界面 用户管理 小说信息管理 图书借阅管理 系统管理 看板…