CancerGPT ：基于大语言模型的罕见癌症药物对协同作用少样本预测研究

今天我们一起来剖析一篇发表于《npj Digital Medicine》的论文——《CancerGPT for few shot drug pair synergy prediction using large pretrained language models》。该研究聚焦于一个极具挑战性的前沿领域：如何利用大语言模型（LLMs）在数据极为稀缺的罕见癌症组织中，实现对药物对协同作用的精准预测。（欢迎关注“赛文AI药学”，获取更多AI与药学的内容）

一、引言：罕见癌症药物对协同作用预测的挑战与机遇

罕见癌症因其发病率低，患者群体小，导致药物研发长期面临实验数据匮乏的严峻挑战。传统的药物对协同作用预测方法，通常依赖于大量的实验数据进行模型训练，在罕见癌症领域难以有效应用。现有研究主要集中于常见癌症类型，或需要高维度的基因组和化学特征数据，这些数据在罕见癌症组织中获取困难且成本高昂。因此，开发针对罕见癌症的低数据依赖型药物对协同作用预测方法，具有重要的临床意义和科学价值。近年来，大语言模型（Large Language Models, LLMs）在自然语言处理领域展现出强大的少样本学习能力，为解决这一难题提供了新的思路。

二、方法：基于 LLMs 的 CancerGPT 预测模型构建

本研究提出了一种新颖的基于 LLMs 的少样本药物对协同作用预测模型——CancerGPT。该模型的核心创新在于将药物对协同作用预测问题转化为自然语言处理任务，利用 LLMs 从海量生物医学文献中学习到的先验知识，弥补结构化数据的不足。CancerGPT 的构建流程主要包括以下几个关键步骤：

表格数据自然语言化： 将药物对、细胞系、组织类型及药物敏感性等表格数据转换为规范化的自然语言文本描述。
任务导向型提示工程： 设计针对药物对协同作用预测任务的特定提示语（Prompt），引导 LLMs 输出二元分类结果（即协同或非协同）。
模型预训练与微调： 选取 GPT-2、GPT-3 及 SciFive 等多个 LLMs 作为基础模型，并利用常见癌症药物对协同作用数据集对 GPT-2 进行预训练，得到 CancerGPT 模型。
少样本微调策略： 针对七种罕见癌症组织类型，分别采用少量样本（k-shot，k 值范围为 0-128）对预训练模型进行微调，以评估模型在数据稀缺条件下的预测性能。

三、实验：模型性能评估与对比分析

在七种罕见癌症组织数据集上，对 CancerGPT 模型及其他基线模型（包括 XGBoost、TabTransformer 及 Collaborative Filtering）进行了系统性的性能评估。实验结果重点关注以下几个方面：

数据分布依赖性分析： 实验结果表明，当存在与目标组织分布一致的充足外部数据时，传统数据驱动模型表现更佳；而在外部数据缺乏或分布不一致时，CancerGPT 表现出显著优势。
不同 LLMs 模型性能比较： 经过针对性微调的 CancerGPT 模型准确率最高；GPT-3 模型展现出较大的性能提升潜力；针对生物医学文献预训练的 SciFive 模型并未在所有数据集上超越 GPT-2。这表明针对特定下游任务进行微调对于提升 LLMs 性能至关重要。
模型参数规模与性能关系： 参数量较小的 CancerGPT (124M) 性能优于参数量更大的 GPT-3 (175B)，表明在特定任务中，模型性能并非单纯依赖于参数规模，精细化的微调策略可能更为关键。
微调策略对比： 全模型参数微调通常优于仅微调最后一层参数，但性能提升幅度有限。这表明 LLMs 的最后一层已经编码了丰富的先验知识，仅通过微调最后一层也能获得较好的性能。

四、讨论：研究结果的意义与启示

本研究提出的 CancerGPT 模型，为罕见癌症药物对协同作用预测提供了一种有效的解决方案。更重要的是，本研究为深入理解 LLMs 在生物医学领域的应用提供了重要的 insights：

归纳推理与演绎推理的结合： 本研究成功地将基于数据的归纳推理（少样本微调）与基于知识的演绎推理（LLMs 预训练知识）相结合，为解决数据稀缺问题提供了新的范式。
LLMs 作为通用学习器的潜力： 实验结果表明，经过适当微调的 LLMs 能够展现出强大的迁移学习能力，有望成为生物医学领域通用的智能学习模型。
轻量级迁移学习的可行性： 仅对 LLMs 的最后一层进行微调即可取得与全模型微调相当的性能，这为高效利用预训练 LLMs 解决下游任务提供了新的途径。

五、未来的研究方向与挑战

尽管本研究取得了积极的成果，但仍存在一些局限性和未来值得探索的方向：

模型泛化能力验证： 需要在更多类型的生物医学预测任务上，进一步验证 LLMs 的泛化能力。
多模态数据融合： 如何将 LLMs 提取的文本信息与基因组、化学特征等结构化数据进行有效融合，是一个重要的研究方向。
模型可解释性提升： 虽然本研究尝试对 LLMs 的推理进行解释，但如何提高 LLMs 的可解释性，避免“黑箱”问题，仍然是一个重要的挑战。

本研究提出的 CancerGPT 模型，为解决罕见癌症药物对协同作用预测难题提供了新的思路和有效工具，并为 LLMs 在生物医学领域的应用提供了重要的理论和实践依据。未来，随着 LLMs 技术的不断发展，其在生物医学领域的应用前景将更加广阔。

往期内容荐读：

数智药学的崛起：人工智能赋能药学新未来

数智药师：AI时代药学服务的引领者

智能决策助力药物安全：大模型在临床处方审核中的突破

数字人技术在药学服务中的应用

药师必备：掌握AI，引领药学服务新时代

LEADER - 大模型蒸馏的药物推荐模型

李新刚：《医院药学的创新引擎：ChatGPT的应用与思考》

ChatGPT 在临床药学中的有效性以及人工智能在药物治疗管理中的作用

评估大语言模型在药物基因组学问答任务中的表现：PGxQA

DDI-GPT：使用知识图谱增强的大模型对药物相互作用进行可解释的预测

生成式AI：药学科普的新引擎

诺奖得主David Baker最新Science论文：药学+AI领域迎来新机遇！

AI与药学：ChatGPT与临床培训——药学博士（Pharm-D）学生的看法、担忧和实践

人工智能大模型在用药处方审核的应用潜力：一项跨 12 个临床专科的前瞻性研究

生成式人工智能在中医药学教育中的应用与挑战

PharmacyGPT: AI赋能精准ICU药物治疗

数智药学：信息药师向AI药师的进化

AI用于研究药物扩大适应症：大模型架起药物分子结构与适应症的桥梁

AI与药学：DrugGPT助力减少英国每年2.37亿次用药错误

AI时代下的家庭药师

AI与药学：用药咨询场景的检索增强AI大模型

AI与药学：生成式人工智能如何帮助构建患者药品说明书？

欢迎关注“赛文AI药学”！

赛文AI药学，致力于探索人工智能在药学场景中的创新与应用。

CancerGPT ：基于大语言模型的罕见癌症药物对协同作用少样本预测研究

相关文章

HTTP详解——HTTP基础

解决 Git SSL 连接错误：OpenSSL SSL_read: SSL_ERROR_SYSCALL, errno

网络安全 | 数据隐私保护：全球趋势与合规要求

CentOS 和 Ubantu你该用哪个

neo4j 安装（提供镜像下载方式

单片机中运行多个定时器

LLM的实验平台有哪些：快速搭建测试大语言模型

知识库搭建：2025年飞书文档替代品