AI在医疗领域:MEDIC 全面评估大模型在医疗领域的应用

        随着医疗领域中大型语言模型(LLMs)的迅猛发展,公众对于其评估的需求日益增长,要求超越传统的USMLE等基准测试,以更全面地反映模型在现实世界中的应用性能。尽管现实世界的评估对于衡量模型的实用性具有重要价值,但由于其往往滞后于LLMs的技术进步,可能导致在模型部署时评估结果已不再适用。

     本文提出了MEDIC框架,该框架从五个关键临床能力维度对LLMs进行全面评估:医学推理、伦理与偏见、数据与语言理解、情境学习以及临床安全。MEDIC的核心创新在于其独特的交叉审查机制,能够在无需参考输出的情况下,量化评估LLMs在内容覆盖率和幻觉检测等方面的表现

1 MEDIC 框架

1.1 五个关键维度

  • 医学推理:评估LLMs在临床决策过程中的能力,包括模型解释医学数据、制定鉴别诊断、推荐适当测试或治疗以及为其结论提供基于证据的合理化建议的能力。
  • 伦理和偏见问题:解决医疗AI中的公平性、公正性和伦理考虑的关键问题,评估LLM在不同患者人群中的表现,检查与种族、性别、年龄、社会经济地位或其他人口统计因素相关的潜在偏见。
  • 数据和语言理解:评估LLM解释和处理各种类型的医学数据和语言的能力,包括理解医学术语、临床行话、解读临床笔记、实验室测试报告和成像结果。
  • 情境学习:检查模型的适应性和在给定临床情境中学习和应用新信息的能力,评估模型如何将新指南、最新研究发现或患者特定信息纳入其推理过程。
  • 临床安全和风险评估:专注于LLM在临床环境中优先考虑患者安全和管理潜在风险的能力,评估模型识别和标记潜在医疗错误、药物相互作用或禁忌症的能力。

1.2 评估任务

MEDIC 框架包含多种评估任务,以评估 LLMs 在不同维度上的表现:

  • 封闭式问题: 使用医学知识测试数据集评估 LLMs 的知识广度和准确性。
  • 开放式问题: 使用临床问答数据集评估 LLMs 的推理能力、解释能力和安全性。
  • 文本摘要: 使用临床试验数据集和问题总结数据集评估 LLMs 的信息提取和总结能力。
  • 结构化响应: 使用临床笔记数据集评估 LLMs 生成结构化医疗文档的能力。

1.3 评估指标

MEDIC 框架使用多种评估指标来量化 LLMs 的表现,包括:

  • 准确性: LLMs 答案与正确答案的一致性程度。
  • 相关性: LLMs 答案与问题内容的相关性程度。
  • BERTScore: 衡量生成文本与参考文本之间的语义相似性。
  • 覆盖率: LLMs 答案中包含的原始文本信息比例。
  • 毒性: LLMs 答案中包含有害内容的程度。

1.4 评估方法

        本文引入了一种新颖的“交叉审查”框架。“交叉审查”框架采用三步评估方法首先从原始文档和(生成的)摘要中生成封闭式问答对。然后,执行“交叉审查”步骤,将文档/摘要派生的问题用于摘要/文档文本,并预测答案。最后,将交叉审查步骤中预测的答案与相关问题的真实答案进行比较,并从中计算出四个关键分数:一致性、覆盖率、符合性和简洁性。

  • 一致性(Consistency):这个分数衡量摘要中的事实信息的准确性与原文本的对比。它是通过计算摘要派生的问题在基于文档内容预测时得到“不知道”(IDK)回答的百分比来确定的,一致性越高,表示摘要中的事实错误或虚构内容越少。
  • 覆盖率(Coverage):这个分数衡量摘要全面覆盖原文本内容的程度。它通过计算文档生成的问题在基于摘要内容预测时得到“不知道”回答的百分比来确定,覆盖率越高,表示摘要捕捉到的原文本细节越多。
  • 符合性(Conformity):也称为非矛盾分数,这个指标评估摘要是否避免与文档相矛盾。它是通过识别摘要答案为“否”而文档答案为“是”,或反之亦然的问题的百分比来计算的,符合性越高,表示摘要与文档之间的一致性越高。
  • 简洁性(Conciseness):反映摘要的简洁性,这个分数通过从原始文档到摘要的词级标记数量减少来计算。简洁性分数越高,表示摘要更加简洁,有效地捕捉了原始内容的精髓,没有冗余。

2 评估任务

2.1 封闭式问题 (Closed-Ended Questions)

评估 LLMs 的医学知识广度和准确性。

2.1.1 数据集

  • MedQA: 类似于 USMLE 的问题,涵盖各种医学主题。
  • MMLU 和 MMLU-Pro: 包含医学相关子集,难度从基础到高级专业水平。
  • MedMCQA: 用于医学入学考试的大规模选择题答案数据集。
  • PubMedQA: 来自 PubMed 摘要的数据库,测试 LLMs 的生物医学文献理解能力。
  • ToxiGen: 评估 LLMs 避免有害内容的能力。

2.1.2 评估指标

  • 准确率 (Accuracy): 衡量模型在回答问题时正确答案的比例。例如,在 MedQA、MMLU、MedMCQA 等数据集上,模型需要回答多项选择题,准确率越高越好。
  • MMLU 和 MMLU-Pro: 衡量模型在医学领域知识理解方面的能力,涵盖从基础到高级的专业水平。
  • MedMCQA: 衡量模型在理解医学概念和推理方面的能力,类似于医学入学考试。
  • PubMedQA: 衡量模型在理解生物医学文献并进行问题回答方面的能力。
  • ToxiGen: 衡量模型避免产生有害内容的能力,例如识别药物相互作用或禁忌症。

2.1.3 方法

使用 LLM-as-a-Judge 技术,评估 LLMs 对问题的回答概率。

2.2 开放式问题 (Open-Ended Questions)

评估 LLMs 的推理能力、解释能力和安全性。

2.2.1 数据集

  • MedicationQA: 实际消费者关于药物和药物的健康问题数据集。
  • HealthSearchQA: Google 发布的消费者问题数据集。
  • ExpertQA: 高质量的医学问题数据集。

2.2.2 评估指标

准确率、相关性、BERTScore 等。

2.2.3 方法

2.2.3.1 绝对评分

使用 Prometheus-2 模型对每个回答进行评估,根据 12 个维度进行评分,包括:

  • 事实准确性: 答案是否基于事实,信息是否准确且更新。
  • 与临床指南的一致性: 答案是否符合现有的医疗指南和标准实践。
  • 诊断和治疗准确性: 答案是否提供准确的诊断信息和建议的治疗方案。
  • 全面性: 答案是否涵盖了所有重要的方面,没有遗漏关键信息。
  • 上下文相关性: 答案是否针对提出的问题。
  • 可行性和实用性: 答案中的建议是否在实践中可行。
  • 保密性和偏见: 答案是否维护患者隐私,是否存在偏见。
  • 患者安全: 答案是否建议寻求专业医疗建议,避免有害做法。
  • 风险缓解: 答案是否识别和解决潜在风险。
  • 语言清晰度: 答案是否清晰易懂,避免使用不必要的术语。
  • 专业语气: 答案是否使用适当的临床沟通语言。
  • 逻辑结构: 答案是否结构清晰,逻辑合理。

2.2.3.2 成对比较

使用 Prometheus-2 模型对两个模型生成的答案进行比较,根据 12 个维度进行评分,并根据胜率计算 Elo 分数。

2.3 文本摘要 (Text Summarization)

评估 LLMs 的信息提取和总结能力。

2.3.1 数据集

  • Clinical Trial: 来自 ClinicalTrials.gov 的临床试验协议数据集。
  • Problem Summarization: 来自内部医学医生在常规临床实践中生成的诊断问题列表数据集。

2.3.2 评估指标

  • ROUGE: 衡量生成摘要与参考摘要之间的词汇相似度。
  • BLEU: 衡量生成摘要与参考摘要之间的句子相似度。
  • BERTScore: 衡量生成摘要与参考摘要之间的语义相似度。
  • 4C 分数 (4C Scores): 一致性 (Consistency)、覆盖率 (Coverage)、一致性 (Conformity)、简洁性 (Conciseness)

2.3.3 方法

交叉检验框架: 生成问题-答案对,并使用这些问题来评估文本的完整性和准确性。

2.4 结构化响应 (Structured Responses)

评估 LLMs 生成结构化医疗文档的能力。

2.4.1 数据集

  • ACI Bench: 用于基准测试从医生-患者对话生成临床笔记的数据集。
  • SOAP Note: 用于生成 SOAP 格式临床笔记的数据集。

2.4.2 评估指标

 ROUGE、BERTScore、4C 分数 (一致性、覆盖率、一致性、简洁性) 等。

2.4.3 方法

使用交叉检验框架,评估 LLMs 生成的文本与原始文本的一致性和完整性。

3 结论

  • 模型性能与规模的关系:随着模型规模的增加,其在大多数基准测试中的性能也随之提高。这与语言模型扩展的一般趋势一致。
  • 安全性能:尽管较大的模型在大多数任务上表现更好,但在专门针对安全性的基准数据集(ToxiGen)上,性能提升并不明显。这表明在安全相关的任务上,较小的模型也能够提供可接受的性能。
  • 置信区间:图中的置信区间显示了评估结果的变异性。较小的置信区间意味着结果更加稳定和可靠。
  • 数据集的挑战性:不同的数据集可能对模型提出了不同的挑战。例如,USMLE数据集可能更侧重于基础医学知识,而ToxiGen则专注于评估模型避免生成有害内容的能力。

3.1 封闭式问题 (Closed-Ended Questions)

  • 模型规模: 大型模型在大多数任务中表现出色,这符合语言模型缩放的趋势。然而,在安全相关的基准数据集 (ToxiGen) 上,这种趋势并不明显。
  • 专业指令模型: 针对医学领域进行微调的指令模型在基准测试中表现出色,这表明特定领域的指令和调整可以增强模型的知识库和推理能力。
  • 基准测试饱和: 在某些基准测试 (如 USMLE) 中,模型获得了近乎完美的成绩,这表明这些测试可能已经达到饱和,需要更全面和更具挑战性的评估方法。

3.2 开放式问题 (Open-Ended Questions)

  • 大型模型不一定表现更好: 在开放式临床问题生成任务中,大型模型并不一定总是优于小型模型。例如,GPT-4 在风险缓解和全面覆盖方面表现不佳。
  • 模型差异: 不同的模型在安全、清晰度和全面性等方面表现出不同的优势和劣势。
  • 模型评估一致性: Prometheus-2 作为模型评估者,与临床专家的评估结果高度一致,这表明该框架在评估 LLMs 的开放式问题生成能力方面是可靠的。
  • 成对比较: 小型模型在某些情况下 (如拒绝回答问题) 可能比大型模型表现更好,这表明需要根据具体场景进行模型选择。

3.3 医学安全评估 (Medical Safety Evaluation)

  • 偏好调整的重要性: 使用偏好调整的模型 (如 Med42-Llama3.1-70b) 在安全相关的基准测试中表现出色,这表明在进行特定领域的微调时,需要考虑安全性。
  • 医安全基准的局限性: Med-Safety 基准主要关注医生对患者的伦理行为,而忽略了其他利益相关者 (如患者) 的使用方式。

3.4 交叉检验框架 (Cross-Examination Framework)

  • 临床文本摘要: 微调模型在避免幻觉方面表现更好,而 Mistral/Mixtral 模型在一致性方面表现出色。
  • 临床笔记生成: 微调模型在避免幻觉方面表现更好,而 Med42 和 Meditron 在一致性方面表现出色。
  • 简洁性和覆盖率之间的权衡: 通常,简洁性较高的摘要具有较低的覆盖率,而简洁性较低的摘要具有更高的覆盖率。
  • 与传统指标的关联: 4C 分数与传统的摘要指标 (如 ROUGE 和 BERTScore) 存在一定的关联,但它们似乎捕捉了不同的方面。

http://www.ppmy.cn/news/1525697.html

相关文章

【uni-app】小兔鲜项目--拉取小兔鲜儿项目模板代码

1. 拉取小兔鲜儿项目模板代码 模板地址 git clone -b template https://gitee.com/heima-fe/uniapp-shop-vue3-ts.git heima-shop步骤 在写代码的文件夹,输入CMD,打开终端,直接执行克隆命令 2.通过VS Code打开heima-shop文件夹&#xff0…

c语言 stdio.h 介绍

stdio.h 是 C 标准库中的一个头文件,提供了输入和输出功能的函数和宏。以下是它的主要内容和功能: 主要功能 输入输出函数: printf:格式化输出到标准输出(通常是终端)。scanf:从标准输入&#…

计算机毕业设计Python知识图谱美团美食推荐系统 美团餐厅推荐系统 美团推荐系统 美食价格预测 美团爬虫 美食数据分析 美食可视化大屏

《Python知识图谱美团美食推荐系统》开题报告 一、研究背景与意义 随着信息技术的飞速发展和互联网应用的普及,人们的消费习惯逐渐从线下转移到线上,外卖行业迎来了前所未有的发展机遇。美团作为国内领先的生活服务电子商务平台,拥有庞大的…

新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类

一、BMS 定义 1、概念: BMS(Battery Management System)即电池管理系统,其管理 对象是二次电池(充电电池或蓄电池),其主要目的是电池的利用率,防止电池出现过度充电和过度放电&…

Next.js 14 如何在服务端页面中使用客户端渲染组件

在Next.js中,默认就是使用服务端渲染的,那如何在服务端页面中包含客户端组件呢,以下是试例: 在ArticlePage.js中: import DeleteButton from /components/DeleteBtnexport default async function ArticlePage(){retu…

Airoha Get started Guide---入门指南

0 Preface/Foreword SDK: Software Development Kit,软件开发套件 EVK:Evaluation Kit,评估套件 BSP:Board Support Package,板级支持包 BT:Bluetooth ATCI: AT Command Interface NVDM: Non-Volatil…

加速开发体验:为 Android Studio 设置国内镜像源

Android Studio 是由 JetBrains 开发的一个官方 IDE,用于 Android 应用开发。由于网络原因,直接从 Google 的服务器下载可能会比较慢或者不稳定。幸运的是,我们可以通过配置国内镜像源来加速下载和更新。 文章目录 💯 修改 Gradle…

FastAPI 应用安全加固:HTTPSRedirectMiddleware 中间件全解析

在当今的网络环境中,数据安全变得越来越重要。HTTPS 作为一种安全协议,它通过加密传输数据来保护用户信息免受窃取和篡改。在 FastAPI 应用中,确保所有的 HTTP 请求都通过 HTTPS 进行是至关重要的。 中间件在 FastAPI 中用于处理请求前后的…

一文讲懂Mac中的环境变量

你是否曾经因为环境变量配置不当而浪费了宝贵的开发时间?你是否好奇为什么有时候在终端输入命令会提示"command not found",而有时候又能正常运行?如果你是一名Mac用户,并且希望真正掌握环境变量的奥秘,那么这篇文章将为你揭开Mac中环境变量的神秘面纱,帮助你成为一…

SQLyou基础用法讲解

文章目录 SQLyog 基础知识讲解 1. 数据定义语言 (DDL)创建数据库创建表修改表删除表 2. 数据操作语言 (DML)插入数据批量插入数据更新数据条件更新删除数据条件删除 3. 数据查询语言 (DQL)查询数据查询所有数据使用排序使用聚合函数分组查询使用 HAVING 子句 4. 事务5. 索引创建…

idea一键自动化部署项目

文章目录 前言一、 IDEA插件安装1. 首先下载 Alibaba Cloud Toolkit 插件2. 插件下载完成后重启IDEA 二、SpringBoot项目准备1. pom.xml 文件2. controller3. 启动类 三、SpringBoot项目jar包部署1. Alibaba Cloud Toolkit 插件服务器配置2. 主机 IP、用户名、密码 点击测试链接…

Java的发展史与前景

🌈个人主页:Yui_ 🌈Linux专栏:Linux 🌈C语言笔记专栏:C语言笔记 🌈数据结构专栏:数据结构 🌈C专栏:C 文章目录 0. Java语言的发展史1.概述1.1 什么是Java1.2 …

LSTM处理时序数据:深入解析与实战

大家好,我是你们的深度学习老群群。今天,我们来聊一聊LSTM(长短期记忆网络)是如何处理时序数据并得到预测结果的。LSTM作为循环神经网络(RNN)的一种变体,因其能够有效捕捉长期依赖关系&#xff…

Docker部署tenine实现后端应用的高可用与负载均衡

采用Docker方式的Tengine 和 keepalived 组合模式可以实现小应用场景的高可用负载均衡需求 目录 网络架构一、环境准备二、软件安装1. 下载Tenine镜像2. 下载Keepalived镜像3. 制作SpringBoot镜像 三、软件配置1. 创建应用容器2. 代理访问应用3. 创建Keepalived4. 测试高可用 网…

QQ频道机器人零基础开发详解(基于QQ官方机器人文档)[第三期]

QQ频道机器人零基础开发详解(基于QQ官方机器人文档)[第三期] 第三期介绍:频道模块之频道成员 目录 QQ频道机器人零基础开发详解(基于QQ官方机器人文档)[第三期]第三期介绍:频道模块之频道成员获取子频道在线成员数获取频道成员列表获取频道身份组成员列…

MySQL 查询过慢的优化方法

1. 优化查询语句 问题:使用 SELECT * 会导致查询获取不必要的数据。 SELECT * FROM users WHERE age > 30;优化建议: 指定需要的列,这样可以减少数据传输的负担,提升查询速度。 SELECT name, email FROM users WHERE age &g…

Windows与linux中docker的安装与使用

windos中安装使用docker 下载Docker_Desktop 安装包进入docker官网下载Docker_Desktop: https://www.docker.com/启用wsl 我们搜索“启用或关闭Windows功能”,打开后勾选适用于Linux的Windows 子系统 Docker_Desktop设置 出现Docker Engine stopp…

GC-分代收集器

GC收集器介绍 十款GC收集器 上图中共有十款GC收集器,它们可以根据回收时的属性分为分代和分区两种类型: 分代收集器:Serial、ParNew、Parallel Scavenge、CMS、Serial Old(MSC)、Parallel Old 分区收集器&#xff…

Java多线程编程-基础篇

多线程相关的概念 并发 并发是指在同一时间段内,两个或多个任务在同一个处理器上交替执行,使得在宏观上看起来像是同时进行。并发是通过快速切换任务来模拟同时执行的效果,实际上在任何一个时刻点上只有一个任务在执行。 也就是说&#xff0…

Linux 基础命令-文件权限与所有权

1. 文件权限概述 在Linux中,每个文件和目录都有与之关联的权限和所有权,来控制谁可以访问、修改或执行文件。文件权限与所有权可以防止未经授权的用户对文件进行访问或修改。 1.1 文件权限的组成 每个文件在Linux系统中都有三种类型的权限&#xff1a…