2024.4 评估大语言模型在医疗行业应用的综合调查

A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry

https://arxiv.org/abs/2404.15777

问题

大语言模型（LLMs）在医疗领域应用广泛，但缺乏专门针对其在医疗应用中有效性、准确性、可用性和伦理一致性的评估框架。
现有研究在评估 LLMs 于医疗领域的应用时，存在深度和广度不足的问题，尤其是在临床应用、医疗数据治理、医学研究（基础与临床）、医学教育和公共卫生教育等关键领域缺乏深入探讨。
LLMs 在医疗应用中面临技术、伦理和法律等多方面挑战，如数据和样本多样性不足、模型可解释性差、患者隐私保护问题、模型偏见与公平性问题以及法规合规性复杂等。

挑战

技术挑战
- 数据和样本问题：当前研究多依赖单一数据集，缺乏多样性，无法代表全年龄段、性别、种族和地域的患者，限制结果的普适性；且多关注短期效果，缺乏长期性能和影响的研究。
- 模型可解释性低：医疗领域需深入理解模型决策过程，但许多模型（如 GPT 系列）是 “黑箱”，内部机制不透明，训练数据未公开，限制了对其性能的全面理解。
- 多模态数据整合不足：评估大多集中于文本数据，忽视了 LLMs 整合和处理图像、音频、传感器等多模态数据的潜力，而多模态数据整合对诊断和治疗支持至关重要。
伦理和法律挑战
- 患者隐私保护：使用敏感医疗数据引发对数据泄露和滥用的担忧，需确保严格的数据加密和访问控制措施，并遵守相关隐私法规和标准。
- 偏见与公平性：LLMs 可能存在偏见，影响不同患者群体的性能表现，这可能源于训练数据和算法本身，可能导致歧视性结果。
- 法规合规性：不同地区法规不同，使得 LLMs 在医疗领域的监管合规面临挑战，需建立全球合作以协调监管标准，并与法律专家合作确保合规。

创新点

首次对 LLMs 在医疗领域的应用评估进行全面且深入的综述，涵盖临床应用、医疗文本数据处理、医学研究、医学教育和公共卫生意识等多个方面，系统梳理了该领域的研究现状。
详细阐述了用于评估 LLMs 在医疗领域应用的各种方法和指标，包括不同类型的评估模型、多样化的评估者（人类专家、自动化指标、AI 驱动评估）、多种比较实验设置以及丰富的评估指标（正确性、完整性、复合、可用性、一致性与相似性指标等），为全面评估 LLMs 提供了多维度视角。
分类介绍了用于评估 LLMs 在医疗领域性能的各类基准和数据集，包括通用基准、针对不同任务（如问答、总结、信息提取、生物信息学、信息检索）的特定基准，为后续研究提供了重要的数据资源和评估框架参考。

贡献

为医疗专业人员、研究人员和政策制定者提供了对 LLMs 在医疗应用中的潜力和局限性的全面理解，有助于他们在医疗实践中合理应用和评估 LLMs。
通过详细分析评估过程和整合 LLMs 面临的挑战，为该领域的责任发展和部署提供指导，确保 LLMs 在医疗领域的应用既能发挥其潜力，又能符合严格的伦理标准。
强调了开发专门针对医疗领域的 LLMs 评估框架的必要性，并通过对评估方法、指标、基准和数据集的全面梳理，为构建更完善的评估体系提供了理论基础和实践参考。

提出的方法

从应用领域和场景、评估方法和指标、基准和数据集三个方面对 LLMs 在医疗领域的应用进行全面评估。
在应用领域和场景方面，细分了临床应用（包括通用综合应用、专科疾病应用、支持部门应用）、医疗文本数据处理、医疗研究（包括信息检索与筛选、建模与分析、写作与参考文献生成）、医学教育和公共卫生意识等多个具体应用场景，并分别阐述了在这些场景中 LLMs 的应用及评估方式。
评估方法涵盖了多种类型的模型（商业模型、开源模型、定制模型）、不同类型的评估者（人类专家、自动化计算、AI 驱动评估）以及多种比较实验设置（模型间比较、与特定算法和系统比较、模型单独评估、与人类专家比较）。同时，运用了丰富的评估指标，从正确性、完整性、复合、可用性、一致性与相似性等多个维度对 LLMs 的性能进行评估。
在基准和数据集方面，详细分类介绍了各类用于评估 LLMs 的基准，如通用基准、问答任务基准（临床决策支持、医学知识问答、医学信息检索问答）、总结任务基准（问题总结、答案总结、大众总结、医疗报告生成与总结）、信息提取基准（命名实体识别、关系提取、实体链接、文本分类、综合信息提取）、生物信息学基准和信息检索基准，并分别阐述了每个基准下包含的具体数据集及其用途。

指标

正确性指标
- 临床应用相关：如在诊断、预后、决策制定、风险预测等任务中常用准确率评估，通过计算模型回答与标准化临床案例或实际诊断结果的匹配比例来衡量；也使用其他指标如精确率、TPR、FPR 等评估不同方面的正确性。
- 特定任务相关：在自然语言处理（NLP）、自然语言推理（NLI）等任务中常用精确率；在医学检查中主要用准确率评估答题正确率；在问答任务中，准确率也是常用指标，通过与标准答案对比或在公共 QA 基准和数据集上评估模型回答的正确性，还包括根据具体标准（如对眼科问题回答的准确性分级、对模型回答与专家答案对比评估等）进行评估。
- 信息检索和参考支持相关：使用准确率、精确率、MAP、NDCG 等指标评估模型在信息检索和参考支持任务中的正确性，如评估文献检索模型的准确性、模型筛选临床研究标题和摘要的正确性、识别参考文献的正确性以及在假新闻识别任务中的准确性和精确率。
完整性指标
- 信息检测相关：如在 COVID - 19 假新闻检测中使用召回率（敏感性）评估模型检测信息的完整性，计算模型正确识别出的真实阳性结果占所有应被识别的真实阳性结果的比例。
- NLP 任务相关：在各种 NLP 任务（如命名实体识别、关系提取、实体链接等）中，召回率是常用的完整性评估指标，衡量模型识别出的真实阳性结果占所有实际阳性结果的比例。
- 问答应用相关：通过专家共识评级（如对眼科症状查询回答的全面性评估使用五点量表）、评估回答中重要内容的遗漏情况（如在医学问答任务中）、基于回答细节水平（如对近视相关问题回答的全面性评估使用五点量表）以及使用三点 Likert 量表（评估聊天机器人回答的完整性）等方式评估 LLMs 回答的完整性。
- 临床应用相关：在诊断和临床预测任务中，如 COVID - 19 病例识别和治疗相关的自然语言处理模型、NYUTron 模型在预测任务中，使用召回率评估模型输出的完整性。
复合指标
- 显式复合指标
  - F - score（特别是 F1 - score）：广泛应用于 NLP 任务（如文本分类、实体识别、关系提取）、假新闻检测、文献筛选和图像分类等任务中，通过结合精确率和召回率来综合评估模型的正确性和完整性。
  - BLURB score：作为 BLURB 基准的一部分，是对生物医学领域内多个 NLP 任务得分的宏观平均，用于全面评估语言模型处理复杂生物医学文本的能力。
  - AUC（Area Under the Curve）和 AUROC（Area Under the Receiver Operating Characteristic curve）：常用于评估二进制分类模型在所有可能分类阈值下的性能，在医学诊断和预测建模中，对评估模型在疾病筛查和患者风险评估等任务中的性能至关重要，因为这些任务中敏感性和特异性非常关键。
- 隐式复合指标
  - 通过专家对回答质量的综合评估（如对 ChatGPT 在糖尿病管理中关于生酮饮食回答的评估，基于专业性、逻辑连贯性、可读性和准确性等方面）来衡量模型性能。
  - 结合临床准确性和完整性评估（如对 GPT - 4 和 LaMDA 在产后抑郁症常见问题回答的评估，与专业标准对比）来评估模型。
  - 利用综合指标（如准确性和完整性的组合）评估模型在特定领域（如口腔颌面放射学报告写作）的表现。
  - 使用 SOLO taxonomy 等综合指标，从准确性和相关性等方面评估模型在回答生理学案例问题中的表现。
  - 采用 mDISCERN score 评估 LLMs 生成的医疗信息质量，涵盖治疗选项、目标、平衡性、共享决策、作用方式、益处、生活质量影响、风险和其他来源等多个方面。
  - 使用 DISCERN 工具评估模型在评估在线医疗内容质量方面的性能，考虑清晰度、相关性和偏见等因素。
  - 将医学考试评分视为隐式复合评价指标，从多个角度评估医学专业人员的能力，如在产科和妇科考试中，考虑安全、沟通、信息收集和临床知识应用等方面。
可用性指标
- 帮助性和类人性相关：通过评估模型对用户意图的理解和回答的有用性（如由普通用户评估 LLMs 在回答消费者医疗问题时的相关性和有用性）、可靠性和类人性（如评估模型生成的临床文档的可靠性、自然度和可读性，使用多种指标如 Cronbach's alpha、人类化评分、可读性指数等）以及通过特定测试（如 Turing 测试）评估模型模仿人类写作的能力来衡量模型的可用性。
- 鲁棒性相关：通过评估模型在不同影响因素（如人口统计学因素、临床敏锐度）下的性能一致性（如 ChatGPT 在不同患者特征和病例严重程度下的临床决策支持准确性评估）、使用 Fleiss κ 系数评估模型在不同时间和评估者下的回答一致性（如 ChatGPT 在诊断骨科疾病时的一致性评估）以及评估模型在不同种族和性别等人口统计学因素下的结果偏差（如 GPT - 4 在诊断建议和患者评估中的偏差评估）来衡量模型的鲁棒性。
- 安全性相关：通过评估模型生成的医疗建议的潜在危害（如眼科领域中 ChatGPT 生成建议的潜在危害评估）、使用安全相关指标评估模型在消费者医疗问答任务中的潜在健康危害（如评估回答中健康相关危害的严重程度和可能性）以及评估模型在临床应用中的不安全分诊率（如 ChatGPT 在急诊科应用中的不安全分诊情况评估）来衡量模型的安全性。
- 其他相关：还包括模型的自我纠正能力（如评估模型在眼科症状查询、医学考试问题回答等任务中对初始回答的自我检查和纠正能力）、多样性评估（如评估 GPT - 4 在诊断和治疗计划中的创新性和多样性）、推荐强度评估（如评估 ChatGPT 在骨科疾病自我诊断中对医疗咨询的推荐强度）、情感极性和主观性评估（如评估 ChatGPT 在回答生育相关常见问题时的情感极性和客观性）以及分诊谨慎程度评估（如评估 LLMs 和症状检查器在临床应用中的分诊谨慎程度）。
一致性和相似性指标
- 共识相关：通过评估模型输出与公共共识的一致性（如 ChatGPT 在糖尿病管理中生酮饮食建议与专家指南的一致性评估）、与医学社区共识的对齐程度（如 ChatGPT 在眼科建议与医学标准的一致性评估）、与科学共识的对齐评估（如在消费者医疗问答任务中评估模型答案与科学和临床指南的一致性）以及使用 Cohen's kappa 等指标评估模型与人类审查者在筛选临床研究标题和摘要时的一致性（考虑决策的一致性和与医学共识的相关性）来衡量模型与人类共识的一致性。
- 相似性相关
  - 使用 BLEU Score、BERT Score、METEOR、ROUGE、CIDEr 等文本相似性度量评估 LLMs 生成的内容与参考文本（如专家生成的文本）在词汇、语义等方面的相似性，常用于评估生成文本（如放射学报告、总结内容等）与参考文本的一致性和质量。
  - 使用 Pearson 相关系数评估句子相似性任务中预测和真实相似性得分的对齐情况，如在生物医学和临床句子检索应用中。
  - 使用 Z - scores 评估模型与人类专业人员（如在自杀风险评估中 ChatGPT 与心理健康专业人员评估的差异）之间的差异。
  - 使用编辑距离 - 基于相似性度量（如 Segmentation Similarity、Boundary Similarity、B2）评估模型在段落分割任务中的能力，如评估模型生成的文本与参考文本在段落分割方面的相似性。

模型结构

论文中提及了多种用于医疗领域应用和评估的模型结构，主要包括以下几类：
- 商业模型：如 GPT 系列（GPT - 3.5、GPT - 4）、Claude、Bard、PALM、LaMDA 等，这些模型在多项医疗领域应用评估研究中被广泛使用，研究人员通过其 API 或特定接口（如 ChatGPT）对其能力进行测试和评估。
- 开源模型
  - 通用领域：包括 BERT、GPT2、RoBERTa、LLaMA、Llama 2、ALBERT、T5、FLAN - T5、BLOOMZ、PRIMERA、DistilBERT 等，这些模型在医疗领域的应用研究中也发挥了重要作用，尤其在一些特定医疗任务中，开发者可根据需求对其进行定制和优化。
  - 特定领域：如 BlueBERT、BioGPT、BioBART、BioBERT、ClinicalBert、ProtTrans、BioSeq - BLM、PubMedBERT、SciBERT、bsc - bioehr - es 等，这些模型专门针对生物医学或临床文本处理任务进行了优化，能够更好地适应医疗领域的需求。
- 定制模型：针对特定医疗应用场景和任务，研究人员还开发了一些定制的模型，如 GatorTronGPT（基于 GPT - 3 架构，用于医学研究和医疗保健领域的关系提取和问答任务）、cMolGPT（用于分子设计的生成式预训练 Transformer 模型）、NYUTron（基于 BERT - like 架构，用于 NYU Langone Health System 的一系列临床和运营任务）、CNBERT（领域特定预训练语言模型，用于医疗文本分类任务）、ARMOUR（基于 Transformer 的融合模型，用于处理临床环境中的多模态数据）等。这些定制模型通过特定的架构设计和训练方式，旨在提高在特定医疗任务中的性能表现。

结论

本综述强调了 LLMs 在医疗领域应用的潜力和面临的挑战，突出了专门评估框架对确保其有效和伦理应用的必要性。
通过深入分析 LLMs 在临床应用、医疗文本数据处理、医学研究、医学教育和公共卫生意识等多方面的角色，以及评估方法（包括模型、评估者、比较实验）和指标，为医疗领域相关人员提供了全面理解 LLMs 在医疗应用中的有效性、准确性、可用性和伦理一致性的视角。
明确指出 LLMs 在医疗应用中的关键技术挑战（数据质量和多样性、模型可解释性、多模态数据整合）、伦理和法律挑战（患者隐私、偏见与公平性、法规合规性），并提出相应的改进策略，如开发更全面的评估框架、改进评估方法和指标、填补现有方法的差距和局限等。
展望未来，认为负责任地开发和部署 LLMs 在医疗领域的应用依赖于持续的实证验证和严格的多维评估框架的建立，以充分发挥其潜力，同时维护严格的伦理标准，最终推动医疗实践朝着更安全、有效和伦理的方向发展。

剩余挑战和未来工作

剩余挑战
- 技术层面：尽管对 LLMs 在医疗领域的评估已取得一定进展，但数据和样本多样性不足、模型可解释性低以及多模态数据整合困难等问题仍然存在，这些问题限制了对 LLMs 性能的全面理解和有效应用。
- 伦理和法律层面：患者隐私保护、模型偏见与公平性以及法规合规性等方面仍面临挑战。确保患者隐私需要持续加强数据安全措施，解决模型偏见需要更深入的数据处理和算法改进，而全球法规协调仍需大量努力。
未来工作
- 完善评估框架：开发更全面的评估框架，将技术性能、伦理考量和法律合规性有机结合，确保对 LLMs 在医疗领域的评估全面且深入，涵盖更多关键方面，如模型的长期影响、在复杂医疗环境中的适应性等。
- 改进评估方法和指标：进一步优化评估方法和指标，更加注重可用性、鲁棒性和安全性等方面的评估。引入新的评估指标，如对模型生成内容的逻辑性、深度理解能力的评估，结合定性和定量方法，利用先进的自动化工具并加强人类专家审查，以提高评估的准确性和深度。
- 填补研究空白：通过系统评价和实证研究，深入挖掘当前评估中的薄弱环节，加强学术界、产业界和医疗从业者之间的合作，共同开发创新解决方案。定期更新和完善评估标准，以适应不断发展的技术和新兴挑战，如应对新的医疗数据类型、新的应用场景需求等。

数据集

通用基准数据集
- BLURB（Biomedical Language Understanding & Reasoning Benchmark）：包含多种数据集（如 BC5CDR - CHEM、BC5CDR - Disease、BC2GM、JNLPBA、EBM PICO、CHEMPROT、GAD、BIOSSES、HoC、PubMedQA、BioAsq challenge 等），用于评估 LLMs 在生物医学自然语言处理任务（如命名实体识别、关系提取、文本分类、问答）中的能力。
- MultiMedQA：涵盖多个数据集（如 PubMedQA、MedQA、MedMCQA、LiveQA、MedicationQA、MMLU 临床主题、HealthSearchQA 等），用于评估 LLMs 在医学领域的知识理解和应用能力，特别是在问答任务方面。

正文

摘要

自 2017 年 Transform 架构启动以来，GPT 和 BERT 等大型语言模型（LLM）已经发生了重大发展，以其在语言理解和生成方面的先进能力影响着各个行业。这些模型已经显示出改变医疗领域的潜力，突出了专业评估框架的必要性，以确保其有效和合乎道德的部署。这项全面的调查描绘了 LLM 在医疗保健领域的广泛应用和必要评估，强调了经验验证的迫切需要，以充分利用其在增强医疗保健结果方面的能力。我们的调查旨在对 LLM 在临床环境、医学文本数据处理、研究、教育和公共卫生意识方面的应用进行深入分析。我们首先探索 LLM 在各种医疗应用中的作用，详细说明了它们基于临床诊断、医学文本数据处理、信息检索、数据分析和教育内容生成等任务中的表现进行的评估。随后的部分对所采用的评估方法和指标进行了全面讨论，包括模型、评估者和比较实验。我们进一步检查了这些评估中使用的基准和数据集，为问答、总结、信息提取、生物信息学、信息检索和一般综合基准等任务提供了基准的分类描述。这种结构确保了对 LLM 在医学领域的有效性、准确性、可用性和道德一致性进行评估的透彻理解。

通过这项调查，我们旨在让医疗从业者、研究人员和决策者全面了解 LLM 在医疗应用中的潜在优势和局限性。通过对评估过程和将 LLM 整合到医疗保健中面临的挑战提供详细的见解，这项调查旨在指导负责任地开发和部署这些强大的模型，确保它们在保持严格道德标准的同时充分发挥潜力。

1 简介与背景

自 2017 年 Google 团队引入 Transform 架构 [55] 以来，自然语言处理领域进入了一个新时代。Transform 的创新之处在于它使用了自注意力机制，显着提高了模型处理远程依赖关系的能力，为众多

后的语言模型。在此之后，OpenAI 于 2018 年发布了 GPT（生成预训练变压器）[56]，它利用了预训练和微调方法。通过对大量文本数据进行无监督学习，然后对特定任务进行微调，GPT 显着提高了各种自然语言处理任务的性能。谷歌的 BERT（来自变压器的双向编码器表示）[57] 模型通过双向训练进一步完善了预训练方法，增强了对文本的上下文理解。GPT-2 [58] 和 GPT-3 [59] 的发布标志着模型大小和生成能力的显着增加。特别是，GPT-3 具有 1750 亿参数，以产生当时几乎与人类写作无法区分的文本而闻名。此后，InstructGPT [60] 和 ChatGPT [61] 针对遵循用户指令进行了优化，进一步提高了与人类的交互质量和实用性。2023 年，OpenAI 推出了 GPT-4 [62]，这是一种更大、更智能的模型，能够处理更复杂的语言理解和生成任务，在多个维度上展示了卓越的性能。此外，模型的创新不断发展，例如谷歌的双子座 [63] 模型，该模型针对特定的信息检索任务进行了优化。在开源领域，LLaMA [64]、OPT [65] 等模型为研究社区和行业提供了更大的灵活性和可访问性。这些模型旨在提供与大型专有模型竞争的性能，同时降低使用和研究的门槛。值得注意的是，像 Gemma [66] 和 Meta 的 OPT（开放预训练转换器）这样的模型因其开放可访问性和对各种语言和任务的适应性而广受欢迎，促进了该领域更广泛的实验和开发。通过这些发展，LLM 不仅在理解、内容生成、推理和工具使用方面展示了强大的能力，而且还为人工智能应用开辟了新的可能性，特别是在需要深度语义理解和交互的领域。

继变压器、GPT 和 BERT 等基础技术之后，大型语言模型（LLM）已经在各个行业中找到了广泛的应用，展示了它们的适应性和变革潜力。教育部门正在见证 LLM 作为教师助理和反馈提供者的新兴角色。例如，ChatGPT 已经被测试为自动化教练，分析课堂互动以提供反馈，尽管它的建议有时缺乏新颖性 [67]。此外，事实证明，LLM 能够向学生提供详细和连贯的反馈，在清晰度和细节方面优于人类教师 [68]。在法律领域，像 GPT-3 这样的 LLM 已经被定制为执行需要法律推理的任务，在使用专门的提示技术时显示出像日本律师考试这样的任务的改进 [69]。此外，GPT-4 因其生成法律术语准确解释的能力而受到评估，并通过整合判例法中的上下文数据得到进一步增强 [70]。LLM 也极大地影响了软件开发。它们被用于检测软件中的漏洞，在识别源代码中的问题方面表现出优于传统模型 [71]。此外，像程序员助手这样的模型允许对话交互，通过集成上下文感知对话来改进软件开发过程 [72]。在金融领域，轩辕 2.0 模型展示了 LLM 如何专门用于中文金融讨论，通过混合调整方法提供特定领域的响应 [73]。研究还表明，LLM 可以执行复杂的金融推理，在某些模型大小下显着出现能力，并通过指令调整得到改进 [74]。这些例子强调了 LLM 在适应不同专业和学术需求方面的多功能性，为更深入地集成到特定领域的应用程序奠定了基础。LLM 在医学领域的应用是本次调查的一个重要焦点，将在本次调查的后面详细讨论，此处不再详细说明。

大型语言模型（LLM）已经在各个行业中广泛部署，但它们带来了可能阻碍其有效性和道德部署的固有挑战。深度学习缺乏透明度、概率而非确定性输出、频繁的幻觉、有限的推理能力以及知识覆盖的潜在偏见等问题需要在实际环境中对 LLM 进行严格评估，以确保其可靠性、安全性、效率和道德完整性。最近的几项研究说明了应对这些挑战所需的评估的深度和多样性。[75] 评估 ChatGPT 在逻辑推理、非文本推理和常识推理任务上的表现。它表明，虽然 ChatGPT 在多任务和多语言能力方面表现出色，但它在可靠性方面遇到了困难，经常产生幻觉，并在不同的推理类别中表现出不同的成功。[76] 评估语言模型使用基于生成零镜头提示的方法识别文本中有毒内容的能力。它探索了模型的自我诊断能力，并讨论了这些方法的伦理影响，强调了社交媒体数据集毒性检测的定量和定性优势。在 [77] 中，作者开发了一个框架，通过关注决策中的逻辑一致性而不是直接正确性来评估超人机器学习模型。他们将这种方法应用于国际象棋评估、预测和法律判断等任务，揭示了包括 GPT-4 在内的模型中的逻辑不一致，即使在没有传统地面实况的情况下也是如此。[78] 通过在名为 PopQA 的新开放域 QA 数据集上使用 10 个模型和 4 种增强方法进行广泛的知识探测实验，评估大型语言模型（LMs）记忆事实知识的能力。研究结果表明，虽然 LMs 与不太流行的事实知识作斗争，并且缩放并没有显着改善长尾记忆，但检索增强的 LMs 在效率和事实准确性方面明显优于更大的非增强模型。[79] 通过分析 ChatGPT 对特定文化提示的反应来评估其文化适应。这项研究表明，虽然 ChatGPT 与美国人非常一致

文化规范，它在适应其他文化背景方面的有效性有限，当用英语提示时，通常会平淡文化差异。[80] 评估了 ChatGPT 等大规模语言模型的固有偏见，讨论了它们在训练数据、模型设计和算法约束方面的起源。它强调了有偏见的输出带来的道德挑战，并回顾了当前识别、量化和减轻这些偏见的方法，以促进更负责任和合乎道德的 AI 系统的发展。

LLM 评估领域的最新评论揭示了不同的方法和方法。[81] 强调了 LLM 评估分为知识和能力、一致性和安全评估的分类，强调构建综合评估平台以指导负责任的发展并最大化社会利益。[82] 侧重于使 LLM 与人类意图保持一致的关键任务，涵盖可靠性、安全性和公平性等维度。它提供了对多个子类别的可信度的详细分析，以解决实际应用程序中的对齐挑战。[83] 讨论了 LLM 在各个领域（包括医疗保健和教育）的广泛评估需求。它倡导一种广泛的评估方法来解决 LLM 的社会影响和实际整合，促进持续评估以改进这些技术。尽管有这些有见地的评论，但在评估的深度和广度上仍然存在显着差距，特别是在医疗保健领域。尽管现有的综述 [81， 83] 涉及医学应用，但它们缺乏对临床应用、医疗数据管理、研究（基础和临床）、医学教育和公共卫生教育等关键领域的深入研究。这些领域的复杂性和敏感性需要专门的评估框架，这些框架可以全面评估 LLM 在医疗保健方面的表现。因此，迫切需要一项专门审查，重点关注医疗保健垂直领域内 LLM 的评估。此类审查应旨在为医疗保健从业者、研究人员和政策制定者提供有关 LLM 应用和评估的详细见解，确保他们具备在各种医疗环境中有效实施和评估这些技术的知识。这不仅有助于利用 LLM 的潜力来改善医疗保健结果，还可以确保其部署受到严格的道德标准和实际疗效的约束。

本综述旨在从医疗保健专业人员、研究人员和患者的角度对医疗领域的大型语言模型（LLM）进行全面评估。它旨在作为将 LLM 技术集成到各种医疗应用中的参考，促进对其实施和评估做出明智的决策。我们将深入研究 LLM 在临床应用、数据处理、研究支持、教育和公共卫生意识中的应用。审查将涵盖医学领域使用的详细评估方法，包括基准、评估实体、评估主体、比较实验和详细的程序见解等。这种结构化的方法将帮助利益相关者了解评估医疗保健领域 LLM 应用的范围，确保这些创新得到有效整合。

2 调查的分类法和结构

在强调医疗领域迫切需要对 LLM 进行专业评估的介绍和背景之后，本章概述了我们全面审查的结构。本综述旨在浏览 LLM 在医疗保健领域的多方面应用和评估，阐明其潜力和实施的复杂性。

第 3 节从三个不同的角度对医疗保健领域的 LLM 进行了评估：应用领域和场景、评估方法和指标以及基准和数据集。评估概述如图 1 所示。

・在《3.1 基于应用领域和场景的评价》中，我们重点介绍了法学硕士在医学领域不同方面的应用评价，包括临床应用、医学文本数据处理、医学研究、医学教育和公众意识。

– 在 3.1.1 部门和特定疾病临床应用的评估中，我们首先剖析了一系列临床应用的评估。1）对于一般综合应用程序，我们评估 LLM 在一般临床环境中的表现，提供对其在各个医疗部门的有效性的基本理解，而无需关注特定疾病。2）对于专业部门和疾病应用，我们探讨了 LLM 在内分泌学和眼科等专业医学领域的使用，详细介绍了这些技术如何满足特定健康状况的独特需求。3）对于支持部门申请，重点随后转移到支持部门，例如放射学和紧急护理，其中 LLM 协助关键的诊断和程序任务。

– 3.1.2 医学文本数据处理应用程序评估深入探讨了 LLM 应用程序在处理医学文本数据方面的领域，说明了如何在各种数据处理任务中评估这些模型。评估侧重于几个关键方面，例如关系提取（RE），名为实体识别（NER）和问答（QA），这对于提高临床记录和电子健康记录（EHR）等医学文本数据的实用性至关重要。本小节中的研究表明 LLM 能够改进生物医学 NLP 任务。这些进步凸显了这些模型在改变医疗数据处理方式方面的潜力，使其对医疗保健提供者来说更容易访问和可操作。此外，全面的基准研究评估了 ChatGPT 等模型在不同类型的医学文本中的表现，包括临床试验描述和生物医学语料库。这些研究使用一系列指标（例如 NER 的实体级 F1 分数和 QA 任务的准确性）来评估模型。结果表明，生物医学文本理解能力有效，但有时是有限的，这表明了需要进一步改进和适应的领域。讨论的评估为从业者和研究人员提供了如何将 LLM 应用于医疗保健部门的数据处理场景的示例。它们提供了对应用程序模式以及如何评估这些应用程序的见解，帮助用户了解 LLM 在实际环境中的操作效率和实际限制。这些见解对于指导 LLM 技术的进一步发展和改进以更好地满足医学界的需求至关重要。

在 3.1.3 医学研究应用评估中，我们研究了大型语言模型（LLMs）在医学研究中的影响，强调了它们在三个关键领域的实用性：1）检索和筛选：LLMs 增强了生物医学信息检索和文章筛选，这对系统评价至关重要。评估的重点是模型在有效提取相关信息方面的准确性、敏感性和特异性。2）建模与分析：LLMs 用于建模生物过程和分析复杂数据集，帮助假设生成和疾病建模。它们的有效性是通过精度、召回率和特定于字段的指标来衡量的，以确保准确性和适用性。3）写作和参考文献生成：LLMs 协助起草科学论文和生成参考文献，自动化像引文格式和文献总结这样的日常任务。性能是根据内容和参考文献的准确性、连贯性以及适当性进行评估的。

3.1.4 医学教育与公众意识应用评估强调了 LLMs 在医学教育中的作用，包括医学学生和专业人士以及提高公共卫生意识。1)

医学教育： LLM 越来越多地用于通过提供动态学习工具来增强理解和保留来增强医学教育。他们支持各种教育活动，从生成交互式内容和案例研究到促进考试准备和持续的专业发展。评估的重点是模型提供准确、相关和教学合理内容的能力，评估它们对学习成果和教育效果的影响。2）公众意识应用：在公共卫生意识领域，LLM 有助于传播重要的健康信息，有助于疾病预防和健康促进。他们被用来评估向公众提供的医疗信息的质量和可靠性，确保健康通信既可访问又准确。这些应用程序的有效性是通过它们增强公众对复杂健康问题的理解和支持明智决策的能力来衡量的。

在 3.2 关于评估方法和指标的综合讨论中，我们深入探讨了评估 LLM 所采用的方法，解决了使用模型、评估器、比较实验和各种评估指标等关键方面。

– 在 3.2.1 模型中，我们讨论了应用于医学评估的各种类型的 LLM。这包括 GPT-4、Claude、Bard 等商业模式，以及 BERT、BioBERT 和 PubMedBERT 等开源模型。本节还重点介绍了针对特定医疗任务进行微调的定制模型，提供了有关如何在医疗领域利用和评估不同模型的见解。3.2.2 评估者和比较实验 探讨了评估者的多样性，从人类专家到自动化指标和 AI 驱动的评估。我们研究了这些评估者在不同比较实验设置背景下的作用，其中包括各种 LLM、传统 NLP 算法和人类专家之间的比较。本小节强调了严格和多样化的评估方法的重要性，以确保对 LLM 的绩效进行全面评估。– 在 3.2.3 评估指标中，我们广泛概述了用于评估医学领域 LLM 应用的指标。这些包括正确性指标（如准确性、精度）、完整性指标、复合指标（如 F1 分数和 AUC）、可用性指标（包括有用性、安全性和稳健性）和一致性与相似性指标（包括一致性和相似性）。本节重点介绍如何将这些指标应用于不同的医疗任务和场景，以评估 LLM 输出的有效性、可靠性和安全性。

・3.3 基准将概述我们审查的研究中使用的基准，提供这些基准的分类描述，并讨论它们在医疗环境中的相关性和适用性。

在 3.3.1 一般基准中，我们引入了全面的基准，这些基准提供了用于评估医学领域各种任务中的 LLM 的数据集。这些基准包括 NER、关系提取、文本分类和问答等任务，为研究人员提供了一个结构化的框架来有效地评估和改进 LLM 绩效。示例包括 BLURB、MultiMedQA、CBLUE 和 MedBench，每个都提供了针对特定医疗应用场景量身定制的广泛数据集。

在 3.3.2 问答基准中，我们探索了专为医疗领域的问答（QA）任务设计的数据集。这些基准根据它们与不同医疗 QA 场景的相关性进行分类：临床决策支持：该组中的数据集包括医学对话系统和临床咨询案例，评估 LLM 在诊断场景中支持医疗专业人员的能力。医学知识 QA：此类别包括来自医学检查和基于文献的 QA 数据集的问题，挑战 LLM 展示医学知识的理解和推理。医疗信息检索：本部分的数据集侧重于可公开访问的医疗记录、消费者健康查询和公共医疗网站，强调了 LLM 在医疗信息检索中的适用性。

– 在 3.3.3 摘要基准中，我们对突出 LLM 在各种医学环境中的语言理解和抽象能力的基准进行了分类。对于问题摘要，我们专注于将复杂的消费者健康问题浓缩为简化的形式。对于答案摘要，数据集用于评估模型在总结消费者健康问题的综合答案方面的作用。Lay Summary 为将专业医学知识转化为公众可理解的摘要提供了基准。医疗报告生成和总结，其中基准测试模型根据临床证据、咨询内容和多模式数据生成和总结医疗报告的能力。

– 在 3.3.4 信息提取基准中，我们深入研究了评估 LLM 从复杂医学文本中提取结构化信息的能力的基准和数据集。评估侧重于 NER、关系提取、实体链接、文本分类和综合信息等任务提取（例如，PICO 提取和事件提取）。这些基准对于评估 LLM 将非结构化文本转换为结构化知识的能力至关重要。1） 命名实体识别：我们探索了 NCBI 疾病语料库、JNLPBA 和 CMeEE 等基准，这些基准测试了 LLM 识别医学文本中疾病、基因和化学物质等实体的能力。2） 关系提取：BC5CDR、ChemProt 和 BioRED 等数据集评估了 LLM 识别实体之间关系的能力，例如药物相互作用和基因疾病关联。3） 实体链接：COMETA 和 NCBI 疾病语料库基准评估了 LLM 将生物医学实体与 SNOMED CT 和 ICD-10 等标准医学概念联系起来的能力。4） 文本分类：LitCovid 和 CHIP-CTC 数据集等基准侧重于在对医疗文件进行分类、资格标准和意图分类方面测试 LLM。5） 综合信息提取：对于更广泛的信息提取任务，如医疗事件提取和 PICO 提取，我们分析 CHIP-CDEE、EBM-NLP 和去标识化出院总结等数据集。

3.3.5 生物信息学基准探讨生物信息学的基准，其中包括从头分子生成、生物序列相似性分析和 RNA 结构推断等任务。通过利用 MOSES、ChEMBL、ExCAPE-DB、CircFunBase、Rfam 和 MARS 等数据集，研究人员可以评估 LLM 在生物信息学任务上的表现，测量有效性、新颖性、敏感性和 F1 分数等。这些研究突出了 LLM 为分子生成、序列分析和蛋白质功能预测提供创新解决方案的潜力。

– 在 3.3.6 信息检索基准中，我们深入研究了信息检索的基准。鉴于 LLM 强大的文本理解能力，他们可以帮助研究人员在多个维度上有效地找到相关文献，例如问题检索、证据检索和事实核查。现有的信息检索基准包括事实核查、引文预测和文献推荐等各种任务，为医学信息检索提供了全面的框架。BEIR、RELISH-DB、SCIDOCS、BIOSSES、MedSTS 等数据集以及 CBLUE 中包含的数据集提供了多种形式的相似性和相关性度量，本部分介绍了这些度量。

第 4 节将介绍医疗保健领域 LLM 评估中出现的更广泛的挑战和具体问题。具体来说，我们将分析这些评估中遇到的技术、道德和法律挑战，强调需要更严格和详细的框架来确保 LLM 在医疗保健中的应用的有效性。本节还将讨论改进评估框架、方法和指标以更好地应对这些挑战的潜在策略，确保 LLM 能够有效地整合到医疗实践中。

3 医学领域法学硕士应用评价的现状

3.1 基于应用领域和场景的评估

3.1.1 科室和特定疾病临床应用评价

一般综合应用：

本部分回顾了在各种临床过程中评估大型语言模型（LLM）的研究，不区分不同科室或特定疾病，为它们在常见临床场景中的应用提供了一般视角。通过这些评估，我们探讨了 LLM 在整个医学领域的准确性、偏差和适用性方面的表现。选定的研究对 LLM 的能力和医疗保健领域的改进领域进行了广泛的概述。

[1] 对 ChatGPT（GPT-3.5）在各种临床任务中的表现进行了评估，包括鉴别诊断、诊断测试、最终诊断和临床管理。评估涵盖了来自默克夏普和多贺美（MSD）临床手册的 36 个已发表的临床病例，重点关注从正确回答比例得出的准确性指标。ChatGPT 的总体准确率为 71.7%，在做出最终诊断方面准确率最高（76.9%），在生成初始鉴别诊断方面准确率最低（60.3%）。对不同患者人口统计学特征和病例严重程度的表现进行了比较，但未显示出显著差异，这表明 ChatGPT 在不同临床场景中具有一致的适用性，且不存在对患者年龄或性别的偏见。

在一项全面评估大型语言模型（LLMs）在医疗行业整合情况的研究中，研究人员 [2] 专注于评估 GPT-4 在各种临床任务中的应用。评估涵盖了医学教育、诊断推理、临床方案生成以及主观的患者评估。利用 Azure OpenAI 接口进行实验，该研究具体测试了 GPT-4 编码种族和性别偏见的能力以及这种偏见对临床护理的影响。结果表明，GPT-4 没有准确地模拟医疗状况的人口多样性，常常在临床案例中强化刻板印象。鉴别诊断，治疗计划表现出显著的偏倚，将人口统计学特征与刻板印象疾病和更昂贵手术的建议联系起来。这些发现强调了在临床环境中部署像 GPT-4 这样的 LLM 之前进行彻底的偏见评估和缓解策略的必要性，以确保公平的医疗保健服务。

[3] 在多个医学问答任务中评估 Pathways 语言模型（PaLM）及其指令调整变体 Flan-PaLM。评估的临床任务包括专业医学、医学研究和消费者医疗查询，包括诊断推理和临床知识应用等领域。评估指标涵盖事实性、理解力、推理力、潜在危害和偏倚，以及 MedQA、MedMCQA、PubMedQA 和 MMLU 临床主题等多项选择数据集的准确性。Flan-PaLM 实现了最先进的准确率，在 MedQA 上达到了 67.6%，比以前的基准高出 17% 以上。然而，人工评估突出了需要改进的领域，特别是在使模型响应与临床专业知识保持一致以及最大限度地减少潜在的错误信息或伤害方面。

[4] 包括一项评估 ChatGPT 在医疗领域应用的研究。该研究的重点是评估聊天机器人对 17 个专业中医生开发的医学查询的响应，包括与疾病识别和管理等临床任务相关的二元（是 / 否）和描述性问题。评估指标涉及回答的准确性和完整性，使用 6 点李克特量表的准确性（1 分表示完全错误，6 分表示完全正确）和 3 分李克特量表的完整性（1 分表示不完整，3 分表示完成，有额外的背景）。结果显示，在不同问题难度下，准确率得分中位数从 5.0 到 6.0 不等，表明表现水平介于大部分正确到完全正确之间，完整性得分中位数为 3.0，反映了全面的答案。这项研究强调了 ChatGPT 在为一系列医疗查询提供基本准确信息方面的潜力，同时强调了进一步改进和验证临床使用的必要性。

专业科室和疾病应用：

在接下来的部分中，我们深入探讨了各个专业医疗部门和特定疾病应用中对 LLM 的评估。该研究涵盖多个医学领域，从解决糖尿病管理的内分泌学到以眼部疾病为重点的眼科，并延伸到骨科、心理健康和生殖医学等。每项研究都为在这些不同的医学领域实施 LLM 的潜力和挑战提供了独特的视角。

[5] 评估专业医学领域的 ChatGPT 和 GPT 4.0，重点关注内分泌学 2 型糖尿病（T2DM）患者的营养管理。评估的临床任务包括提供循证饮食建议、回答常见的营养治疗问题以及提出食物建议。评估指标包括通过中国注册营养师考试、将食物建议与专家建议保持一致，以及专家对 ChatGPT 对营养查询的回答进行审查。结果表明 ChatGPT 和 GPT 4.0 都通过了营养师考试。ChatGPT 的食物推荐和回应大多符合最佳实践，获得了专业营养师的好评，展示了它在糖尿病管理的医学营养治疗领域内饮食管理和患者教育方面的潜力。

[6] 利用 ChatGPT-3.5 和 GPT-4.0 以及谷歌的 Bard 来评估它们在眼科的表现，重点是解决与眼部症状相关的问题。该研究评估了这些大型语言模型（LLM）在识别和管理各种眼部疾病方面的临床应用。评估指标包括准确性（分级为差、边缘、良好）和回答的全面性，以及模型在自我检查和自我纠正能力方面的自我意识。ChatGPT-4.0 是最准确的，其 89.2% 的回复被评为 “良好”，优于 ChatGPT-3.5 （59.5%）和 Google Bard （40.5%）。所有 LLM 都表现出较高的综合性分数（4.6 到 4.7 分，满分 5 分），但表现出低于标准到中等的自我意识能力。

[7] 评估了眼科领域的 ChatGPT（GPT-3.5）模型。它专注于眼科专业部门，通过在线医疗论坛解决提供患者护理建议的临床任务。评估指标包括区分 AI 生成的回答与眼科医生编写的回答的能力、是否存在不正确的信息、与医学共识的一致性、伤害的可能性和程度。结果表明，ChatGPT 的回答与人类编写的回答在很大程度上没有区别，在正确信息、安全性和共识对齐方面的准确率相似。该研究强调了像 ChatGPT 这样的 LLM 生成适当的眼科建议的潜力，可与董事会认证的眼科医生相媲美。

在评估大型语言模型（LLM）在医疗行业中的应用时，[13] 专注于近视相关查询，使用了 ChatGPT-3.5、ChatGPT-4.0 和 Google 的 Bard。这项研究针对眼科，专门针对近视疾病。评估包括各种临床任务，包括近视的发病机制、危险因素、临床表现、诊断、治疗和预防以及预后。LLM 的回答由三位顾问级儿科眼科医生根据准确性和全面性进行评估，使用三分制准确度量表（差、临界、良好）和五点综合性量表。ChatGPT-4.0 表现出卓越的性能，80.6% 的回答在准确性方面被评为 “良好”，并且显示出较高的平均综合性分数，凸显了它在为近视护理提供精确和详细的信息方面的潜力。

在评估 Claude-instant-v1.0、GPT-3.5-Turbo、Command-xlarge-nightly 和 Bloomz 的研究中 [8]。这项研究专门针对眼科、骨科和皮肤病学的临床专业，包括 60 种不同的疾病。该评估评估了 LLM 生成治疗建议的能力，重点关注临床任务，例如治疗建议的准确性和安全性。评估标准包括 mDISCERN 评分、正确性和建议的潜在危害性。结果显示，在所检查的医学领域中，模型在质量和安全性方面存在显着差异，Claude-instant-v1.0 的平均 mDISCERN 评分最高，而 GPT-3.5-Turbo 的危害性评分最低，表明 LLM 在为特定疾病和部门生成临床建议方面的细微表现。

[9] 评估了 ChatGPT（GPT-3.5），重点关注其在骨科中的应用，特别是评估其自我诊断腕管综合征、脊髓型颈椎管病、腰椎管狭窄症、膝骨关节炎和髋关节骨关节炎等常见疾病的能力。该研究旨在衡量模型在提供诊断和推荐医疗咨询方面的准确性和精确度。评估指标包括正确答案比率、使用 Fleiss K 系数的天数和评分者之间的可重复性以及医疗咨询建议的程度。结果表明，正确答案率从脊髓型颈椎病的 4% 到腕管综合征的 100% 不等。可重复性也各不相同，这表明 ChatGPT 在骨科领域的诊断能力不一致。

[10] 在生殖医学专业部门评估了 2023 年 2 月版的 ChatGPT，重点关注与生育相关的临床查询。评估的临床任务包括提供 CDC 的不孕症常见问题解答信息，完成经过验证的生育知识调查（卡迪夫生育知识量表和生育和不孕症治疗知识评分），以及复制美国生殖医学学会关于 “优化自然生育能力” 的委员会意见。评估基于回复长度、事实内容、情感分析和再现关键事实的准确性。ChatGPT 在回复长度、事实内容和情绪方面表现出与已建立来源相当的性能，在生育知识调查中取得了高百分位数，并准确再现了委员会关于优化自然生育意见的所有关键事实。这凸显了 ChatGPT 作为生育相关临床信息的相关且有意义的工具的潜力，尽管它指出了引用来源的局限性和伪造信息的风险。

[11] 探讨了 ChatGPT 在心理健康部门内评估自杀风险中的应用。该实验利用 2023 年 5 月 24 日更新的 ChatGPT 3.5 和 4 版本来评估它们在精神病学背景下的能力。解决的临床任务是评估自杀风险，包括感知负担和受挫的归属感等因素。评估是根据心理、自杀意念、自杀未遂风险和恢复力等各种指标进行的。结果显示，ChatGPT-4 对自杀风险和自杀意念的评估与心理健康专业人员的评估相当，突出了它在临床环境中的潜在效用。然而，它也显示出高估心理的倾向，这表明了需要进一步研究和改进的领域。[12] 介绍了医学多模态大型语言模型（Med-MLLM），利用多模态医疗数据的大规模预训练。Med-MLLM 专注于放射学，特别是胸部 X 光（CXR）和计算机断层扫描（CT）图像 [148、149、150、151、152]，针对 COVID-19 等疾病及其变体，包括 Delta 和 Omicron。评估涵盖临床任务，例如医疗报告、疾病诊断和患者预后。使用的性能指标包括用于报告的自然语言生成指标（BLEU、ROUGE-L、CIDEr），以及用于诊断和预后任务的准确性和 AUC。值得注意的是，与完全监督的模型相比，Med-MLLM 仅用 1% 的标记数据在各种任务上表现出具有竞争力或卓越的性能，展示了其在处理数据有限的罕见疾病方面的稳健性和效率。

[14] 探讨了 LLM 在临床任务中的利用，例如这些领域特定疾病的鉴别诊断和临床管理。虽然没有通过指标直接评估绩效，但作者讨论了 LLM 在增强患者参与度、提高诊断准确性和提供个性化治疗计划方面的潜力。它们强调了像 ChatGPT 4.0 这样的 LLM 解决数据隐私、道德考虑和 AI 生成信息验证等挑战的必要性，以确保它们在临床环境中有效和安全使用。支持部门应用：

在下一节中，我们将深入探讨大型语言模型（LLM）在医疗领域的支持部门中的应用和评估，特别关注放射学和急诊科场景。所介绍的研究探讨了 ChatGPT 等模型在放射学决策、神经放射学诊断测验、从胸部 X 光片自动生成放射学报告以及紧急情况下的诊断和分诊中的效用设置。每篇研究文章都提供了对 LLM 在这些不同但关键的医疗实践领域的能力和表现的见解。

[15] 利用 ChatGPT-3.5 和 GPT-4 来探索它们在放射学临床决策支持方面的能力。该研究的重点是评估模型在确定用于乳腺癌筛查和乳房疼痛的适当成像服务方面的表现，这是放射学决策的关键领域。评估是根据美国放射学会（ACR）适当性标准进行的，使用开放式和全选提示格式。将 ChatGPT 的建议与 ACR 指南进行比较以评估一致性。结果显示，ChatGPT-3.5 和 GPT-4 表现良好，与 ChatGPT-3.5 （88.9%）相比，GPT-4 在选择合适的成像模式进行乳腺癌筛查方面表现出更高的平均正确百分比（98.4%）。对于乳房疼痛，GPT-4 在准确性上也优于 ChatGPT-3.5，证明了使用大型语言模型进行放射学决策的潜在可行性，并表明新版本的模型性能呈积极趋势。

在他们的研究中 [18]，作者评估了基于 GPT-4 的 ChatGPT（2023 年 7 月 20 日版）在神经放射学领域的应用，特别关注放射科以及大脑、头颈部和脊柱的相关疾病。该研究旨在评估该模型解决美国神经放射学杂志（AJNR） “本月病例” 部分诊断测验的能力，从而评估其在鉴别诊断和临床管理等临床任务中的效用。评价标准包括诊断准确性和鉴别诊断的有效性，使用五点李克特量表进行量化。结果显示，140 例病例的总体诊断准确率为 57.86%，表现因亚组而异：大脑为 54.65%，头颈部为 67.65%，脊柱为 55.0%。本研究强调了 ChatGPT 4.0 作为特定医学领域放射诊断支持工具的潜力。

[16] 重点介绍 LLM 在从胸部 X 光片（CXR）生成放射学报告中的应用，这是一项对诊断放射学至关重要的任务，诊断放射学是医疗保健中的一个支持部门。该研究利用卷积视觉 Transformer （CvT） ImageNet-21K 检查点进行图像编码，利用蒸馏生成预训练 Transformer 2 （DistilGPT2）检查点进行文本解码，旨在在放射学医学领域自动生成报告，特别是用于诊断 CXR 中描述的各种情况。评估的临床任务是自动生成放射学报告，这是临床管理和诊断的关键组成部分。评估指标包括传统的自然语言生成（NLG）指标（BLEU-4、ROUGE-L、METEOR）和临床疗效（CE）指标，侧重于诊断准确性。该模型 CvT2DistilGPT2 与最先进的模型相比具有显着改进，CE F-1 评分提高了 8.3%，表明诊断准确性和报告质量更高，类似于放射科医生生成的报告。

[17] 评估了 ChatGPT 3.5 和 4.0 版本的性能，重点关注急诊科（ED）设置。它解决了有紧急或紧急问题的患者的诊断和分诊的临床任务，将 LLM 的性能与 WebMD 和 Ada Health 的症状检查器应用程序进行比较，以及来自董事会认证的 ED 医生的诊断和分诊建议。评估指标包括诊断准确性（通过 LLM 诊断与最终 ED 诊断之间的匹配比例来衡量）和分诊准确性（通过与医生建议的协议来衡量）。ChatGPT 3.5 表现出较高的诊断准确性，但较高的不安全分诊率，而 ChatGPT 4.0 表现出与医生的分诊一致性更高，但诊断准确性较低。该研究强调了在关键临床环境中应用像 ChatGPT 这样的 LLM 的潜力和局限性，强调了在无人监督的患者使用之前提高分诊准确性和彻底临床评估的必要性。

3.1.2 医学文本数据处理应用程序评估

在一项开创性的研究中 [19]，研究人员开发了 GatorTronGPT，这是一种基于 GPT-3 架构的生成式大语言模型（LLM）。该模型使用多样化的数据集进行训练，该数据集包含来自佛罗里达大学健康中心的 820 亿个单词的去标识化临床文本，跨越 126 个临床部门和大约 200 万名患者，以及 1950 亿个单词的通用英语文本。评估的重点是生物医学自然语言处理（NLP）任务，特别是关系提取和问答，使用六个基准数据集。GatorTronGPT 展示了最先进的性能，在药物相互作用、化学 - 疾病关系和药物 - 靶点相互作用的关系提取方面优于 F1 得分最高的现有模型，并在生物医学问答方面取得了有竞争力的准确性。这凸显了 GatorTronGPT 在处理医学文本数据（例如临床笔记和电子健康记录（EHR））方面的潜力，用于医疗行业的高级 NLP 应用程序。

在评估大型语言模型在医疗行业中的应用时，研究人员 [20] 专注于 ChatGPT 版本 GPT-3.5 和 GPT-4。他们的综合基准研究评估了 ChatGPT 在各种医学文本数据类型中的表现，包括文章摘要等生物医学语料库、临床试验描述和生物医学问题。评估包括一系列数据处理任务，例如命名实体识别（NER）、关系提取（RE）和问答（QA）等。性能指标包括实体级 F1

NER 分数、RE 的 Micro F1 和 QA 任务的准确性。结果强调，ChatGPT 的 BLURB 得分为 58.50，与最先进的模型的 84.30 分相比，表明在生物医学文本理解和生成方面的能力有效但有限。

在一项综合评估中，研究人员 [21] 评估了四种流行的 LLM——GPT-3.5、PaLM-2、Claude-2 和 LLaMA-2—— 在不同医学文本数据处理任务中的表现。这些任务对于生物医学文本分析至关重要，包括命名实体识别（NER）、关系提取（RE）、实体链接、文本分类、问答和文本摘要。他们的表现是在 26 个数据集中衡量的，这些数据集包含各种类型的医疗数据，例如临床记录、患者电子健康记录（EHR）和医学研究文章。评估的重点是 NER 和 RE 任务的精度、召回率、F1 分数等指标；Recall@1 实体链接；F1 和文本分类和问答的准确性；以及用于文本摘要的 ROUGE 和 BERTScore。研究结果揭示了 LLM 强大的零样本能力，尤其是在训练数据集较小的任务中，有时甚至优于专门为这些任务微调的最新模型。然而，它们在不同的任务和数据集中表现不同，这表明没有一个 LLM 在所有评估中始终优于其他 LLM。

在一项专注于处理患者发起的电子健康记录（EHR）消息的回顾性队列研究 [22] 中，基于 distilBERT 模型开发了自然语言处理（NLP）框架，该模型是 BERT 的更轻量级版本，经过优化，可实现更快的计算速度，而不会显著降低性能。该 NLP 模型用于对 EHR 系统内的患者通信进行分类和分类，特别是针对与 COVID-19 相关的消息。该模型的主要任务包括从包含各种患者发起的 EHR 消息（包括测试报告和健康查询）的数据集中准确识别报告 COVID-19 检测结果呈阳性的消息。评估指标以分类准确性、灵敏度和宏 F1 分数为中心。该模型显示出很高的有效性，宏观 F1 评分为 94%，对 COVID-19 相关消息（未报告阳性测试）的敏感性为 85%，对 COVID-19 阳性测试报告的敏感性为 96%，对非 COVID-19 通信的敏感性为 100%。

在 [23] 中，研究人员评估了 Flan-T5（一种公开可用的大型语言模型（LLM））在电子健康记录（EHR）中的出院记录中对产后出血（PPH）患者进行表型分析的应用。该数据集由 271,081 份出院摘要组成。该模型的性能根据与 PPH 相关的 24 个颗粒概念进行评估，证明其能够提高表型准确性和患者识别，用于临床和研究目的。评估指标包括敏感性、特异性、阳性预测值（PPV）、二元 F1 评分和准确性，该模型取得了很好的结果，例如表型 PPH 的 PPV 为 0.95。这表明该模型在从非结构化临床文本中识别相关医学概念方面具有很高的保真度，展示了其在医学文本数据处理应用中的潜力，而无需大量带注释的训练数据。

在 [24] 中，研究人员专注于利用 RoBERTa 处理慢性腰痛（cLBP）患者的临床记录。探索的医疗数据类别包括临床记录，包括进展记录和急诊科提供者记录。评估针对命名实体识别（NER）和自然语言推理（NLI）任务。采用 F1 分数等性能指标来评估模型，RoBERTa 在 NER 任务中取得了 84.4% 的 F1 分数。此外，基于 RoBERTa 的蕴涵模型证明了其通过 NLI 识别健康的社会决定因素（SDoH）的能力，尽管临床叙述很复杂，但仍表现出显着的表现。这种探索强调了大型语言模型在处理和从非结构化医学文本中提取有价值信息的潜力。

在 [25] 中，作者探索了 BERT 及其变体 BioBERT 对意大利语的改编，以处理生物医学文本数据。他们试验了医学数据，包括机器翻译的生物医学摘要和意大利本土医学教科书，重点是特定领域的适应。评估涵盖了各种数据处理任务，例如命名实体识别（NER）、提取式问答（QA）和关系提取（RE），跨翻译成意大利语的不同生物医学数据集。性能是根据语言建模的平均倒数秩（MRR）和下游任务的 F1 分数来衡量的。源自机器翻译的 PubMed 摘要的 BioBIT 模型显示出与基线相比的显着改善，尤其是在 NER 和 RE 任务中，F1 评分分别提高了 5.9% 和 9.4%。这些结果强调了该模型在意大利语生物医学语言理解和处理方面的有效性，解决了资源较少的语言的资源差距。

在一项利用基于 transformer 的模型构建自由文本放射学报告的研究中 [26]，作者对 BERT 进行了实验，重点关注重症监护病房（ICU）患者的德国胸部 X 光报告。他们评估模型在文本分类任务上的性能，特别是确定了报告中提到的六个放射学发现。评估指标包括宏观平均 F1 分数（MAF1）和置信区间（CI）。该研究比较了不同预训练和标记策略的有效性：使用掩蔽语言建模的现场预训练模型与医学预训练模型，均使用 “银色”（基于规则）和 “金色”（手动注释）标签进行微调。观察到，金的性能最高，达到 95.5% 的 MAF1（CI： 94.5–96.3），强调了自定义预训练与手动注释相结合对医学文本数据处理应用程序的效率。

在所提出的研究 [27] 中，开发了一种深度学习系统，用于临床叙述中的章节识别任务，特别是非结构化的临床记录，例如用西班牙语编写的进展记录。该系统的基础是基于 transformer 的预训练语言模型，特别是 BSC 的 bsc-bio-her-es 模型，该模型已在由 1038 个带注释的临床文档组成的精选语料库上进行了微调。系统性能的评估是使用新设计的 B2 指标进行的，重点是截面识别的准确性。该指标允许对系统准确识别和分类临床记录中各部分的能力进行细致的评估。该系统在提供给社区使用的开源数据集上取得了 71.3 的平均 B2 分数，在数据稀缺场景中取得了 67.0 分，展示了其在医疗行业内处理临床叙述方面的有效性和应用潜力。

在一项综合分析中 [28]，重点是利用 NLP 算法从胸部 CT 放射学报告中提取和分类肺结节来评估 LLM。这项调查专门处理了成像报告，这是患者电子健康记录（EHR）的一个重要类别，以评估 LLM 在医学文本数据处理任务中的性能。为此目的开发的 NLP 算法评估了其准确识别包含肺结节的报告并测量这些结节直径的能力。评估指标集中在敏感性、特异性和准确性上，该算法取得了显著的结果：识别含结节报告的敏感性为 94%，确定报告的最大结节直径的准确率为 93%。本研究强调了 LLM 在处理和分析临床影像学报告方面的功效，从而为医学领域肺癌的早期发现和管理奠定了重要基础。

在这项研究 [29] 中，探索了一种基于 Transformer 的融合模型 ARMOUR 在临床环境中进行多模态数据处理。该模型专为处理结构化和非结构化医疗数据而设计，例如生理测量和临床记录，反映了其在各种医疗数据类型上的应用。评估侧重于六项临床预测任务，包括风险预测和诊断相关组（DRG）预测，以评估模型在处理和处理医学文本数据以及结构化测量方面的性能。使用二元分类任务的接受者操作曲线下面积（AUROC）和精度 - 召回曲线下面积（AUPRC）等指标，以及多类分类任务的准确性和宏 F1 等指标进行性能评估。结果突出了 ARMOUR 与单峰和其他多模态基线方法相比的卓越性能，展示了其在整合结构化和非结构化医疗数据以改进临床预测方面的有效性。

在这项研究 [30] 中，研究人员利用基于自然语言处理（NLP）技术的 Savana Manager 3.0 人工智能平台进行数据提取和分析。该 AI 应用程序部署在西班牙卡斯蒂利亚 - 拉曼恰地区医疗保健服务（SESCAM）提供的电子健康记录（EHR）衍生的临床诊断数据上，时间跨度为 2012 年 1 月至 2020 年 12 月。该研究的重点是处理 EHR 中的非结构化临床信息，特别是针对特发性肺纤维化（IPF）诊断，以确定患者概况、诊断测试利用和治疗管理。评估指标包括精确率（P）、召回率（R）和 F 分数，结果表明在病历中识别 IPF 病例的准确性很高：、和。这些发现强调了在医疗数据处理中应用大型语言模型的有效性，尤其是在从 EHR 中准确提取和分析患者信息方面。

3.1.3 医学研究申请评估

像 ChatGPT 这样的 LLM 在医学研究中迅速扩散，突显了人工智能和医疗保健交叉领域的变革阶段。虽然自己没有进行实证评估，但 [44] 讨论 ChatGPT 在医学领域的使用提供了指导该领域研究人员的重要见解。这些见解在强调 LLM 促进的研究方法的潜在改进的同时，也强调了迫切需要实证研究以在现实世界环境中验证这些技术。本文提出的关键点包括迫切呼吁进行更多的实证研究，以证实 LLM 在医疗应用中的效率和有效性的说法。作者指出，虽然 ChatGPT 在 PubMed 中的引用率表明医学界正在迅速接受，但这些参考文献的很大一部分来自社论和评论，而不是严格的研究。这一差距表明迫切需要结构化和有据可查的实证研究，以评估 LLM 对医学研究和实践的实际影响。基于对 LLM 在医学研究中的潜在应用的见解，深入研究如何在科学探究的不同方面对这些技术进行实证评估至关重要。在这一部分中，我们旨在概述应用于医学科学研究的 LLM 评估，具体涉及三个关键领域：1. 生物医学信息检索和科学文章筛选；2. 建模和分析；3. 撰写科学文章和生成参考文献。

检索和筛选：

MedCPT [32] 通过利用基于 Transformer 的模型脱颖而出，该模型专为生物医学信息检索 （IR）而设计。MedCPT 在各种生物医学 IR 任务上进行了实验测试，通过零镜头设置证明了其能力。根据多个指标评估性能，包括文献检索、文章表示和句子表示。值得注意的是，MedCPT 在六种不同的 IR 任务上取得了最先进的结果，在 Benchmarking-IR （BEIR）套件中树立了新的基准，超越了传统的稀疏检索器，甚至超越了 OpenAI 的 cpt-text-XL 等更大的模型。这突出了它在生成卓越的生物医学文章和句子表示方面的功效，从而强调了它在医学研究应用中的实用性。

[32] 利用 ChatGPT 和 GPT-4 API 自动筛选标题和摘要以进行临床审查。这些大型语言模型（LLM）的性能是根据准确性、宏观 F1 评分、敏感性和评分者间可靠性进行评估的，其中 k 和患病率调整和偏倚调整 k （PABAK）。结果表明，总体准确率为 0.91，宏观 F1 评分为 0.60，纳入论文的敏感性为 0.76，排除论文的敏感性为 0.91。此外，该模型与人类审阅者高度一致，突出了其在识别相关临床研究方面的效率和可靠性。

建模与分析：

在这项研究 [33] 中，一种名为 cMolGPT 的生成式预训练 Transformer 启发模型被用于实验针对特定蛋白质的从头分子设计。使用新化合物的 SMILES 字符串的生成来评估 LLM 在医学研究中的应用。评估指标包括有效和唯一分子的比例、片段相似性以及与最近邻的相似性等。结果表明，cMolGPT 在生成有效和独特的分子方面优于基线模型，表明它在设计针对给定靶标的药物样化合物方面的有效性。这些发现突出了该模型对药物发现中的分子优化周期做出重大贡献的潜力。

在 “BioSeq-Diabolo” 上发表的研究中，[34] 研究人员利用 NLP 衍生的语义分析方法来评估生物序列相似性，这项任务类似于自然语言中的语义相似性分析。他们应用这些技术来评估蛋白质远程同源检测、circRNA 疾病关联和蛋白质功能注释。评价指标包括受试者工作特征曲线（ROC）、精确召回曲线（PRC）和学习排名（LTR）整合方法。实验结果表明，BioSeq-Diabolo 中基于 NLP 的方法在这些任务中优于其他最先进的预测因子，突出了利用大型语言模型技术进行复杂生物序列分析的潜力。

RNA-MSM [35] 是一种 RNA MSA 转换器语言模型，通过利用通过 RNAcmap3 生成的同源序列数据而脱颖而出。该模型专门针对与 RNA 二级结构预测和溶剂可及性预测相关的任务进行评估。评估指标包括二级结构的精确率 - 召回率曲线、F1 分数和 Matthews 相关系数（MCC），以及溶剂可及性的 Pearson 相关系数（PCC）和平均绝对误差（MAE）。RNA-MSM 模型与 SPOT-RNA2 等现有技术相比有了显著改进，展示了 LLM 在破译复杂生物数据和增强医学研究应用中预测性能的稳健性和精确性。

在这项研究中 [36]，作者基于类似 BERT 的架构开发并评估了一个名为 NYUTron 的 LLM。NYUTron 在医学领域进行了专门测试，专注于纽约大学朗格尼卫生系统内的一系列临床和运营任务。这些任务包括预测 30 天全因再入院、院内死亡率、合并症指数、住院时间和保险拒绝预测。使用曲线下面积（AUC）作为主要指标来评估模型的性能。NYUTron 展示了 AUC 从 78.7% 到 94.9% 不等，在不同任务中的表现优于传统模型 5.36% 到 14.7%，显示了其在利用非结构化临床记录进行预测性医疗保健分析方面的有效性。

在这项研究 [37] 中，使用称为 CNBERT 的特定领域的预训练语言模型进行了实验，该模型在大型临床笔记数据集上进行了训练，以定制其医疗应用的能力。评估的重点是医学文本分类任务。这些任务使用准确性作为主要绩效指标进行评估。结果表明，CNBERT 模型在各种测试设置中的性能优于标准 NLP 方法，甚至其他特定领域的 PLM。具体来说，通过 MedKPL 框架整合医学知识显著提高了分类准确性，证明了不同医疗部门的多分类和二元分类任务的稳健性。

在这项研究中 [38]，研究人员利用一种基于集合的新型方法对社交媒体数据进行情绪分析，以评估英国公众对 COVID-19 疫苗的情绪。该集成模型集成了基于词典规则和基于深度学习的方法的混合体，特别是结合了用于情感推理的价感知字典（VADER）、TextBlob 和来自 Transformers 的双向编码器表示BERT）模型。对此应用程序的评估包括监测社交媒体帖子中提到的免疫后不良反应（AEFIs）的频率和性质，以及分析与疫苗和制造商相关的情绪趋势。该研究报告称，公众对疫苗的总体积极情绪为 58%，消极和中性情绪分别为 22% 和 19%。这种集成方法在捕捉公众舆论趋势方面表现出稳健的表现，为药物警戒和公共卫生政策制定提供了互补的见解。

写作和参考生成：

[39] 利用 GPT-3 探索其在医学领域，特别是在神经外科领域生成欺诈性科学文章的能力。评估的重点是该模型模拟真实医学研究论文的结构和内容的能力。评估的关键方面是语言的连贯性、技术准确性以及引文和参考文献的真实性。结果表明，虽然 AI 可以生成表面上类似于真实科学文章的文本，包括正确的格式和连贯的布局，但它也会生成一些不正确和不存在的引用，在专家审查时揭示了其输出中的潜在缺陷。

[40] 回顾了 GPT-3 和 GPT-4 在医学写作中的应用。它讨论了它们在生成各种医疗文件中的理论用途，强调需要医疗专业人员进行监督，以确保 AI 生成内容的准确性和道德完整性。偏见、错误信息和隐私等问题被强调为需要对这些模型进行持续培训和监管的重大问题。虽然讨论涉及丰富的伦理和运营考虑，但它不包括实证评估的结果，但强调了专家在实际医疗环境中进行批判性审查的重要性。

[43] 研究了 GPT-3.5 和 ChatGPT 在零镜头医学证据摘要中的能力。该评价利用 Cochrane 综述的摘要，对六个临床领域的总结任务进行了评估。评估的关键方面是连贯性、事实一致性、全面性和危害性。结果表明，虽然 LLM 可以有效地从源文档中捕获重要信息，但它们有时会生成事实不一致的摘要或可能有害的内容。这些发现表明，虽然 LLM 是有前途的医学总结工具，但有必要仔细审查以确保其输出在医疗应用中的可靠性和安全性。

[42] 讨论了 ChatGPT 在医学研究领域的应用，强调了它在简化科学文件和官僚文本创建方面的潜力。然而，他们警告不要不加批判地使用这项技术，因为在内容生成中观察到不准确，特别是在科学引用领域。该研究确定了 ChatGPT 提供不正确或捏造的文献参考的例子，强调了未经验证就依赖 AI 生成的数据的风险。这项分析表明，虽然像 ChatGPT 这样的 LLM 可以成为医学研究中的有用工具，但必须仔细检查其输出的准确性和可靠性，尤其是在用于临床决策或教育环境时。

[41] 利用 GPT-3.5 评估其在确定肾脏病学文献综述参考文献方面的有效性。评估的重点是参考生成的准确性和可靠性。关键指标包括参考文献的存在性、完整性和真实性。结果表明，ChatGPT 提供的参考资料中有 62% 存在，但只有 20% 是真实的。该研究强调了大量捏造（31%）和不正确（7% 不完整）的参考文献。值得注意的是，DOI 和链接准确性经常出现错误，这表明 ChatGPT 在医学研究应用中的可靠性有限，而没有进一步验证和交叉检查。

虽然 LLM 对医学研究的各个方面都显示出有希望的改进，但仍然存在需要进一步研究的重大挑战。数据隐私、潜在偏见、错误信息以及确保数据处理的多样性等问题需要全面评估。解决这些问题对于以道德上合理和科学稳健的方式推进 LLM 申请至关重要。未来的研究必须继续批判性地评估这些领域，确保 LLM 技术的进步与提高医学研究的准确性、公平性和安全性的总体目标保持一致。

3.1.4 医学教育和公众意识应用评估

医学教育：

随着医学教育领域寻求创新方法来加强学习和知识传播，LLM 正在兴起，具有影响该领域的巨大潜力。LLM 能够理解复杂的文本、通过医疗场景进行推理以及生成连贯且上下文相关的响应，这使它们成为教育技术领域有前途的工具。LLM 在医学教育中的应用被认为特别有价值，原因有很多：它们可以作为补充资源，提供解释和案例研究，帮助专业人士了解最新的研究和循证实践，并为学习和评估提供互动平台。虽然 LLM 对医学教育的切实影响仍在探索后，它们彻底改变该领域学习体验的潜力是显而易见的。这些模型可以通过交互式方法简化复杂内容的消化，从而增强对医学知识的理解和保留。此外，LLM 为其高级推理和响应生成功能为评估学术内容和增强传统考试准备提供了有前途的途径。这种广泛的实用程序标志着向更具活力和响应性的教育环境的转变，其中 LLM 支持更深入地参与材料并提供个性化的学习体验。本节选择讨论的文章将批判性地研究这些潜在应用，评估 LLM 在为医学生和专业人士培养高级教育框架方面的有效性和实用性。

教育材料的质量至关重要，虽然 LLM 有能力生成高质量的教学内容，但必须评估其输出以防止向医疗专业人员传播不准确或偏见。该研究 [2] 利用 GPT-4 来评估其在生成临床小插图中的应用。这些小插图对于通过模拟准确代表人口统计多样性的患者病例来培训医学生和专业人员至关重要。评估的重点是与美国实际患病率数据相比，该模型描绘各种医疗状况的正确人口分布的能力。研究结果表明存在重大偏差，因为 GPT-4 在其临床表现中经常对某些人口统计数据进行刻板印象。例如，它在关于结节病的小插曲中高估了黑人患者的比例，而在各种情况下低估了其他人口统计数据。这些偏见凸显了在教育工具中仔细实施和监控 LLM 的必要性，以防止在医学培训中强化刻板印象。

关于教育材料，在线医疗内容量很大，也可以利用大型语言模型来评估现有在线内容的质量，因为高质量的教育材料可以显著提高学习效率。该研究 [49] 访问了 ChatGPT 评估在线医疗内容质量和可读性的能力。具体来说，他们集中在 ChatGPT 使用 DISCERN 工具和可读性评估的熟练程度上，重点是冲击波疗法治疗勃起功能障碍。根据 DISCERN 分数的准确性和各种可读性指数（如 Flesch-Kincaid 水平和 Gunning Fox 指数）进行评估。结果显示，ChatGPT 的评估与从已建立的人类评估者和可读性工具获得的评估之间存在显着差异，这表明 ChatGPT 可能还不能像人类专家和既定仪器那样准确地有效地评估医学内容。

除了传统的教育材料外，大型语言模型（LLM）还作为快速知识检索和学习支持的工具促进了学习过程。本研究 [50] 将 ChatGPT（GPT-3）用于口腔颌面放射学领域的教育场景。它评估了该模型提供有关放射学解剖标志和病理学详细信息的能力。评估基于一组 80 个问题，这些问题涵盖解剖标志、特定病理及其影像学特征。使用修改后的 4 点李克特量表对模型的反应进行分析和评分。结果表明，ChatGPT-3 准确描述了影像学标志，平均得分为 3.94，有效地传达了病理的特征，病理平均得分为 3.85，影像学特征平均得分为 3.96。这项研究强调了 ChatGPT-3 在医疗环境中作为补充教育工具的潜力，尽管它强调了细节、特异性和医学缩写处理方面的局限性。

除了教育过程中的信息检索和学习支持外，许多研究人员还实证评估了 LLM 在回答标准化公开考试问题方面的能力，以衡量他们的理解和知识掌握情况。这些评估突出了 LLM 是否有潜力充当学习助手。[45] 利用 GPT-3.5 和 GPT-4 版本来回答第 112 届日本国家护理考试（JNNE）的问题。这些模型根据它们在多种问题类型（包括必答题、一般题、基于场景的问题和对话题）中提供正确答案的能力进行评估。性能指标包括每种问题类型的准确率。结果表明，从 GPT-3.5 到 GPT-4 的准确性有了显著提高，证明了 LLM 在医学教育环境中的潜在好处。

在这项研究 [47] 中，ChatGPT（GPT-3）在皇家妇产科学院的模拟客观结构化临床检查（OSCE）中进行了测试。该实验评估了 ChatGPT 在与各种妇产科主题相关的结构化讨论问题上的表现。评估人员根据其事实准确性、上下文相关性、沟通、信息收集、患者安全和应用临床知识来评判 ChatGPT。结果表明，ChatGPT 的表现优于历史人类考生的平均分数，在考试格式的限制下表现出快速且符合上下文的响应。

在这项研究中 [48]，ChatGPT 和 GPT-4 在回答涉及同理心和道德等软技能的 USMLE 式问题方面的表现进行了评估。具体来说，这些模型的任务是 80 道多项选择题，旨在评估沟通、专业精神和道德判断。这些问题来自 USMLE 网站和 AMBOSS 题库。性能指标包括准确性和一致性，GPT-4 通过正确回答 90% 的问题展示了卓越的结果，而 ChatGPT 为 62.5%，并且其回复中没有显示任何修订，突出了其在处理复杂医学伦理场景方面的稳健性和可靠性。

除了标准化的测试问题外，一些研究人员 [46] 还开发了设计良好的案例小插图来评估 LLM 能力。在一项涉及 ChatGPT、Google Bard 和 Microsoft Bing 等模型的研究中，使用了 50 个血液学相关案例来测试它们在医学教育中的应用。这些模型根据它们回答一系列血液学主题问题的能力进行了评估。医疗专业人员以 1 到 5 的等级对回答进行评分。结果显示模型之间的性能存在显着差异，其中 ChatGPT 得分最高，证明了其在医学教育用途方面的潜在有效性。

在一项比较研究中 [51]，评估了 ChatGPT、Google Bard 和 Microsoft Bing 在生理学教育中解决案例小插曲的能力。这些模型的任务是响应 77 个经过验证的生理病例小插曲。评估侧重于准确性和适当性，使用围绕观察到的学习成果构建的 0 到 4 的量表。结果表明，ChatGPT 的表现优于其他 ChatGPT，总体准确性得分更高，表明它在医学教育环境中的潜在效用。

公众意识应用：

在后 COVID-19 时代，随着 GPT 技术应用的激增，公众被质量参差不齐的信息所淹没。研究人员正在应用 LLM 来筛选这些数据，识别真实信息，提供准确的医学见解，并支持公众的自我诊断工作。要充分了解 LLM 为这些应用程序带来的价值，检查这些用例的评估至关重要。

在之前对用于评估在线医学内容的质量和可读性的 LLM 的讨论的基础上 [49]，LLM 在辨别信息真实性方面的适用性也具有可行性。该研究 [52] 的重点是使用基于 transformer 的模型（如 BERT 和 COVID-Twitter-BERT （CT-BERT））检测与 COVID-19 相关的假新闻。研究人员通过辨别社交媒体平台上传播的信息的真实性，评估了这些模型在公众意识场景中的有效性。评估指标包括准确率、精密度、召回率和 F1 评分，模型 CT-BERT 与 BiGRU 层相结合，F1 评分为 98.5%，表明高效。

如果 LLM 能够准确辨别内容的真实性，则表明他们有可能向公众提供值得信赖和可靠的信息。一些研究人员通过评估 LLM 如何提供医学知识来探索这种能力，更重要的是，评估它们在传达准确健康信息方面的有效性。[53] 利用 LLM 来解决有关产后抑郁症（PPD）的常见问题，这些问题源自美国妇产科医师学会（ACOG）。具体来说，ChatGPT（GPT-4）和 LaMDA（通过 Bard）与 Google 搜索一起进行了测试。评估的重点是 LLM 生成的对这些 PPD 相关查询的回答的临床准确性。两名获得委员会认证的医生使用 GRADE 知情量表评估临床准确性，评估反应在反映当前医学知识方面的适当性。结果表明，与 Bard 和 Google 搜索相比，ChatGPT 提供了更临床准确的响应，这表明它通过提供可靠的医疗信息在公共教育中的潜在效用。

[10] 利用 ChatGPT（GPT-3.5）来解决与生育相关的查询。此应用程序在公众意识环境中进行了评估，其中 AI 的任务是响应来自 CDC 和美国生殖医学协会等知名来源的常见问题解答和临床查询。评估指标包括反应准确性、事实正确性以及从医学文件中复制专家共识意见的能力。结果表明，ChatGPT 可以生成信息丰富且相关的回复，该模型在复制医疗建议和事实方面实现了很高的准确性。然而，在来源引用和偶尔的事实不准确方面注意到了局限性。

基于 LLM 向公众传播医学知识的潜力，这些模型还将其效用扩展到帮助个人根据提供的数据对医疗状况进行初步评估或解释。在这项研究 [9] 中，ChatGPT（GPT-3.5）被用来评估它们在医疗领域内公众意识和教育中的应用。分配给 ChatGPT 的主要任务是根据研究人员提供的症状描述自我诊断常见的骨科疾病。此应用程序旨在评估该模型在帮助公众自我诊断方面的效用，从而可能提高公众对这些情况的认识。评估指标侧重于模型在推荐医疗咨询方面的准确性、精密度和一致性。结果表明，在不同条件下，正确答案率不同，凸显了不一致的表现。ChatGPT 在诊断具有局部症状（如腕管综合征）的疾病方面表现出很高的准确性，但在诊断具有多灶性症状（如脊髓型颈椎病）的疾病方面表现不佳。该评估展示了使用 LLM 进行公共教育在识别症状和了解何时寻求专业医疗建议方面的潜力和局限性。

欧洲临床化学和检验医学联合会（EFLM）人工智能工作组（WG-AI）使用 ChatGPT 来模拟患者场景 [54]。ChatGPT 的任务是解释虚构临床病例的实验室测试结果。WG-AI 成员对这些解释的相关性、正确性、有用性和安全性进行了评估。系统评估了该模型在解释实验室结果方面的性能。虽然 ChatGPT 识别所有实验室测试并且可以检测到与参考区间的偏差，但发现它的解释是肤浅的，并不总是准确的。评估显示了质量维度的不同结果，表明如果没有进一步的医疗数据专业培训，该模型在提供有意义的医学教育或公众意识方面的效用是有限的。

3.2 评价方法和指标的全面讨论

本部分全面概述了用于评估医学领域 LLM 应用的评估方法和指标，重点介绍模型、评估器和比较实验，以及各种评估指标。

3.2.1 模型

【这里是被评估的对象】

在人工智能时代，许多研究人员欣然接纳强大的大语言模型，因为它们在不同任务上具有出色的能力，并且有可能在医学领域得到应用。因此，在医学应用中有各种各样的大语言模型被使用和评估，从像 GPT-4 和 ChatGPT 这样的商业模型，到开源框架以及通过在 Transformer 架构上进行微调等方法开发的定制模型。

GPT 系列：

由于 OpenAI 的影响力和 GPT 系列的能力，医疗领域对 LLM 应用的大多数评估都集中在 GPT 模型上。这包括通过 API 访问 GPT-3.5 或 GPT-4 功能或通过 ChatGPT 接口利用这些模型，正如 [153， 39， 154， 1， 20， 5， 31， 7， 41， 9， 10， 2， 54， 47， 42， 49， 18， 50， 45， 15， 11， 17， 48， 4， 43] 等研究所证明的那样。

其他商用模型：

此外，Claude [158]、Bard [157]、PALM [155]、LaMDA [156] 和 Command [159] 等商业模式在医学评估中也很普遍。一些研究将他们的评估扩展到 GPT 系列之外，以包括这些模型，从而促进更全面的评估。通过比较多个商业模式的性能，这些研究提供了对每个模型之间差异的更广泛理解 [53， 6， 13， 21， 8， 46， 51]。

开源模型：

除了商业 LLM 之外，通用领域的许多开源模型，如 BERT [57]、GPT2 [58]、RoBERTa [161]、LLaMA [64]、Llama 2 [174]、ALBERT [171]、T5 [170]、FLAN-T5 [169]、BLOOMZ [175]、PRIMERA [168] 和 DistilBERT [166]，以及特定领域的许多开源模型，如 BlueBERT [163]、BioGPT [176]、BioBART [173]、BioBERT [172]、ClinicalBert [167]、ProtTrans [165]、BioSeq-BLM [164]、PubMedBERT [85]、 SciBERT [162]、bsc-bioehr-es [160] 也用于应用和评价研究 [21， 8， 22， 34， 16， 23， 24， 25， 26， 27， 38]。虽然商业模式通常是为通用领域设计的，并且在迭代过程中提高了专业能力，但它们在特定领域的性能方面仍然存在差距。开源模型仍然至关重要，为医疗领域提供了重要价值。这些模型允许开发人员专门针对其应用程序场景定制架构和数据，从而提高适用性并为 LLM 应用程序开辟新的可能性。采用开源 LLM 的研究表明，它们在解决特定医疗任务方面具有实际效用和灵活性 [3， 19， 32， 36， 12， 37， 35]。一些更具创新性的研究专门开发了为医疗应用量身定制的 LLM，以满足医疗行业的特定要求和场景。此外，这些研究还在多个 LLM 之间进行了横向比较。

3.2.2 评价器和比较实验

【这里是评估者】

我们探讨了评估人员的多样性，从专家评估到自动化指标，以及该部分中使用的各种比较实验设置。它将讨论不同的评估者如何为 LLM 的评估做出贡献以及所采用的比较实验。

在评估 LLM 时，大致有三种类型的评估器：人类专家、基于预定义指标的自动计算和 AI 驱动的自动评估。目前大多数研究采用前两种方法。

人类评估者：人类专家通常担任主要评估者 [153,39,19,154,1,5,53,6,7,41,8,15,9,10,2,54,46,47,3,13,42,4,18,50,51]。例如，在 [153] 中，各种特定领域的专家，如普通内科医生、放射科医生和移植肝病学家，评估了 ChatGPT 执行的任务。这些评估基于诊断准确性、美国放射学会（ACR）的临床适宜性标准以及诸如克朗巴哈系数等可靠性指标。这些专家评估了该模型在生成鉴别诊断、医疗文档和回答医疗问题方面的表现。在 [15] 中，两位独立的放射学专家评估了 ChatGPT-3.5 和 ChatGPT-4 的性能。评估也基于 ACR 适宜性标准，该标准是乳腺癌筛查和乳房疼痛管理中影像推荐的标准。这些标准根据特定的患者表现评估诊断方式的临床效用。独立评分者对 ChatGPT 在临床小插曲上的表现进行了评估 [1]。这些评分者评估了大型语言模型在生成鉴别诊断、诊断测试、最终诊断和管理策略方面的准确性。此评估的参考标准是默克夏普多姆（MSD）手册，该手册在医学领域被广泛接受。准确性是通过将 ChatGPT 的响应与这些既定的医学指南进行比较来确定的。这些专家根据标准或他们的专业经验评估大型语言模型在各种任务上的表现。这种广泛的使用凸显了人类专业知识在将大型语言模型整合到医疗应用中的持续关键作用，在可预见的未来，这一趋势可能会继续。尽管人类专家提供了宝贵的见解，但由于专家资源的稀缺和手动评估的固有低效性，他们的评估很难扩大规模。此外，专家评估中潜在的主观偏见也不能被忽视。因此，当考虑将人类专家作为评估者时，如 [31] 中所讨论的，在多个专家的评估中纳入一致性措施可能是有益的，以确保更稳健和客观的评估。

自动指标计算： 另一种广泛使用的评估方法采用自动指标计算，这通常依赖于人类专家提供的预定义黄金标准。这些指标通常用于传统的自然语言处理任务，例如 NER 和 Relation Extraction，或者来自真实的临床病例数据或特定的医学检查。这些研究采用这种方法来评估 LLM 的性能。[19, 33, 52, 20, 5, 31, 45, 21, 22, 34, 16, 35, 32, 36, 11, 17, 48, 12, 23, 49, 24, 25, 26, 27, 28, 37, 29, 43] 虽然这种方法因其效率而被广泛采用，但它在评估内容质量方面往往缺乏深度，例如描述的连贯性和逻辑一致性，特别是当 LLM 在当代应用程序中生成更多内容时。同样，也应考虑一致性。[24] 使用 Cohen 的 Kappa 来评估不同注释者之间的评分者间一致性。

AI 评估者：少数研究将 AI 模型用作自动评估者。这种方法尚未得到广泛应用，但随着大型语言模型在理解文本内容、推理以及与人类偏好保持一致方面表现得越来越好，它正越来越受到关注，这可能有助于它们进行上述自动指标评估方法可能遗漏的更深入评估。在 [39] 中，使用了两种 AI 检测工具：Content at Scale 的 AI 检测器和 OpenAI 的 AI 文本分类器。AI 检测器通过分析词汇选择模式来预测 AI 生成的可能性。AI 文本分类器将内容按从 “极不可能” 到 “可能” 是 AI 生成的范围进行分类。这两种工具都用于评估 ChatGPT 生成的文本看起来是人类生成的还是机器生成的。使用 GPT-4 对其他大型语言模型的响应进行了 AI 的自动评估 [8]。此评估使用了 DISCERN 工具的修改版本，称为 mDISCERN，以评估 AI 生成的治疗建议的质量。mDISCERN 标准侧重于内容的正确性和潜在危害性，与既定的健康信息标准保持一致。在 [10] 中，通过使用 Python 库 TextBlob 进行情感分析来对 ChatGPT 进行评估。TextBlob 评估文本的极性（范围从 -1 到 +1，负值表示负面情绪，正值表示正面情绪）和主观性（范围从 0 到 1，值越接近 0 表示客观性）。评估包括将 ChatGPT 响应的事实内容和情感与像 CDC 和既定医疗指南这样的权威来源进行比较。然而，大型语言模型不是权威专家，所以在评估中从支持性角色开始可能更可行。为确保大型语言模型评估的可信度，可能有必要考虑来自多个大型语言模型提供商的独立评估以达成共识，并且必须考虑不同模型评估的一致性。此外，单个模型在各种数据集上的评估保持公平、统一和无偏见至关重要，这可以参考 [2]。”

比较实验：

除了评估器之外，这部分还概述了研究如何通过不同的比较设置来验证模型的能力，包括不同 LLM、传统 NLP 算法、基于规则的系统与现有平台。此外，一些研究根据基准或通过专家评估单独评估模型，而另一些研究则直接将模型性能与人类在相同任务上的能力进行比较。

・与 LLM 相比：随着 LLM 的普及，许多研究人员专注于涉及这些模型的比较研究以评估性能。这涉及 LLM 之间的比较，以评估他们在各种任务中的能力，如研究 [153， 19， 52， 20， 5， 53， 45， 6， 21， 22， 8， 34， 15， 16， 35， 46， 3， 36， 11， 48， 12， 13， 4， 25， 26， 51， 27， 37， 43]。值得注意的是，[19， 52， 20， 21， 16， 3] 等代表性作品对多个 LLM 对各种任务进行了广泛的比较。（有关具体的模型分类和描述，请参阅 3.2.1，而这里我们只关注比较实验方面。[19] 涉及将 GatorTronGPT 模型与几个大型语言模型进行比较，包括 GPT-2、REBEL、REBEL-pt、BioGPT、PubMedBERT、BioELECTRa、BioLinkBERT 和 Galactica。比较是在关系提取和问答任务中进行的。[52] 中的比较实验涉及 BERT、RoBERTa、DistilBERT 和 CO-TWITTER-BERT （CT-BERT），它们在 COVID-19 假新闻检测任务上进行了进一步微调和评估。在 [20] 中，实验涉及 ChatGPT（GPT-3.5）和基线模型，包括 PubMedBERT、BioLinkBERT-Base 和 BioLinkBERTLarge，所有这些模型都在 BLURB 基准上评估了各种生物医学 NLP 任务。在 GPT-3.5 中，涉及 PaLM-2、Claude-2 和 LLaMA-2。在各种生物医学任务中，它们与最先进的微调模型（如 BioGPT、BioBART 和 BioBERT）进行了比较。[3] 将他们的模型 Flan-PaLM 和 Med-PaLM 与包括 Galactica、PubMedGPT、BioGPT 和 DRAGON 在内的几个 LLM 进行比较。

与特定算法和系统进行比较：除了 LLM 之外，比较的主题还可能包括公开可用的平台或系统、早期的自然语言处理算法、机器学习算法和基于规则的系统。对于临床应用的场景，[17] 将 ChatGPT 3.5 和 ChatGPT 4.0 等 LLM 的诊断和分类性能与广泛使用的 WebMD 症状检查器和 Ada Health 症状检查器进行了比较。[23] 将 Flan-T5 语言模型的性能与专门用于从临床出院总结中提取产后出血（PPH）相关概念的正则表达式进行了比较。[37] 将 MedKPL 框架与传统的 NLP 模型（如 LSTM、LSTM with attention 和 CNN）以及包括 BERT 和 DKPLM 在内的预训练语言模型进行了比较，采用了各种训练方法，如微调和提示学习。在生物信息学领域，研究 [33， 35] 比较了特定于各自领域的常用算法和模型。具体来说，在 [33] 中，将 cMolGPT 模型与几个基线模型进行了比较，包括隐马尔可夫模型（HMM）、N-gram 生成模型、组合生成器、字符级递归神经网络（CharRNN）、SMILES 变分自动编码器（VAE）、对抗性自动编码器（AAE）、连接树 VAE （JTN-VAE）和基于潜在向量的生成对抗网络（LatentGAN）。[35] 将他们的 RNA-MSM 模型与现有方法进行了比较，包括 RNA-FM、基于 BERT 的 RNA 语言模型、传统的基于折叠的技术（如 RNAfold 和 LinearPartition）以及其他 RNA 结构训练的二级结构预测器（如 SPOT-RNA 和 SPOT-RNA2）。此外，溶剂可及性预测比较涉及 RNAsnap2 和 M2pred。在其他专业领域，不乏将 LLM 与传统算法或机器学习方法进行比较的研究。[52] 不仅使用语言模型，还使用经典的机器学习模型，如 Logistic 回归、支持向量机、朴素贝叶斯、随机森林和 XGBoost。[32] 中的比较实验涉及将 MedCPT 模型与各种模型和算法进行比较，包括 BM25 和 docT5query 等稀疏检索器，DPR、ANCE、TAS-B 和 Convever 等密集检索器，以及 Google 的 GTR 系列和 OpenAI 的 cpt-text 系列等语言模型检索器。[24] 比较了几种模型和系统，包括基于规则的 NER 系统（具有自定义配置的 cTAKES）、在 spaCy 中实现的卷积神经网络（CNN）、基于 RoBERTa 的 NER 模型、将基于规则的提取与逻辑回归相结合的混合模型，以及预先训练的 RoBERTa 蕴涵模型。

孤立性：与前面提到的比较研究不同，一些研究只是孤立地评估模型，这意味着评估不是以模型之间比较的形式，而只是在一个模型上。通常，它们是通过使用带注释的数据集或基准来得出性能指标，或者通过人类专家按照特定标准进行的评估来进行的。在这些研究中，他们中的大多数由人工评估者评估 [153， 39， 154， 1， 5， 41， 9， 2， 54， 42， 18， 50]。具体来说，[154] 中的评估是由一位经验丰富的放射科医生进行的，他是 HG 的合著者，他评估了 GPT-4 模型在生成放射学报告和模板等任务中的性能。临床营养专家评估了 ChatGPT 模型在回答与生酮饮食疗法相关的常见问题方面的性能 [5]。在 [41] 中，研究团队使用 PubMed、Google Scholar 和 Web of Science 等数据库对 ChatGPT 在肾脏病学领域提供的参考文献的真实性和准确性进行了评估。EFLM 人工智能工作组的 7 名成员评估了 ChatGPT 模型在各种临床病例中解释实验室测试结果方面的性能 [54]。[42] Manully 评估了 ChatGPT 的性能，重点关注其生成准确科学引文的能力，以及与风湿病学中的医学文档和社论写作相关的任务中保持内容质量。三名受过奖学金培训的神经放射科医生评估了基于 GPT-4 的 ChatGPT 模型在解决美国神经放射学杂志（AJNR）的 “本月案例” 专题中的诊断测验任务中的性能 [18]。一位经验丰富的口腔颌面放射科医生评估了 ChatGPT-3 在口腔颌面放射学中回答与解剖标志、口腔颌面病理及其影像学特征相关的问题的能力 [50]。一些没有比较的研究是通过自动指标计算进行评估的。在 [31] 中，研究中使用的数据集由作者组织，实验正在利用 LLM 在包含或排除科学论文以进行系统评价方面的能力。评估数据集由一名医学生和一名经验丰富的放射科医生进行注释，并由另一名经验丰富的放射科医生进一步独立注释 [28] 中的测试集。在该数据集上评估了为检测放射学报告中描述的肺结节而开发的自然语言处理算法的性能。

与人类专家相比：在 LLM 广泛应用于医学领域之前，必须根据受过专业培训的医生和专家的能力来验证它们的能力，以了解性能的差异。一些研究的比较是在模型专家和人类专家之间进行的。[153] 描述了 ChatGPT 与人类专家之间的几项比较：Hirosawa 等人发现 ChatGPT-3 在生成鉴别诊断方面的准确性略低于全科医生（93.3% 对 98.3%）。Rao 等人报告说，与 Merck 手册相比，ChatGPT 在临床小插图中的准确率为 71.7%。Liu 等人观察到，与专家生成的建议相比，ChatGPT 的建议评分参差不齐，在可理解性和相关性方面存在差异。在 [7] 中，将 ChatGPT 聊天机器人生成的响应与 AAO 附属眼科医生在在线论坛上的响应进行了比较。一个由 8 名获得委员会认证的眼科医生组成的专家小组评估了 200 个配对回答，不知道答案是 AI 生成的还是人工编写的。他们评估了准确性、适当性和安全性。该面板在 61.3% 的时间内正确区分了 AI 和人类响应，这表明模型和人类专家的响应是可以区分的。此外，它还描述了 ChatGPT 与人类专家之间的其他几种比较：Hirosawa 等人发现 ChatGPT-3 在生成鉴别诊断方面的准确性略低于全科医生（93.3% 对 98.3%）。Rao 等人报告说，与 Merck 手册相比，ChatGPT 在临床小插图中的准确率为 71.7%。Liu 等人观察到，与专家生成的建议相比，ChatGPT 的建议评分参差不齐，在可理解性和相关性方面存在差异。

3.2.3 评估指标

正确性：

在医学领域，正确性是研究人员关注的最重要的方面。因此，正确性指标（如准确度、精度等）最常用于评估。

・对于临床应用，准确性是一个广泛使用的指标，通常用于诊断、预后、决策、风险预测等任务。在 [1] 中，使用准确性评估 LLM 的临床决策支持能力，特别是按问题类型（鉴别诊断、诊断测试、最终诊断和管理）评估整体准确性和准确性。准确性是通过与 Merck Sharpe & Dohme 临床手册中的标准化临床插图相比的正确回答比例来计算的。[18] 使用各种正确性指标评估了 LLM 在诊断 AJNR 的 “本月案例” 案例方面的表现。总体诊断准确性，脑部病例、颈部病例和脊柱病例的亚组准确性。此外，使用李克特量表（1 到 5）来评估诊断概率，4 分和 5 分表示表现令人满意。[17] 评估了 ChatGPT、WebMD 和 Ada Health SC 在诊断和分类紧急或紧急临床病例方面的表现。诊断准确性是通过系统生成的诊断与最终 ED 诊断相匹配的比例来评估的，而分诊准确性是通过与独立医生评论的建议的一致性来确定的。在 [2] 中，作者使用准确性指标评估了 GPT-4 在四个临床应用中的性能：医学教育、诊断推理、临床计划生成和主观患者评估。他们将 GPT-4 对医疗状况人口分布的估计与真实的美国患病率估计进行了比较，并分析了不同人口群体的差异诊断和治疗计划。采用统计测试，例如独立性检验、Mann-Whitney 检验和逻辑回归来确定 GPT-4 响应的显着差异和偏差。在 [37] 中，他们使用准确性来计算正确分类的实例占总实例的比例。它用于评估医学知识增强提示学习（MedKPL）框架及其特定领域的预训练语言模型（CNBERT）在临床笔记分类任务上的性能。实验在两个医学 EHR 数据集上进行，侧重于多分类和二元分类任务，以增强模型在临床诊断中的可转移性和稳健性。[29] 使用结构化测量评估临床预测任务的模型，并且非结构化文本。它们使用多类分类的准确性。它通过测量准确区分不同类别的能力来评估模型的正确性，特别是对于诊断相关组（DRG）预测。

除了准确性之外，还有其他指标用于临床应用。[36] 采用其他正确性评估指标，如真阳性率（TPR）、假阳性率（FPR）和精确度来评估 NYUTron 模型在临床应用中的性能。TPR 测量正确识别的实际阳性的比例，FPR 测量错误识别为阳性的阴性的比例，精确率测量预测阳性中真阳性的比例。它们被用于评估模型在 30 天再入院预测、院内死亡率预测、合并症指数插补、住院时间预测和保险拒绝预测等任务中的有效性。同样，[22] 使用精度来评估。该模型用于对患者发起的 EHR 消息进行分类，以便及时识别 COVID-19 病例和促进抗病毒治疗。

[153] 和 [15] 采用其他正确性指标来评估临床应用中的 LLM。[153] 中使用的指标包括正确诊断率（正确诊断的百分比）、总体准确率（准确回答的百分比）、SATA（选择所有适用项，平均正确率）、OE 评分（开放式，满分 2 分）和临床信件的准确性（中位准确性和人性评分）。这些指标用于评估鉴别诊断列表、临床决策、癌症筛查和患者临床信件的生成。[15] 在评估中使用 OE 评分和 SATA，特别是用于放射学的临床决策支持。OE 评分基于单一成像程序的适当性，而 SATA 评分衡量正确成像模式选择的比例。与 ACR 适当性标准相比，对模型确定用于乳腺癌筛查和乳房疼痛的适当成像服务进行了评估。

对于特定任务，例如 NLP、NLI（自然语言推理）等，精度的使用更频繁。在 [19] 中，研究人员使用精度评估了 GatorTronGPT 用于生物医学关系提取任务（例如，药物 - 药物相互作用、化学 - 疾病关系、药物 - 靶点相互作用）。[21] 使用精度、准确度和 Recall@1 指标评估 LLM。Recall@1 并不经常使用。他们使用它来评估排名靠前的预测的准确性。[23] 使用出院记录评估产后出血（PPH）表型模型。精确率和阳性预测值（PPV）是主要的正确性指标。PPV 是已确定病例中真阳性病例的比例。在 [24] 中，使用精确度作为关键指标来评估用于从慢性腰痛（cLBP）患者的临床记录中提取健康的社会决定因素（SDoH）的模型的正确性。评估包括各种命名实体识别（NER）系统，包括基于规则的系统（cTAKES）、RoBERTa NER 和混合模型。[30] 利用 Savana Manager 3.0 AI 平台来评估特发性肺纤维化患者的临床特征和治疗管理。使用识别电子健康记录中 IPF 病例的精确度评估正确性。[28] 评估了用于检测放射学报告中肺结节的 NLP 算法的正确性。他们使用准确性。该算法应用于在胸部 CT 扫描中识别和管理肺结节的临床背景下，以进行早期肺癌检测。平均倒数秩（MRR）和伪困惑度（PPPL） 用作 [25] 的评估指标。MRR 通过评估手动整理的医学句子的前五个预测词元来衡量排名质量，而 PPPL 则评估模型在掩蔽语言建模中的性能。这些指标评估了预训练模型在生物医学领域适应方面的正确性。

对于医学检查，最常用的正确性指标是准确性。在 [5] 中，准确率用于评估 ChatGPT 和 GPT 4.0 的性能。它计算为中国注册营养师考试中正确回答问题的百分比。[45] 使用基于第 3.5 届日本国家护理考试（JNNE）的回答的准确率和总准确率评估 GPT-4 和 GPT-112 的正确性。计算必答题、一般题和基于场景的问题的正确答案率，比较两个版本之间的表现。同样，[48] 在评估中应用了准确性。它是正确回答的问题占 80 道 USMLE 风格的软技能问题的百分比，来自 USMLE 网站和 AMBOSS 题库。

对于问答，通常也会使用准确性。一些研究根据公共 QA 基准和数据集评估正确性。[20] 使用与准确性相关的指标来评估 ChatGPT 在生物医学 NLP 任务中的表现，包括以准确性为主要衡量标准的问答（QA）。将准确性指标应用于 PubMedQA 和 BioASQ 数据集，以确定模型在临床应用中响应的正确性。在 [3] 中，使用正确性度量精度评估 LLM，包括 PaLM、Flan-PaLM 和 Med-PaLM。它是在 MedQA、MedMCQA 和 PubMedQA 等多项选择数据集上测量的。

此外，其他一些研究对设计良好的标准进行了评估。[6] 评估了 ChatGPT-3.5、ChatGPT-4.0 和 Google Bard 对 37 种常见眼部症状的反应准确性查询。根据回答误导或造成伤害的可能性，使用三级分级系统（“差”、“临界”、“好”）评估准确性。回答由三位眼科医生独立评分，最终准确性评级由多数共识确定。[46] 使用从 1 到 5 的准确率分数来评估 LLM 响应的正确性。三位评分者根据答案的精确度给出分数：5（高度准确）到 1（不准确）。使用 Friedman 检验和 Dunn 事后分析比较平均分数。该评估的重点是 LLM 在解决血液学相关问答任务中的应用。[8] 使用 mDISCERN 评分评估 LLM 的正确性，以评估 LLM 生成的医疗信息的质量。正确性是通过测量回答中是否存在虚假信息来确定的。评估涉及眼科、皮肤科和骨科 60 种疾病的治疗建议。医生根据实用临床知识、 UpToDate 和 PubMed 对准确性进行评分，并进行方差分析和成对 t 检验以分析模型之间内容质量的差异。[9] 使用 “正确答案比率 ” 和 “错误答案比率 ” 来评估 ChatGPT 诊断五种常见骨科疾病的准确性。正确答案比率是准确诊断占总响应的百分比，错误答案比率是错误诊断的百分比。评估的病症是腕管综合征、脊髓型颈椎管病、腰椎管狭窄症、膝骨关节炎和髋骨关节炎。这些指标评估了 ChatGPT 在 5 天内根据基于症状的标准化问题提供准确自我诊断方面的表现。[13] 评估了 ChatGPT-3.5、ChatGPT-4.0 和 Google Bard 在回答 31 个常见的近视相关问题方面的准确性。三位儿科眼科医生使用三分制（差、临界、好）评估准确性。每个回复的最终评级由多数共识决定。在 [10] 中，通过比较 CDC 对不孕症常见问题解答的事实陈述的数量来评估正确性。评估指标包括事实陈述的总数、错误陈述的比率以及是否引用了参考文献。对 ChatGPT 的回答进行了事实准确性分析，并记录了任何不正确的陈述。[7] 使用存在不正确或不适当材料的指标评估了 ChatGPT 生成的眼科建议的正确性。评估由一个由 8 名获得委员会认证的眼科医生组成的小组进行，他们独立评估答案是否包含不正确或不适当的信息。比较是在 200 个 AI 生成的回复和来自 Eye Care Forum 的人工编写的回复之间进行比较。[54] 使用从 1（非常低）到 6（非常高）的顺序量表评估了 ChatGPT 解释实验室测试结果的正确性。正确性被定义为 ChatGPT 根据现有最佳医学证据和实验室医学实践做出的解释的科学和技术准确性。评估员对 AI 的回答进行评分，以评估个人和整体测试的解释。在 [4] 中，使用 6 点李克特准确性量表评估响应的正确性，其中 1 表示 “完全正确”，6 表示 “完全正确”。17 个专业的医生生成了 284 个医学问题，这些问题根据医学专业知识进行了准确性评级。该研究的重点是评估聊天机器人在回答医生开发的医疗问题方面的表现。

・对于信息检索和参考支持，使用正确性指标，如准确度、精密度、MAP、NDCG 等。在 [32] 中，使用平均精度均值（MAP）和归一化贴现累积增益（NDCG） 指标评估 MedCPT。MAP 在检索每个相关文档后测量精确率分数的平均值，以反映排名靠前的结果的精确率。NDCG 通过考虑相关文献的位置来评估排名质量，强调排名较高的文献。[31] 使用准确性评估了 GPT 模型筛选临床评论标题和摘要的正确性。它被计算为模型与人工审稿人相比正确识别的论文的比例。该评估基于两名独立的人工审稿人对 Ground Truth 标记，并应用于来自 6 个不同医学综述数据集的 24,000 多个标题和摘要。[41] 评估了 ChatGPT 在识别肾脏病学文献综述参考文献的正确性。它评估了六个组成部分：作者、参考文献标题、期刊名称、出版年份、数字对象标识符（DOI）和参考链接。如果所有 6 个分量都正确，则参考文献被归类为真实，如果全部成分都是错误的，则为捏造，如果缺少任何成分则为不完整，如果部分成分但不是全部准确，则将其归类为部分正确。使用 PubMed、Google Scholar 和 Web of Science 进行验证，以确保可靠性。在 [42] 中，评估指标侧重于 AI 生成的引文数据的准确性和质量。通过验证参考文献的存在和真实性来评估引文数据的正确性。AI 生成的引文与 PubMed、Scopus 和 Web of Science 等独立文献数据库进行交叉核对。除了科学论文检索和参考支持外，还可以使用准确性和精密度作为正确性指标来评估应用于假新识别的 LLM。在 [52] 中，准确性和精密度被用作评估指标，以评估各种 COVID-19 假新闻检测模型的正确性。Accuracy 衡量模型预测的总体正确性，而 precision 计算预测的所有正结果中真正结果的比例。这些指标评估了 BERT、CT-BERT 等模型及其与 CNN 和 BiGRU 层的变化。

完整性：

另一方面，完整性指标是评估 LLM 性能的重要指标。作为正确性指标的补充，它反映了 LLM 提供的内容的全面性，确保生成的内容涵盖特定输入的所有必要方面。许多关注上述正确性指标的研究也采用完整性指标来确保全面评估。这包括信息组织 [52， 31， 41]、各种 NLP 任务 [21， 23， 24， 28， 30]、QA 应用 [6， 3， 13， 4， 2] 和临床应用 [22， 36]。

召回率（敏感性）用于评估 COVID-19 假新闻检测模型 [52]。Recall 计算模型正确识别的真正结果的比例，这对于评估信息检测的完整性至关重要。[31] 使用敏感性来评估筛选临床综述标题和摘要的模型。敏感度是通过将模型决策与人工审阅者进行比较来计算的。[41] 评估了 ChatGPT 在确定肾脏病学文献综述参考文献方面的召回率。召回率计算为现有参考文献占生成的参考文献总数的百分比，通过 PubMed、Google Scholar 和 Web of Science 进行验证。

对于 NLP 任务，召回率是最常用的完整性指标。[21] 使用召回来评估 NLP 任务中的 LLM，包括 NER、关系提取和实体链接。召回率测量真阳性在所有实际阳性中的比例。[23] 评估了使用召回提取产后出血（PPH）概念的 Flan-T5 模型。[24] 使用召回率从慢性腰痛（cLBP）患者的临床记录中提取 NER 任务中的健康社会决定因素（SDoH）。[28] 使用召回率（敏感性）来评估用于检测放射学报告中肺结节的 NLP 算法。[30] 使用召回率来评估从电子健康记录中识别特发性肺纤维化病例的完整性。

在 QA 应用程序中，评估完整性反映了 LLM 响应的质量，较高的完整性级别会提高问答过程的效率。[6] 根据专家共识评级，使用五分制（1：不全面到 5：非常全面）评估了 LLM 对眼部症状询问的回答的全面性。[3] 使用完整性指标通过评估答案中重要内容的遗漏来评估医学问答任务中的 LLM，并根据临床意义进行评级，由临床医生评估确定。[13] 使用五分制评估了 ChatGPT-3.5、ChatGPT-4.0 和 Google Bard 在回答近视相关问题方面的全面性，评分基于细节级别。[4] 使用 3 点李克特量表评估完整性：1 分表示不完整，2 分表示充分，3 分表示全面。该指标评估了聊天机器人对医生开发的医疗查询的响应。该研究 [2] 通过检查医学教育、诊断推理、临床计划生成和患者评估输出的细节级别，使用专家比较和统计显着性检验来评估 GPT-4 的完整性，以实现鉴别诊断细节的准确性。

在临床应用中，包括诊断和临床预测，召回率用于反映 LLM 输出的完整性。在 [22] 中，NLP 模型对患者发起的 EHR 信息进行分类，用于 COVID-19 病例识别和治疗，作者使用召回率作为完整性指标。[36] 使用 recall 来评估 NYUTron 的表现。它被应用于 30 天再入院预测和院内死亡率预测等任务。

综合指标：

一些评估指标被设计为混合指标，将多个方面组合成一组综合的复合指标。这种方法简化了评估过程，使研究人员能够通过关注几个关键指标来有效地评估 LLM 性能。通常，这些指标分为显式和隐式类型：显式指标涉及多个指标的加权组合，而隐式指标在评估过程中同时考虑多个因素。

・显式复合指标：F 分数（尤其是 F1 分数）是最常用的显式复合评估指标之一，它结合了精度和召回率来评估正确性和完整性。F1 分数计算为精确率和召回率的调和平均值，有效地平衡了这两个方面。该指标经常用于 NLP 任务，例如文本分类、实体识别和关系提取 [19， 21， 23， 24， 25， 30， 26， 20]。例如，它应用于检测假新闻 [52]，包括和排除科学文献 [31]，以及对图像进行分类 [5]。在医疗应用中，F1 评分对于诊断、临床预测、风险评估和预后预测等任务至关重要，展示了它在各种任务和设置中的多功能性 [22， 36， 29， 5]。

此外，[20] 中引入的 BLURB 分数是一个综合评估指标，旨在作为生物医学语言模型 BLURB 基准的一部分。它代表了生物医学领域内多个 NLP 任务的宏观平均分数。通过汇总各种任务的性能，BLURB 分数提供了模型在处理复杂生物医学文本处理挑战方面的整体能力的整体视图，使其成为评估语言模型在生物医学领域有效性的综合衡量标准。

此外，AUC （曲线下面积）和 AUROC （受试者工作特征曲线下面积）经常用作复合显式评估指标 [26， 36， 12， 29]。它们用于评估二元分类模型在所有可能的分类阈值下的性能。它们常应用于医疗诊断和预测建模，对于灵敏度和特异性至关重要的任务（例如疾病筛查和患者风险评估）至关重要。

隐式复合量度：

在 [5] 中，使用了一个综合指标来评估 ChatGPT 对有关生酮饮食用于糖尿病管理的常见问题的回答。该指标涉及基于专业性、逻辑连贯性、可读性和准确性的专家对答案质量的评估。临床营养专家将回答评为 “不可接受”、“可接受” 或 “优秀”，确保对模型提供医学营养治疗的熟练程度进行全面评估。[53] 使用基于临床准确性和完整性的综合指标评估了 GPT-4 （ChatGPT）和 LaMDA （Bard）对产后抑郁症（PPD）常见问题解答的回答质量。评估涉及将 LLM 的回答与美国妇产科医师学会（ACOG）标准进行比较，并根据 GRADE 量表进行评级，该量表评估证据质量和建议强度。[50] 利用结合了准确性和完整性的综合指标来评估 ChatGPT-3 在使用 4 点李克特量表撰写口腔颌面放射学报告方面的性能。该评估包括识别放射学解剖标志、了解口腔颌面病理以及描述其放射学特征。[51] 利用观察到的学习结果结构（SOLO）分类法作为复合指标，评估准确性和相关性，以评估 LLM 在回答生理学案例小插曲方面的表现。SOLO 指标以 0 到 4 的等级对回答进行评分，涵盖从前结构到扩展抽象层面的各个方面，确保在医学教育的背景下对 LLM 生成的答案进行全面评估。[8] 使用了 mDISCERN 分数，这是一个评估 LLM 生成的医疗信息质量的综合指标。mDISCERN 评分涵盖治疗方案、目标、平衡、共同决策、作用方式、益处、生活质量影响、风险和其他来源的清晰度。该评估适用于眼科、皮肤科和骨科 60 种疾病的治疗建议。该研究 [49] 使用了 DISCERN 工具，这是一种评估医疗信息质量的综合指标，涵盖清晰度、相关性和偏差等方面，以评估 ChatGPT 在评估有关冲击波疗法治疗勃起功能障碍的在线内容方面的表现。此外，体检评分也可以被视为一个隐含的综合评估指标，因为它旨在从多个角度评估医疗专业人员的熟练程度。例如，[47] 中的评分系统考虑了考试的各个方面，包括安全、沟通、信息收集和临床知识的应用，有效地衡量了医疗实践中的综合能力。

可用性：

在考虑 LLM 在医学领域的全面应用时，有用性、安全性、类人性和稳健性等可用性指标至关重要。这些指标评估了 LLM 输出的实际有效性和可靠性，不仅涉及技术性能，还涉及用户体验和道德责任。有用性和人类相似度等指标评估模型理解用户意图和提供实用信息的能力，而稳健性和安全性评估则探索人口统计数据的一致性、潜在偏见和有害结果。这些可用性方面是决定 LLM 应用程序在医疗保健环境中成功的关键。

・乐于助人和人类相似性：LLMs 擅长理解人类的询问并生成有帮助的内容。[3] 使用与非专业用户评估的用户意图和有用性指标的相关性来评估 LLM 在消费者医疗问答任务方面的表现。这些指标衡量了答案对用户问题的解答程度及其整体帮助程度。为了更好地评估 LLM 生成的内容的质量，需要评估可读性或可理解性的指标。[153， 54， 49， 19] 展示了相关的指标。[153] 利用可靠性和人性指标来评估临床应用中的 LLM。可靠性包括一致性（Cronbach's alpha）、相关性和可读性 / 可理解性。通过临床信件的人性化来评估人性，对写作风格的自然性进行评分。这些指标被应用于生成临床信件、放射学报告和医疗记录，证明了该模型在生成类似人类、可靠和易于理解的医疗文件方面的有效性。[54] 使用从 1（非常低）到 6（非常高）的顺序量表评估了 ChatGPT 在解释实验室测试结果方面的帮助。帮助性包括相关性、正确性以及提供不明显的见解、适当的建议和增强患者理解的能力。该指标旨在评估 ChatGPT 的解释对外行人在理解医疗内容和做出明智的医疗保健决策方面的效用。该研究 [49] 采用了七个可读性指数（Flesch-Kincaid Level、Gunning-Fox Index、ColemanLiau Index、SMOG Index、Automated Readability Index、FORCAST Grade Level、Flesch Reading Ease）来评估 ChatGPT 对冲击波疗法在线内容的可读性评估能力

阳痿。在 [19] 中，语言可读性用于评估 GatorTronGPT 在生成临床文本方面的帮助性和人类相似性，考虑 1（最差）到 9（最好）等级的清晰度和连贯性。[19] 还使用图灵测试来评估 GatorTronGPT 的人类相似性，方法是确定医生是否可以区分 AI 生成的临床文本和人类编写的临床文本，评估模仿人类写作的能力。同样，[39] 和 [7] 也评估了 LLM 和人类的差异。[39] 利用有用性和人类相似性指标，包括单词选择和 AI 文本分类器中的模式和概率，来评估 AI 语言模型（特别是 ChatGPT）生成高质量欺诈性科学文章的能力。[7] 使用响应来源的识别作为衡量标准来评估 ChatGPT 生成的眼科建议的人类相似性。眼科医生专家根据 4 分制评估了回答是由 AI 还是人类编写的。

稳健性：稳健性是一个评估指标，用于衡量模型在各种影响因素下的性能一致性，这在实际场景中部署模型时至关重要。现实世界的复杂性和多样性引入了许多变量，因此稳健性检查对于可靠的应用程序至关重要。[1] 评估了稳健性指标，特别是人口统计学（年龄和性别）和临床敏锐度（紧急严重程度指数）对 ChatGPT 在临床决策支持方面的表现的影响。这些指标评估了 ChatGPT 在不同患者情况和病例严重程度下迭代临床推理的准确性，包括初始检查、诊断和管理。[9] 使用 Fleiss κ 系数来评估 ChatGPT 诊断五种常见骨科疾病的精度。该指标评估了 ChatGPT 在不同日期和评估者提供的答案的一致性。结果表明可重复性存在差异，从差到几乎完美不等，突出了时间和评价者对反应一致性的影响。[2] 使用稳健性指标来评估 GPT-4 诊断建议和跨种族和性别人口统计的患者评估中的结果内容偏倚。它检查了临床应用中诊断等级、治疗建议和患者主观感知的差异。[3] 使用偏倚评估指标来评估消费者医疗问答任务的 LLM，重点关注答案是否包含对特定人群不适用或不准确的信息，由临床医生审稿人进行评估。

安全性：安全性是另一个重要的考虑因素，特别是对于涉及直接患者互动的医疗应用，例如临床使用。必须仔细、严格地评估 LLM 的安全性性能，以确保它们不会对患者构成风险。[7] 使用伤害可能性和程度的指标评估了 ChatGPT 生成的眼科建议的安全性。眼科医生专家评估了潜在危害和严重程度的反应，将 AI 生成和人工编写的答案与在线论坛上的患者问题进行了比较。在 [8] 中，“潜在危害” 安全指标评估了与 AI 生成的医疗建议相关的风险。它会评估如果遵循这些内容是否会导致有害结果。该指标用于评估用于在医疗应用中生成治疗建议的 LLM 的安全性。[54] 使用从 1（非常低）到 6（非常高）的顺序量表评估了 ChatGPT 在解释实验室测试结果方面的安全性。安全性评估了 ChatGPT 的回答对患者健康的潜在负面影响，考虑了提供的任何有害信息或不充分的建议。[3] 使用潜在危害指标来评估消费者医疗问答任务中的 LLM，重点关注临床医生评估的答案中与健康相关的危害的严重性和可能性。[17] 使用不安全分诊率作为安全指标来评估 LLM 和 SCs 的临床应用。不安全分诊率评估了 ChatGPT、WebMD 和 Ada Health SC 的建议通过低估患者病情的紧迫性而可能使患者处于风险之中的频率。

・自我纠正：

LLM 在出现提示时进行自我更正的能力也证明了它们的能力。然而，许多研究没有考虑 LLM 的自我纠正潜力，只有少数研究工作评估了它们的自我纠正能力。[6] 通过提示模型验证其回答，评估了 LLM 在眼部症状查询中的自我检查能力。评估考虑了模型是否修改了他们的答案，或者在被问到 “您能好好检查一下您的答案是否正确” 时承认不准确之处。[48] 使用自我纠正指标来评估 ChatGPT 和 GPT-4 在回答 USMLE 式软技能问题方面的一致性和置信度。这涉及到一个后续查询 “您确定吗？”，以评估模型是否修改了它们的初始响应。[13] 评估了 ChatGPT-3.5、ChatGPT-4.0 和 Google Bard 在回答近视相关问题方面的自我纠正能力，提示它们审查和纠正最初评分为 “差” 的回答，然后重新评估准确性。

・其它：

[2] 使用多样性指标来评估 GPT-4 诊断和治疗计划的创新性。它评估了 GPT-4 在临床应用中生成各种和全面的鉴别诊断和治疗建议的能力。[9] 使用关键短语评估了 ChatGPT 的医疗咨询建议

例如 “必需”、“推荐”、“最佳” 和 “重要”。该研究评估了为自我诊断的骨科疾病寻求医疗救助的建议的强度和频率。[10] 使用情绪极性作为评估指标来评估对不孕症常见问题解答的反应的情绪基调。它还采用主观性评分来评估对不孕症常见问题解答的客观程度。这两个指标都在 ChatGPT 和 CDC 的答案之间进行了比较。[17] 使用 “过于谨慎” 的分诊率作为衡量标准来评估临床应用中的 LLM 和 SC。该指标评估了建议过于谨慎的频率，这可能导致不必要的紧急护理，Ada 和 WebMD 的比率适中。

一致性和相似性指标：

除了可用性指标之外，一致性和相似性指标对于评估 LLM 产出与人类医学共识或专业产出之间的一致性也至关重要。在这些指标中表现良好的模型会产生反映专家意见的高质量输出，从而提高它们在实际应用中的可靠性和用户体验。本部分探讨了用于评估 LLM 产出与已建立的医学标准或人类专家响应之间的一致性和相似性的各种指标。

・共识：

在 [5] 中，与公众共识的一致性率用于评估 ChatGPT 对糖尿病管理中生酮饮食的饮食建议。该指标评估了 AI 的建议与中国低碳饮食协会专家指南（涵盖推荐和非推荐食品）的一致性。[7] 评估了 ChatGPT 生成的眼科建议与医学界共识的一致性。眼科医生专家评估这些回答是符合还是反对感知的医学标准，将 AI 生成的答案与在线论坛上人类编写的答案进行比较。[3] 使用与科学共识指标的一致性来评估 LLM 对消费者医疗问答任务的影响。临床医生评估该模型的答案是否与流行的科学和临床指南一致，是否与共识相反，或者是否存在共识。

[31] 使用 Cohen 的 kappa 来评估 GPT 模型和人工审稿人在筛选临床综述标题和摘要方面的一致性。它考虑了与临床、决策和医学共识相关的决策的一致性。评估了人类筛选者之间的评分者间差异以及模型和人类决策之间的一致性。评分者间一致性不仅可以用于评估者和注释者之间达成一致的场景，也可以用于模型和人类之间。例如，[46] 使用类内相关系数（ICC）来评估血液学问答任务中 LLM 生成的响应的评分者间一致性，确保多个评分者对准确性的可靠评估。[24] 使用 Cohen 的 Kappa 和 F1 评分评估评分者之间的一致性，以评估注释者从慢性腰痛（cLBP）患者的临床记录中提取 NER 任务中健康的社会决定因素（SDoH）的一致性。这些相关指标可以被视为用于评估 AI 和人类之间生成的内容之间的一致性。

相似性：文本相似性指标评估来自不同来源的文本之间的相似程度，通常用于评估 LLM 生成的内容与人类专家输出的一致性。例如：BLEU 分数：测量机器生成的文本和一组参考文本之间 n 元语法的精度，强调精确匹配的重要性。BERT 分数：利用 BERT 语言模型来比较单词的上下文嵌入，提供更细致的语义相似性测量。METEOR：通过根据文本之间的精确、词干、同义词和释义匹配进行对齐和评分来增强评估，从而提供一种平衡的方法来评估意义。ROUGE：通过计算重叠的 n-gram 和单词序列来关注召回率，可用于评估摘要任务。CIDEr：通过将生成文本中的 n 元语法频率与参考文本进行比较来权衡人类共识，非常适合捕捉内容的显著性。[16] 使用 BLEU、METEOR、ROUGE-L 和 CIDEr 来评估生成的 CXR 报告的内容一致性以及与放射科医生报告的相似性。这些指标考虑了 n 元语法重叠、精度、召回率和术语频率 - 逆文档频率（TF-IDF）以进行综合评估。在 [12] 中，BLEU、ROUGE 和 CIDEr 用于评估生成的报告的内容一致性和相关性。他们评估了 Med-MLLM 在从放射学图像自动生成连贯医疗报告方面的有效性。[43] 使用 ROUGE-L、METEOR 和 BLEU 指标评估了 LLM 在医学证据摘要中的使用，包括生成摘要和参考摘要之间的召回率、精确率和 n-gram 重叠。[21] 使用 ROUGE 和 BERTScore 来评估文本摘要中的 LLM。ROUGE 测量词汇相似性，而 BERTScore 评估生成摘要和参考摘要之间的语义相似性。除了上面提到的那些常用指标外，还可以考虑一些其他不常见的指标，包括统计方法、编辑基于距离的指标和人工人工评估。[20， 32] 使用 Pearson 相关系数作为评估句子相似性任务的指标，评估生物医学和临床句子中预测和真实相似性分数之间的一致性检索应用程序。[11] 使用 Z 分数评估 ChatGPT-3.5 和 ChatGPT-4 在评估自杀风险方面的表现，以衡量 AI 和心理健康专业人员评估之间的差异，重点关注心理、自杀意念、自杀未遂风险和复原力。[54] 使用从 1（非常低）到 6（非常高）的顺序量表评估了 ChatGPT 在解释实验室测试结果方面的相关性。相关性衡量了 ChatGPT 的解释与提供的测试结果之间的连贯性和一致性。[27] 使用基于编辑距离的相似度指标，包括分割相似度（S）、边界相似度（B）和改进的 B2，通过评估段落之间的相似性来评估大型语言模型在段落分割中的能力。

3.3 基准和数据集

3.3.1 一般基准测试

一些通用基准测试提供了广泛的数据集，用于在医学领域的不同任务中测试 LLM。通常，它们为不同的任务提供一系列数据集。它们可以被视为评估 LLM 能力的工具，从而促进基于实证结果的改进和完善。

BLURB（生物医学语言理解与推理基准）[85] 是评估 LLMs 的综合基准。它专为 NLP 任务而设计，例如 NER、关系提取、文本分类和问答。它利用了多种数据集，包括 BC5CDR-CHEM、BC5CDR-Disease [113]、BC2GM [117]、JNLPBA [118]、EBM PICO [115]、CHEMPROT [127]、GAD [116]、BIOSSES [142]、HoC [124]、PubMedQA [89] 和 BioAsq 挑战 [144]。

[3] 介绍了 MultiMedQA，这是在医学领域评估 LLM 的基准。该基准测试包含各种数据集，包括 PubMedQA [89]、MedQA [90]、MedMCQA [91]、LiveQA [93]、MedicationQA [145]、MMLU 临床主题 [94]。此外，它还引入了一个新的数据集 HealthSearchQA，该数据集涵盖了从专业考试到消费者健康查询的医学问题。

CBLUE（Chinese Biomedical Language Understanding Evaluation）[138] 是中文的通用基准。它包含多个数据集，例如 CMeEE、CMeIE [109]、CHIP-CDN、CHIP-STS、CHIP-CTC、KUAKE-QIC、KUAKE-QTR 和 KUAKE-QQR，旨在涵盖从命名实体识别到查询文档相关性的任务。另一个中国通用基准测试 MedBench [84] 也是一个全面的基准测试。它包括来自中国医学执照考试、住院医师规范化培训考试、主管医师资格考试和真实世界临床病例的数据集，共包括来自医学各个分支的 40,041 个问题。其官方网站上有许多数据集，包括医学问答、医学语言理解、复杂医学推理等 [86， 95， 87， 108， 109， 110， 111]。

3.3.2 问答的基准

遵循上面讨论的一般基准，本节将重点转移到专为问答（QA）任务设计的基准。这些基准根据其与特定 QA 场景的相关性进行分类：临床决策支持，涉及医疗对话和咨询案例；医学知识 QA，包括来自医学检查和基于文献的 QA 的问题；医疗信息检索包括来自可公开访问的医疗记录、消费者健康查询和公共医疗网站的数据集。

临床决策支持：

[86] 中详述的 MedDG 数据集包括 17,864 次中医对话，其中包含 385,951 条话语和 217,205 个实体，这些对话来自在线医疗咨询平台 Chunyu 医生。它最初是为实体提取而设计的，但该数据集可以适用于训练 LLM 执行临床会诊任务。最初的评估精度、召回率和 F1 分数是针对 NER 任务的，调整此数据集以生成对话可能会使用其他指标，例如 BLEU 和 Rouge-L，这些指标在原始论文中没有讨论，但通常用于评估对话模型中的响应质量。

源自 [87] 的 CMB-Clin 数据集专为临床诊断场景而设计。它由 74 个专家策划的医疗咨询组成，这些咨询源自真实案例研究，共有 208 个问题。这些数据集来自官方医学教科书，并通过质量筛选过程进行提炼，以排除类似的疾病，以确保多样性。CMB-Clin 的主要基准测试任务涉及多轮次基于对话的问答形式，该格式评估 LLM 的医学知识应用。评估指标包括流畅性、相关性、完整性和熟练程度，并通过专家和 GPT-4 进行评估，确保稳健的性能测量。LongHealth 基准测试 [88] 包括 20 个虚构的患者案例，每个案例都采用真实世界的出院记录结构。这些案例用于评估 LLM 的任务，包括信息提取、否定和时间变体信息提取。模型使用 400 道多项选择题进行测试，通过提取或识别正确或缺失信息的准确性来衡量性能。

医学知识 QA：

[94] 中的专业医学任务使用了来自美国医学执照考试的问题。它由 15,908 个问题组成，旨在测试现实世界的医学知识。MedQA 数据集 [90] 源自美国、中国大陆和台湾的医学委员会考试，包含三种语言的 61,097 个问题。它用作开放域问答任务的基准。MedMCQA [91] 是一个大规模的多项选择 QA 数据集，源自 AIIMS 和 NEET PG 入学考试，包含超过 194,000 个问题，涉及 21 个医学主题和 2.4k 个医疗保健主题。CMB-Exam [87] 也是另一个多项选择 QA 数据集。它源自中国公开的医学资格考试，包括各种医学专业的 280,839 道多项选择题。上述医学检查的数据集用于对 LLM 的知识理解进行基准测试，它们的评估通常基于准确性。

除了医学检查问题外，[89] 还引入了 PubMedQA，这是一个生物医学 QA 数据集，具有 1,000 个专家注释、61,200 个未标记和 211,300 个人工生成的实例，这些实例来自 PubMed 的科学研究摘要。它以 yes/no/maybe 问答的形式出现。评价指标包括准确率和宏观 F1，主要用于评价对生物医学文本，尤其是定量内容的推理能力。

医疗信息检索 QA：

MEDIQA 2019 [92] 为三项任务提供了数据集：自然语言推理（NLI）、识别问题蕴涵（RQE）和问答（QA）。这些数据集源自 NIH 研究所的临床句子对（MedNLI）、消费者健康问题和常见问题解答，然后可用于构建具有帮助公众以 QA 形式检索信息的模型。评估指标包括准确性、平均倒数秩（MRR）和 Spearman 秩相关系数。

TREC 2017 LiveQA 医疗任务 [93] 利用了数据集，其中有 634 个医学问答对，来源于美国国家医学图书馆。这些数据集用于访问模型回答消费者健康问题的能力。评估指标基于平均分数和精确率。

3.3.3 摘要的基准

在这一部分中，我们将讨论摘要的基准。LLM 已被证明具有语言理解和抽象的能力。这些模型擅长从各种上下文中的文本中提取关键信息，例如 QA 内容、对话、临床证据和医疗报告。总结基准的分类大致可分为五种类型，从问答总结到将专业医学知识转化为通俗易懂的总结和抽象医学报告。

问题摘要：

MeQSum 语料库 [96] 由 1,000 个消费者健康问题摘要组成。它源自美国国家医学图书馆分发的数据集。它的主要任务是评估抽象摘要模型，特别关注生成消费者健康问题的浓缩版本。评估指标主要基于 ROUGE 分数。

MEDIQA 2021 [97] 引入了三个用于医学文本摘要的数据集：MeQSum 数据集、MEDIQA-AnS 以及来自印第安纳大学和斯坦福医疗保健的放射学报告。它们分别作为总结消费者健康问题、多选题聚合和放射学报告印象的基准。评估指标包括 ROUGE-2 、 BERTScore 和 HOLMS。

[99] 介绍了 MeQSum、HealthCareMagic、iCliniq 和识别问题蕴涵（RQE）。MeQSum 源自美国 NIH，包括 1,000 个样本。源自在线平台的 HealthCareMagic 和 iCliniq 分别包含 226,405 和 31,062 个条目。RQE 包括 9,120 个问题，主要侧重于将消费者健康问题与专家回答的常见问题解答相匹配。这些数据集支持基准测试摘要任务，其中主要评估指标是 ROUGE 分数。

答案摘要：

MEDIQA-AnS 数据集 [98] 包括 156 个消费者健康问题、相应的答案和专家创建的摘要。它来自 MEDIQA-QA 数据集，MEDIQA-AnS 通过提取和抽象摘要对其进行扩展。它支持通过 ROUGE 和 BLEU 指标进行评估。此外，[97] 还提供了用于答案汇总的数据集。

概要：

用于可读性可控摘要的语料库 [100] 包括 28,124 份生物医学文件，来自 PLOS Medicine 等同行评审期刊。该数据集旨在对可控的抽象和提取摘要模型进行基准测试，这些模型为专家生成技术，为外行生成通俗易懂的语言。评估指标侧重于可读性水平，使用基于新型掩码语言模型的指标将简明语言摘要与技术摘要进行比较，以评估可读性差异。

正如 [101] 和 [102] 中介绍的那样，来自生物医学期刊的 PLOS 和 eLife 数据集构成了通俗摘要基准的基础。数据集包含来自 PLOS 的 24,773 篇文章和来自 eLife 的 4,346 篇文章。PLOS 内容广泛，包含作者撰写的简短摘要，而 eLife 则包含较长的、专家编辑的摘要。评估指标包括可读性分数和基于专家的手动评估。他们对非专业摘要模型生成可理解摘要的能力进行了基准测试。评估指标包括 ROUGE 分数、Flesch-Kincaid 和 Dale-Chall 可读性分数，以及用于事实性的 BARTScore。

医疗报告生成和总结：

医疗报告的生成可以大致看作是一项基于医学证据的摘要任务，包括咨询内容、医疗评论甚至多模态数据。IMCS-21 数据集 [95] 用于医疗报告生成任务。它源自从中国在线健康社区 Muzhi 收集的大量医疗咨询记录，包括 4,116 个带注释的样本。该数据集作为生成医疗报告的基准，根据对话总结咨询。评估指标包括 ROUGE 分数和基于 Regex 的诊断准确性，评估生成的报告的质量和医疗准确性。DeltaNet 在 COVID-19 数据集上进行评估 [103]，该数据集由来自 1,085 名患者的 1,261 次检查组成。它还使用 IU-Xray [147] 和 MIMICCXR [146] 数据集，最大的是 MIMIC-CXR，有 377,110 张图像和 227,827 份报告。它对基于图像和报告数据的自动医疗报告生成进行了基准测试。性能指标包括 BLEU、CIDEr 和 ROUGE-L 分数。除了公共数据集外，Cochrane 系统综述还是评估临床证据总结的宝贵资源。在 [43] 中，他们根据六个不同临床领域的 cochrane 综述评估了 LLM 的医学证据总结任务 [104， 105， 106， 107]。

3.3.4 信息提取的基准

我们的重点转移到信息提取上。信息提取是传统自然语言处理任务的重要组成部分。除了理解和生成连贯的回答之外，LLM 还擅长从复杂的文本中提取关键信息以形成结构化的标准化数据。为了更好地访问它们的功能，例如命名实体识别、关系提取、实体链接、文本分类以及从医学研究文本中进行事件提取和 PICO 等综合信息提取，需要构建基准和数据集。

命名实体识别：

命名实体识别是最广泛使用的 NLP 任务之一。NCBI 疾病语料库 [120] 源自 PubMed，包含 793 篇完全注释的 PubMed 摘要，其中 6,892 次疾病提及与 790 个独特的疾病概念相关联。该数据集用作生物医学文本挖掘中 NER 任务的基准。[108] 构建了一个用于儿科医学文本信息提取的语料库，包括 38,805 个医学条目，分为九类。它专为临床儿科文本中的分词和 NER 等任务而设计。JNLPBA 共享任务 [118] 利用 GENIA 3.02 版语料库，该语料库源自使用 MeSH 术语选择的 MEDLINE 摘要。该数据集包括 2000 个用于训练的摘要和 404 个用于测试的摘要。它作为生物实体识别任务的基准。BioCreative II 基因提及任务 [117] 利用了一个包含 20,000 个句子的数据集，其中包含大约 44,500 个 GENE 和 ALTGENE 注释，这些注释来自之前的 BioCreative 挑战赛。该数据集作为测试基因提及识别系统的基准。CHEMDNER 语料库 [119] 包括 10,000 篇 PubMed 摘要和 84,355 篇手动注释的化学实体提及。该数据集源自 PubMed，可作为化学 NER 任务的基准。LINNAEUS 系统 [121] 利用手动注释的全文文章语料库作为 NER 基准测试的数据集。该数据集源自 PubMed Central 的开放获取子集，包括 100 个全文文档。[122] 包括 Linnaeus-100 和 Species-800 数据集。Species-800 包括不同分类学领域的 800 篇摘要。这两项研究可作为评估物种名称识别性能的基准。CMeEE 数据集 [109] 源自 CHIP 2020 [138]，包含 23,000 个 NER 标记样本。实体分为九类，如疾病和药物。通常，NER 任务的评估指标是使用精度、召回率和 F 度量来评估性能的。

关系提取：

通常，关系提取通常称为实体之间的关系。[112] 包括来自 DrugBank 数据库的 792 篇文本和 233 篇 Medline 摘要，注释有 18,502 个药理学实体和 5,028 个药物相互作用。它是评估专注于识别药物物质和检测 DDI 的能力的基准。数据集 KD-DTI [114] 来源于 DrugBank 和治疗靶点数据库（TTD）。它

包括 14,256 个文档，包括 139,810 个句子和 3,671,000 个单词。该数据集用作药物 - 靶标相互作用（DTI）发现任务的基准。BC5CDR 数据集 [113] 包括 1,500 篇 PubMed 文章，注释了 4,409 种化学物质、5,818 种疾病和 3,116 种化学 - 疾病关系。源自 CTD-Pfizer 合作语料库和专门为 BioCreative V 选择的其他文章。ChemProt 数据库 [127] 包含超过 700,000 种独特的化学物质，注释了 30,578 种蛋白质和超过 200 万种化学蛋白质相互作用。这些数据来自 ChEMBL、DrugBank 和 PubChem 等存储库。它主要用于对化学 - 蛋白质关系提取中的任务进行基准测试。[116] 讨论了 EU-ADR 语料库和 GAD（遗传关联数据库）数据库中的半自动注释语料库在相关提取任务中的使用。EU-ADR 语料库用于对药物 - 疾病、药物 - 靶点和基因 - 疾病关联进行基准测试，涉及来自专家共识的注释。[128] 讨论了 BioRED 数据集，其中包括 600 篇 PubMed 摘要，侧重于生物医学实体的提取及其关系。此数据集对 NER 和关系提取任务进行基准测试。它捕获多种实体类型，如基因、疾病和化学物质，并使用精确率、召回率和 F 分数评估模型。[109] 讨论了来自医学教科书和临床实践的 CMeIE 数据集，包括 28,008 个句子和 85,282 个三元组。它对联合实体和关系提取任务进行基准测试。

实体链接：

[123] 引入了 COMETA 数据集，其中包括 Reddit 上健康讨论中 20,000 个专家注释的生物医学实体提及，链接到 SNOMED CT。此数据集用作实体链接任务的基准，以评估模型如何将与健康相关的术语与医学概念联系起来。评估指标包括 top-k Accuracy 和 Mean Reciprocal Rank。此外，NCBI 疾病语料库 [120]（在 NER 部分提到）不仅包括 NER 的注释，还为实体链接或规范化提供数据。每次提及的疾病都与医学主题词（MeSH）或在线人类孟德尔遗传（OMIM）数据库中的标准疾病概念相关联。CHIP-CDN 数据集 [138] 包含来自中国电子健康记录（EHR）的 18,192 个样本，用于临床诊断标准化，并根据 ICD-10 标准进行注释。

文本分类：

[111] 包括来自中国临床试验注册中心（ChiCTR）的 75,754 个中英文资格标准句子。预处理后，19,185 个句子用于无监督聚类，38,341 个句子用于监督分类任务。[124] 介绍了一个包含 1,499 篇 PubMed 摘要的数据集，这些摘要根据它们为癌症的 10 个标志提供的证据进行了注释。该数据集源自 PubMed，可作为测试模型文本分类性能的基准。LitCovid 数据集 [125] 由从 PubMed 检索的 COVID-19 相关文章组成。截至 2020 年 8 月，该数据集包括大约 80,000 篇用于测试文档分类任务的文章。[138] 包括两个用于分类任务的数据集。一种是 CHIP-CTC，包含从中国临床试验注册中心（ChiCTR）收集的 40,644 份样本，用于将临床试验资格标准分为 44 类。另一个是 KUAKE-QIC，包含 10,880 个样本，这些样本来自真实世界的搜索引擎日志，用于将意图分类为 11 个医疗意图类别。此数据集的评估指标是准确性。分类模型的性能通常使用 Precision、Recall、micro F1-score 和 accuracy 进行评估。

全面的信息提取：

与传统的 NER 或关系提取相比，全面的信息提取任务，包括时间推理、医学事件提取和用于 RCT 医学研究的 PICO 提取，提供了一种更灵活的方法。它能够更广泛、更细致地理解临床叙述和研究文本中的复杂数据结构，从而提高提取信息的深度和适用性。对于医疗事件提取任务，PromptCBLUE 共享任务中使用的数据集包括 CHIP-CDEE 子任务 [110]，该子任务侧重于临床发现事件提取。CHIP-CDEE 数据集源自 CBLUE 基准测试，旨在评估医疗信息提取任务的模型。该数据集总共包含 3000 个训练样本，每个样本 400 个用于验证和测试。该数据集 [126] 包括来自 Partners Healthcare 和 Beth Israel Deaconess Medical Center 的 310 份去标识化出院小结，包含大约 178,000 个代币。它作为临床叙述中结构化信息提取任务的基准，侧重于时间推理。评估指标包括 EVENT 和 TIMEX3 注释的精度和召回率，以及评估 TLINK 注释的一致性和准确性的各种方法。EBM-NLP 数据集 [115] 包括 5,000 份带注释的医学摘要，这些摘要来自 PubMed 的 MEDLINE 数据库，专门针对临床试验。这些注释侧重于 PICO 框架（患者群体、干预、比较器、结果）以支持信息提取等任务。评估指标是使用聚合策略（如多数投票）和高级模型（如 Dawid-Skene 和 HMM-Crowd）计算的，用于衡量精度、召回率和 F-1 分数。

3.3.5 生物信息学的基准

尽管 LLM 传统上被视为自然语言处理工具，但它们的功能可以稳健地扩展到处理和推理顺序数据。例如，在生物信息学中，像 GPT 这样的 LLM 已经被用于从头分子设计等任务，它们通过操纵序列样分子表示来生成新的化合物 [33]。同样，LLM 已被用于分析生物序列相似性 [34] 并从同源序列推断 RNA 结构 [35]。这些应用程序展示了 LLM 从复杂序列数据中提取和生成关键信息的能力，强调了它们在传统文本处理之外更广泛的用途。

[129] 使用源自 ZINC Clean Leads 集合的 MOSES 数据集，包含 4,591,276 个分子。这些数据集应用于分子生成任务的基准测试。评估指标包括有效性、唯一性、新颖性和其他分子特性，以评估生成模型的性能。

[130] 利用 ChEMBL 数据库和 ExCAPE-DB，包括 1,347,173 个和目标子集 SMILES 进行 GAN 训练。基准测试侧重于生成新颖、有效的化合物。评估指标包括通过比较生成的 SMILES 和训练集 SMILES 计算的有效性、唯一性和新颖性。

ExCAPE-DB 数据集 [131] 包含来自 PubChem 和 ChEMBL 的 998,131 种独特化合物和 70,850,163 个 SAR 数据点。它被用作多目标机器学习模型评估的基准，特别是使用灵敏度、精度、特异性和 Cohen k 等指标来评估模型性能。

CAFA3 [133] 挑战利用了来自白色念珠菌、铜绿假单胞菌全基因组突变筛选和黑腹果蝇靶向基因检测的数据集。这些数据集包含数千个基因，这些基因针对生物膜形成和运动等功能进行了评估。计算的性能指标包括 Fmax 和 Smin，分别基于精确率召回率和语义距离，并结合了信息内容加权。

[134] 使用 CircFunBase 数据集，包含 4195 个经过验证的 circRNA 疾病关联，涉及 3704 个 circRNA 和 90 种疾病。该数据集用作检测缺失关联和预测新的 circRNA 相关疾病等任务的基准。使用 AUC、AUPR、MRR 和 NDCG 等性能指标。

在更新的 Rfam 数据库中，数据集 [135] 包括来自 ZWD 、 miRBase 和 EVBC 合作的多个序列比对和协方差模型。扩展后的 Rfamseq 现在包含所有生命领域的 14,772 个基因组。这些数据集主要用于对基因组序列中的非编码 RNA 注释进行基准测试。

MARS 数据库 [137] 集成了来自 NCBI、RNAcentral、MG-RAST、Genome Warehouse 和 MGnify 等来源的数据集，总计 17.3 亿个序列。它使用 RNAcmap3 对 RNA 同源性搜索任务进行基准测试。性能指标是使用直接耦合分析的 F1 分数、灵敏度和精度计算的。SCOP 数据库 [132] 提供了蛋白质结构和进化关系的全面目录。它包括指向坐标、结构图像和序列数据的链接。[136] 讨论了 RCSB 蛋白质数据库，这是一个来自世界各地实验室的生物大分子原子级 3D 结构的全球档案。

3.3.6 信息检索的基准

LLM 表现出了显着的文本理解能力，这使它们成为医学研究的潜在有价值的工具，因为它可以实现跨多个维度的文献发现，例如问题检索、证据检索或事实核查。目前，与信息检索相关的基准通常包括事实验证、引文预测和文献推荐等任务。这些基准包括各种形式的相似性和相关性测量，为评估 LLM 在医学信息检索中的评估框架。在 BEIR 基准测试[139]中，包括五个生物医学数据集：TREC-COVID、NFCorpus、BioASQ、SCIDOCS 和 SciFact。这些数据集来自公开可用的生物医学语料库，范围从 3.6k 到 15M 文档不等。它们用于评估生物医学信息检索任务中的模型，例如问答、引文预测和事实核查。评估基于nDCG@10和其他指标。RELISH-DB 数据集[140] 包含来自 84 个国家/地区的 1500 多名科学家注释的超过 180,000 对 PubMed 文章。注释用作评估文档推荐系统的基准。MCC 、 AUC 、 P@N 和 MRR 等关键指标通过比较推荐文章与种子文章的相关性来评估二元分类和信息检索任务中的性能。SPECTER 引入了 SCIDOCS[141]，这是一个由信息检索任务数据集组成的基准，包括引文预测、文档分类和用户活动预测。这些数据集包含超过 23,000 篇用于 MeSH 分类的医学论文，以及来自公共学术搜索引擎日志的数万个示例。评估指标包括 MAP 和 nDCG 来衡量排名性能。BIOSSES 数据集[142] 包括 100 个手动注释的句子对，这些句子对来自 TAC 生物医学摘要轨道训练数据集。每对由五位人类专家从 0（不相关）到 4（等效）进行评分。它用作评估句子级语义相似性的基准。评估指标是算法分数和人工注释之间的 Pearson 相关性。MedSTS 数据集 [143] 源自梅奥诊所的临床语料库，包含 174,629 个句子对，MedSTS_ann 子集由 1,068 个带注释的句子对组成。它对语义文本相似性（STS）系统进行基准测试，以减少电子健康记录中的冗余信息。评估使用 Pearson 相关将系统分数与人工注释的分数进行比较。

CBLUE [138] 介绍了三个数据集，用于测量检索任务的相似性或相关性。CHIP-STS 数据集包含从中国疾病问答数据中收集的 20,000 个样本，用于评估非 i.i.d 中的句子相似性。跨五种疾病类型的设置。性能是使用 Macro F1 分数来衡量的。为了进行相关性测量，有两个数据集：KUAKE-QTR 和 KUAKE-QQR。KUAKE-QTR 数据集包含来自真实搜索引擎日志的 32,552 个样本，用于估计查询文档的相关性。该任务涉及确定查询与给定文档标题的相关性。KUAKE-QQR 数据集包含来自真实世界搜索引擎日志的 18,196 个样本，用于查询 - 查询相关性估计。此任务确定两个查询之间的语义相似性。它们都是使用准确性进行评估的。

4 挑战和问题

评估 LLM 在医疗领域的应用提出了一些技术、伦理和法律挑战，需要解决这些挑战，以确保其安全和有效使用。与一般应用不同，医疗领域需要更严格、更详细的评估框架。本节深入探讨了这些挑战，并讨论了改进评估方法和指标以克服这些问题的策略。

4.1 技术挑战

在疾病管理和门诊护理方面，一些技术挑战阻碍了 LLM 的有效评估。一个主要问题是缺乏数据和样本多样性。目前的研究通常依赖于单个数据集，这些数据集无法代表不同年龄、性别、种族和地理位置的所有患者，这限制了结果的泛化。此外，许多评估侧重于短期影响，而没有足够的后续研究来评估 LLM 的长期性能和影响。

【数据缺乏多样性，缺乏对长期效果的检测与评估】

另一个重大挑战是 LLM 的可解释性。医疗领域需要对诊断和治疗建议背后的决策过程有深入的了解，但许多模型，尤其是像 GPT 系列这样的商业模型，仍然是 “黑匣子”，内部机制不透明，训练数据未公开。这种缺乏透明度限制了对他们表现的透彻理解。

此外，评估主要集中在文本数据上，而忽视了 LLM 集成和处理多模态数据（如图像、音频和传感器数据）的潜力。全面的数据集成对于诊断和治疗支持尤为重要，其中不同数据类型的组合可以显著增强决策。

4.2 道德和法律挑战

保护患者隐私是一项巨大的道德挑战。使用敏感的医疗数据引发了人们对数据泄露和滥用的严重担忧。确保严格的数据加密和访问控制措施对于保护患者信息非常重要。此外，必须遵守相关的隐私法规和标准。偏见和公平是另一个关键的道德问题。LLM 可能会表现出影响其在不同患者群体中的表现的偏差。这些偏差可能是由于用于训练的数据和算法本身造成的，可能导致歧视性结果。开发和应用偏差缓解、定期偏差审计以及确保训练数据集中的多样化表示是解决问题的潜在解决方案。

从法律角度来看，由于不同地区的法规不同，监管合规是一项复杂的挑战。建立全球合作以协调医疗保健领域 LLM 的监管标准至关重要。与法律专家密切合作有助于确保合规性，并为遵守法规制定明确的指导方针和框架。

4.3 改进策略

为了应对这些挑战，需要更全面的评估框架。当前的框架在全面评估医疗应用中的 LLM 方面往往存在不足，忽视了可用性、稳健性和安全性等关键方面。开发包含技术性能、道德考虑和法律合规性的框架至关重要。整合多维评价指标可以提供对 LLM 的全面评估。

改进评估方法和指标也至关重要。现有的方法和指标主要关注正确性和完整性，而不太强调可用性、稳健性和安全性。引入新指标来评估生成内容的连贯性、逻辑和安全性，结合定性和定量评估方法，并使用先进的自动化工具和人工专家审查，可以提高评估的准确性和深度。

最后，解决当前方法中的差距和局限性对于推动该领域发展是必要的。进行系统评价和实证研究以确定当前评估中的薄弱环节，促进学术界、工业界和医疗保健从业者之间的合作以开发创新解决方案，并定期更新和完善评估标准以跟上技术进步和新挑战的步伐，是确保评估实践持续改进的重要步骤。

5 结论与展望

这项全面的调查强调了与 LLM 在医学领域的应用和评估相关的潜力和挑战。通过深入分析，我们强调了针对医疗保健应用的独特需求量身定制的专业评估框架的必要性。

我们的调查组织了 LLM 在临床环境、医学文本数据处理、研究、教育和公共卫生意识中的多种类型角色。通过检查各种评估方法，包括模型、评估器和比较实验，我们详细了解了用于评估 LLM 的有效性、准确性、可用性和道德一致性的指标。

主要技术挑战包括数据质量和多样性、模型可解释性以及多模态数据的集成。解决这些问题需要开发更强大的数据收集方法，提高模型透明度，并扩大评估范围以包括不同的数据类型。道德和法律挑战，例如患者隐私、偏见和公平性以及法规遵从性，需要严格的数据保护措施、偏见缓解策略和协调的全球法规。

为了改进对医疗保健领域 LLM 的评估，我们建议开发涵盖技术性能、道德考虑和法律合规性的整体框架。增强评估方法和指标以包括可用性、稳健性和安全性非常重要。此外，需要系统评价和协作努力来解决当前的差距和局限性，确保评价实践的持续改进。

展望未来，医疗保健领域 LLM 的负责任开发和部署将取决于持续的实证验证和严格、多维评估框架的建立。通过解决概述的挑战并实施建议的改进，我们可以充分利用 LLM 的潜力来改善医疗保健结果，同时保持严格的道德标准。本调查旨在为医疗保健专业人员、研究人员和政策制定者提供有效整合和评估这些强大模型所需的见解，最终为更安全、更有效和合乎道德的医疗实践做出贡献。