未来医疗：大语言模型如何改变临床实践、研究和教育

小罗碎碎念

这篇文章探讨了大型语言模型在医学领域的潜在应用和挑战，并讨论了它们在临床实践、医学研究和医学教育中的未来发展。

姓名	单位名称（中文）
Jan Clusmann	德国德累斯顿工业大学埃尔朗根弗雷斯尼乌斯中心数字化健康研究所
Jakob Nikolas Kather	德国癌症研究中心医学肿瘤学部门

文章首先介绍了LLMs的基本概念，它们是经过大量文本训练的人工智能工具，能够处理和生成文本，执行回答问题、总结、释义和文本翻译等任务。LLMs在医学领域的应用前景广阔，但同时也存在诸如传播错误信息、隐私保护、数据偏见和滥用等问题。

文章详细讨论了LLMs在临床实践、医学研究和医学教育中的潜在影响。在临床实践中，LLMs可以通过提高医患沟通、辅助医疗决策和简化文档工作来改善患者护理。在医学研究中，LLMs可能通过提供对科学知识的访问、改进科学写作和编程任务来促进研究。在医学教育中，LLMs可以作为教学辅助工具，帮助学生理解和应用复杂的医学概念。

然而，文章也指出了LLMs的局限性，包括可能复制现有的医疗偏见、产生错误信息和传播错误知识。此外，LLMs的输出可能缺乏准确性和最新性，这在医学领域尤其重要，因为错误的信息可能对患者护理产生严重后果。

文章最后强调了在将LLMs应用于医学领域之前，需要解决的关键问题，包括安全性、有效性和伦理问题。作者呼吁建立法律框架来处理LLMs可能引起的问题，并鼓励开发非商业性的开源LLM项目，以防止医疗知识和医疗保健访问受到全球垄断的限制。

文章的补充数据中提供了LLMs输出的例子，以进一步说明这些模型在医学领域的应用潜力和挑战。

一、绪论

大型语言模型（LLMs）运用人工智能（AI）算法生成类似人类语言的文本输出1,2。这些模型通过对大量文本进行训练，例如从互联网上获取的数据，能够回答问题、提供概要或翻译以及创作故事或诗歌（图1a）3,4。

用户仅需提供一组关键词或查询内容，LLM即可基于这些主题生成文本。此外，还可根据需求指定特定的文本风格，如简化语言或诗歌形式。

鉴于LLMs处理复杂概念的能力，以及响应多样化请求和问题（提示）的能力2,5,6，它们有可能在医学领域的多个方面提供辅助。然而，这些模型也引发了关于误信息传播、隐私问题、训练数据中的偏见以及潜在滥用的担忧3,7–10。

本文旨在概述LLMs可能对病人护理、医学研究及医学教育产生的影响。

二、大语言模型（LLMs）的发展

LLMs采用神经网络技术，其发展基于自然语言处理（NLP）模型。

2018年，OpenAI发布了首个LLM，即生成式预训练Transformer（GPT）–114，随后其他公司如谷歌和Meta也发布了各自的LLM2,15–17。

2022年11月，OpenAI推出了一款更新的LLM，名为ChatGPT（https://chat.openai.com），因其公共可访问性、便捷的使用性和类人输出而受到关注18。

这是通过整合基于人类反馈的奖励模型，即人类反馈强化学习（RLHF）实现的，使得输出比以往LLM更具可信度（图1a）18–20。

自ChatGPT发布以来，其他LLM和工具以前所未有的速度陆续发布。

OpenAI通过进一步从ChatGPT进行强化学习开发的GPT-4，现在已超过美国医疗执照考试（USMLE）的及格分数5,22。

PaLM和ChatBot BARD（由谷歌开发，https://blog.google/technology/ai/google-palm-2-ai-large-language-model）16,23、Llama和Llama-2（由Meta开发，https://huggingface.co/docs/transformers/main/model_doc/llama）24、Alpaca 7b25和Vicuna26（均为较小模型，由斯坦福大学、加州大学伯克利分校、卡内基梅隆大学和加州大学圣地亚哥分校基于Llama开发）以及GPT-4的应用程序编程接口（APIs）现已公开提供——这使得用户能够将这些模型集成到独立软件中。

此外，新功能如视觉输入21和插件27使得可能的应用领域呈指数级增长。

三、患者护理

在医学各领域中，人际交流是患者护理不可或缺的一部分。

准确解读口头语言是影响交流成功最为关键的因素之一。

这对于建立患者与护理者之间的良好关系、提高患者满意度以及实现最佳临床结果至关重要。同时，书面文本被广泛用于医疗专业人员之间关于患者的沟通，如诊断和治疗程序的报告、结果及其含义。

患者报告中缺乏清晰性会导致患者护理质量下降28。此外，医疗提供者之间沟通效率低下会给临床机构及医疗系统带来沉重的经济负担29。

3-1：医学知识与医学核心能力

LLMs通过增强如事实性知识或人际交流技能等医学核心能力，有望改善患者护理（图1b）。

例如，ChatGPT具有丰富的医学语义知识，并能够进行医学推理2（补充数据，示例1），这在医学执照考试中的表现优异得到证明5,6,30。

通过提供医学执照考试风格的问题和由临床专家挑选的示例答案进行额外训练，可以进一步优化LLMs的医学推理和理解能力2。

GPT-4迄今为止展示了LLMs中最高的医学领域知识5。然而，LLMs固有地倾向于复现现有的医学偏见31（补充数据，示例2）并延续与种族、性别、性取向和社会经济地位等因素相关的不平等30,32。

通过文本简化能力33，LLMs可能改善医疗人员与患者之间的沟通34。

患者可以随时访问LLMs，而不受医疗专家时间限制的影响，这可能使得联系更加容易和舒适35。这些优势在携带社会污名的疾病条件下尤为显著，如成瘾或性传播疾病。

自从2000年代末智能手机广泛普及以来，满足这一需求的数字工具已经开发出来。此类工具的例子包括First Derm36,37，一种用于皮肤状况诊断的远程皮肤镜应用，使皮肤科医生能够远程评估并提供指导，以及Pahola38，一个提供饮酒指导的数字聊天机器人。

目前，这类数字健康应用的成功大多受到技术限制39和医疗从业者接受度有限40的影响。LLMs的快速进步以及随后在功能性和易用性方面的改进可能有助于克服这些限制。然而，LLMs目前缺乏真正的同理心，这在情感挑战性情境中是一个关键方面，并且很可能是必须由人类完成的任务。

3-2：翻译与总结

语言障碍常常阻碍患者参与关于自身健康的决策41,42。

LLMs可以快速准确地翻译成多种语言，有效地使医疗提供者和患者无论其母语如何都能参与临床决策（补充数据，示例3）。

LLMs还可以将医学术语翻译成日常普通语言，这可能会通过赋能患者在健康相关决策中来提高治疗依从性。

3-3：文档记录

文档和行政要求消耗了临床医生大约25%的工作日35。

LLMs可以在生成更简洁和标准化的报告及文档方面提供协助。关键的是，LLMs能够将非结构化笔记转换为结构化格式，从而简化日常患者护理或临床试验中的文档任务（补充数据，示例4）。

结合LLMs在处理和生成书面及口头语言方面的潜力43，可能导致自动听写或由提示触发的病历审查。这种整合可能减轻医生部分文档过程的负担，减少认知负荷，从而增加他们对患者的时间。

四、医学研究

提供高质量的医疗服务要求医生将最新的医学证据整合到决策过程中。此外，医生常常参与前临床、转化和临床研究。

研究成果的有效传播，如以书面出版物和会议口头报告的形式，使得成果能够到达适当的医学和科学社区，并最终在临床中得到应用。

LLMs很可能很快就会影响和改变医学研究。然而，尽管它们有可能民主化科学证据的获取，但可能导致误信息传播和促进科研不端行为44–46。

4-1：科学知识的获取

科学研究进展迅速且持续发展，导致出版物数量不断增加，质量参差不齐——研究人员适当利用这些知识是一项重大挑战47–49。

LLMs可以帮助总结科学概念和现有证据，使研究人员能够访问更少但更易获取的资源。然而，这些总结的质量和益处取决于底层训练数据。

尽管GPT-4在事实准确性上优于其前身GPT-3.5（方框2，补充数据，示例2，5，10），但LLMs目前并不总能提供适当的详细总结或对最新、高质量、同行评审证据的批判性评估50。

由于LLMs目前不是动态更新的，它们的知识是静态的，如果作为主要信息来源，这将阻止获取最新的科学进展（方框2，补充数据，示例5）。然而，如果能够实现实时更新并提高事实性，LLMs作为最新证据来源的价值将大幅提升。

可以设想，如果作为科学工具使用，下一代LLMs可能有助于对抗研究创新性降低的趋势49。例如，LLMs可以用于从大量非结构化文本文件或图像中高效提取感兴趣的数据——如果手动完成，这是一项繁琐且容易出错的任务51。

LLM支持的优质总结可以帮助应对快速发展的科学证据的挑战，并通过揭示文献之间的可能联系，LLMs可以帮助发现新的研究轨迹，从而为塑造更具创新性和动态性的研究景观做出贡献。

4-2：科学文本生产

LLMs生成和调整文本内容、语言和风格的能力可用于生产科学内容52,53。

例如，ChatGPT能够生成人类难以与研究人员撰写的科学摘要区分的摘要54。然而，由于LLMs生成的文本不准确、肤浅且重复，目前使用LLMs进行科学写作仍需人类作者进行重大修订（补充数据，示例6）。

预计LLMs将影响科学发现的传播9,55。然而，它们的使用可能会通过复杂化科学文本及其事实和引用的真实性验证，从而损害科学出版物的质量。为了尽可能使科学发展透明，定义LLMs在科学背景下的使用框架将非常重要9,46。

4-3：计算机编程

除了书面语言，LLMs还可以在多种编程语言上接受训练。

在数据科学和生物信息学领域，LLMs的流行应用包括代码调试和简化、翻译成不同的编程语言以及从自然语言输入推导代码（补充数据，示例7）。

尽管这些输出有时可能不准确，但LLMs能够在进一步请求时提供解决方案，并可以帮助研究人员完成简单和复杂的编码任务，例如快速数据可视化。

这为科学家提供了技术技能集，使缺乏编程专业知识的外行人员能够使用基于代码的工具来测试假设并提高效率。

4-4：可重复性

可重复性是维持科学实践高标准的根本前提。

尽管动态更新模型可以使其性能优于前代模型5,21，但这样的更新或对其访问的限制也可能损害研究发现的可靠和一致复现。

例如，使用GPT-3.5的初始提示查询与使用GPT-4重新提示之间存在重大差异（方框2，补充数据）。在使用GPT-3.5的不同版本时也发现了细微的变化。

这强调了在科学出版物中详细记录提示和模型版本的重要性，以及开发者实施开放获取版本控制解决方案的必要性，以实现特定版本内容的未来复现。

五、医学教育

随着新技术的出现，教育方式已经发生了变化。

例如，计算器的普及使得数学教学可以专注于理论和方法论，而不是学习如何进行复杂的心算。由于大量的知识现在可以通过互联网和智能设备轻松获取，记忆在医学教育中的必要性已经降低57,58。

相反，教育者更加重视批判性思维、辩论和讨论，因为这些技能仍然是必需的。LLMs可能会进一步改变教育方法，因为它们可以辅助推理。

5-1：LLMs在教育中的有益应用

LLMs可以在许多方面补充教育策略。

它们可以提供令人信服的总结、演示、翻译、解释、逐步指南以及对许多主题的情境化，同时输出内容可以自定义深度、语气和风格。

例如，它们可以将复杂概念简化到业余水平（方框2，补充数据，示例8，9）并为学术主题提供合理的个性化反馈（补充数据，示例9）6。这些特性使得LLMs适合作为个性化教学助手，例如，准备复习辅助材料和测试示例。

LLMs可用于创建互动性和吸引力的学习模拟——例如，学生可以使用LLMs模拟与虚构病人的对话，让他们练习采集病史或评估诊断和治疗计划（补充数据，示例11）。

5-2：关于LLMs的教育

实施负责任的LLMs互动指南将至关重要，以防止学生不适当的使用，特别是在医学教育中，误信息可能导致不准确的决定，进而可能对病人造成伤害。

所有学生都应接受关于LLMs的基本介绍，鉴于其广泛的应用潜力。这应包括对内在偏见和局限性的认识。

尤其重要的是，学生应学习适当的背景知识，即如何恰当地表述输入以实现所需的输出62，因为错误的提示可能导致偏见或误信息，从而可能带来严重后果4。