Can Large Language Models Provide Feedback to Students? A Case Study on ChatGPT

文章目录

- 题目
- 摘要
- 相关工作
- 方法
- 结果
- 讨论意义

题目

大型语言模型能为学生提供反馈吗？ChatGPT 案例研究

在这里插入图片描述

论文地址：https://ieeexplore.ieee.org/abstract/document/10260740

摘要

摘要——教育反馈已被广泛认为是提高学生学习能力的有效方法。然而，扩大有效的实践范围可能既费力又费钱，这促使研究人员致力于自动反馈系统（AFS）。受预训练语言模型（例如 ChatGPT）最新进展的启发，我们认为此类模型可能会推进 AFS 中文本反馈生成的现有知识，因为它们能够提供自然而详细的响应。因此，我们旨在研究使用 ChatGPT 为学生提供反馈以帮助他们更好地学习的可行性。具体来说，我们首先检查了 ChatGPT 生成的反馈的可读性。然后，我们在根据评分标准评估学生的作业时测量了 ChatGPT 和老师之间的一致性。最后，我们使用了一个著名的理论反馈框架来进一步研究 ChatGPT 生成的反馈的有效性。我们的结果表明：i）与人类教师相比，ChatGPT 能够生成更详细的反馈，流畅、连贯地总结学生的表现； ii) ChatGPT 在评估学生作业主题时与老师达成了高度一致；iii) ChatGPT 可以对学生完成任务的过程提供反馈，这有利于学生发展学习技能。索引词——反馈生成；自动反馈；大型语言模型；反馈有效性

人们普遍认为，教育中的质量反馈可以成为提升学习体验和学生成绩的重要杠杆。然而，由于教学资源有限，为大量学生提供及时和建设性的反馈已成为一项艰巨的任务。一个潜在的解决方案是使用自动反馈系统 (AFS)。为了方便提供反馈，已经开发了各种自动反馈系统来处理不同的教育任务，从为新手编程生成代码解释到回复论坛帖子以支持大规模开放在线课程的学习者。例如，Marwan 等人应用了一种自适应即时反馈系统为高中程序员提供实时反馈。将该系统集成到编程环境中可以增强学生学习计算机科学课程的参与度，从而提高他们的任务表现。然而，很少有 AFS 经过量身定制 *通讯作者。到开放式写作任务，例如论文作业和项目提案，这些任务在高等教育中变得越来越普遍，但通常需要教师花费大量时间才能提供全面的反馈。

生成式预训练 Transformer (GPT) 模型领域的最新突破可以看作是 AFS 发展的催化剂。 OpenAI 开发的 GPT 模型的最新变体 ChatGPT 自 2022 年 11 月推出以来就变得非常受欢迎。与前辈相比，ChatGPT 的重大进步取决于对对话上下文的额外人工引导微调。这种特定的训练使 ChatGPT 能够生成更自然、更针对上下文的响应。因此，我们认为 ChatGPT 有潜力推进现有的开放式写作任务文本反馈生成知识。在本文中，我们旨在探索使用 ChatGPT 为学生作业生成文本反馈的可行性。所选的作业是一项写作作业，学生在其中提出了一个他们需要在澳大利亚一所大学完成的数据科学项目。我们的研究由以下研究问题指导：

RQ 1 ChatGPT 生成的反馈在多大程度上可读？
RQ 2 在评估学生的表现时，ChatGPT 生成的反馈在多大程度上与讲师生成的反馈一致？
RQ 3 ChatGPT 生成的反馈在多大程度上包含有效的反馈成分来指导学生学习？为了回答上述研究问题，我们首先检查了生成的反馈的可读性，这是衡量机器生成文本质量的常用指标。

然后，我们根据评分标准测量了 ChatGPT 和人类教师在评估作业时的一致性。最后，为了进一步研究 ChatGPT 生成的反馈的有效性，我们使用了提出的著名理论反馈模型来分析和比较 ChatGPT 和人类教师生成的反馈中是否存在有效的反馈成分。通过广泛的分析，我们为在高等教育中将 ChatGPT 部署到开放式任务的反馈提供中的研究做出了贡献，主要发现如下：

ChatGPT 可以生成更详细的反馈，比老师更流畅、更连贯地总结学生的表现；
在评分标准中指定的五个方面中，ChatGPT 在评估学生作业主题方面与人类教师取得了高度一致；
ChatGPT 可以对学生完成任务的过程提供反馈，例如，除了在任务级别提供反馈以表明学生的表现如何之外，还可以在反馈中建议学习策略

方法

我们的研究获得了匿名大学的伦理批准，项目编号为 [BLINDED]。我们从一门教授数据科学入门技能的研究生课程中检索了数据集。在这门课程中，学生需要提出一个与商业场景相关的数据科学项目，并提交一份项目提案以供学业成绩评估。该提案应包括两部分，即项目描述和商业模式，这是对项目所属业务或应用领域的分析。教师评估提交的提案并根据评分标准中规定的以下五个方面为每位学生提供文本反馈：i）清晰描述项目目标（目标）；ii）主题与数据科学的适用性（主题）；iii）清晰描述商业利益（利益）；iv）新颖性/创造性（新颖性），以及v）报告的整体清晰度（清晰度）。删除没有反馈的学生记录后，我们最终获得了103名学生的提案报告和相关的教师生成的反馈。请注意，为了保护隐私，我们在报告和反馈中删除了学生的个人身份信息。表一显示了教师生成的反馈长度的基本统计数据。

在这里插入图片描述

ChatGPT 生成反馈 ChatGPT 由 OpenAI 免费发布，可通过访问 https://chat.openai.com/进行访问。ChatGPT 能够通过查看描述任务的提示（即用户用自然语言编写的供 ChatGPT 模型执行的指令或查询）来生成响应。在当前的研究中，ChatGPT 的任务是从五个评估方面对学生的提案报告生成文本反馈。因此，我们将 ChatGPT 的提示设计如下：“请从项目目标的清晰描述、主题对数据科学的适用性、商业利益的清晰描述、新颖性/创造性和报告的整体清晰度等方面对以下文本给出反馈。<插入报告文本>”。对于每个学生，我们将他们的提案报告文本插入提示中并将其提交给 ChatGPT 以获得生成的反馈。 ChatGPT 生成的反馈长度统计数据如表 I 所示。

评估方法为了回答 RQ1，我们采用了一种广泛使用的度量标准，即可读性来检查机器生成文本的质量。按照工作 [20] 中评估可读性的过程，我们邀请了三位专家，并要求他们每位专家使用五分量表对 ChatGPT 或讲师的每条反馈进行评分，其中：(i) 0 表示难以理解；(ii) 1 不流利且不连贯；(iii) 2 有点流利但不连贯；(iv) 3 流利但有点不连贯和 (v) 4 流利且连贯。由于对文本可读性的评估因人类专家而异，我们计算了三位专家的平均分数作为每条反馈可读性的最终指标。

为了回答 RQ2，我们测量了 ChatGPT 生成的反馈在作为学生表现评估信息时与教师反馈的一致性。如 [11] 所示，反馈的作用是减少学生当前表现与期望目标之间的差异。在反馈过程中，当学生完成设定的目标时，教师可能会在反馈中肯定学生的努力。当学生表现不佳时，教师可能会指出他们应该进一步改进的地方。在本文中，我们使用“极性”来表示反馈是为了肯定学生的努力（“积极”）还是指出他们应该进一步改进的地方（“消极”）。如果反馈生成器无法提供准确表明学生表现如何的反馈——即对表现不佳的正面反馈或对表现良好的负面反馈——生成的反馈可能会无意中误导学生并对学习产生负面影响。因此，我们需要调查 ChatGPT 生成的反馈在反馈极性方面与教师反馈的一致性程度。我们聘请了两位专家来确定反馈极性。

由于来自讲师或 ChatGPT 的每条反馈都是通过基于五个方面（即目标、主题、好处、新颖性和清晰度）评估学生报告而生成的，因此我们确定了每个方面的反馈极性。具体来说，如果反馈是为了肯定学生在特定方面的努力，那么专家会将其标记为“积极”，而如果反馈表明学生需要在特定方面改进，那么专家会将其标记为“消极”。如果反馈不包含对特定方面的任何评论，那么专家会将其标记为“无”。对于每一条讲师或 ChatGPT 反馈，我们获得了五个标签，每个标签都表示五个评估方面的反馈极性（即“积极”、“消极”或“无”）。为了衡量 ChatGPT 在每个评估方面生成具有准确极性反馈的能力，我们将三种反馈极性视为三个类别，将讲师反馈的标签视为基本事实，将 ChatGPT 反馈的标签视为预测类别，计算了多类预测任务的两个常用指标精确度和召回率，因为本研究的目的是评估使用 ChatGPT 支持人类教育者提供反馈的可行性。例如，假设 ChatGPT 总共对 4 份报告在“主题”方面给出了积极的反馈，而其中只有 2 份在同一方面获得了讲师的积极反馈，则精确度为 2/4（0.50）。假设讲师总共对 6 份报告在“主题”方面给出了积极的反馈，则召回率为 2/6（0.33）。

为了回答 RQ3，我们使用了 Hattie 和 Timperley [11] 提出的著名反馈理论框架来分析 ChatGPT 和讲师生成的反馈中是否存在有效的反馈成分。我们招募了两位专家，使用 [11] 中提出的四级反馈模型对讲师和 ChatGPT 反馈进行注释。经过关于注释规则的预训练课程后，每位专家在我们的数据集中注释了 206 条反馈，其中包括 103 条讲师反馈和 103 ChatGPT 生成的反馈。在回答 RQ2 和 RQ3 的两个注释任务中，我们分别计算了两位专家对讲师反馈和 ChatGPT 生成的反馈的一致性分数和 Cohen’s κ。结果如表 II 所示。两位专家之间的不一致由第三位专家解决。
在这里插入图片描述

结果

ChatGPT 和讲师反馈之间的可读性 RQ1 分数的结果报告在表 III 中。我们可以看到，ChatGPT 生成的反馈比讲师反馈更具可读性（p < 0.001，经配对 t 检验）。图 1 显示了讲师和 ChatGPT 提供的反馈的可读性分数分布。分布表明，ChatGPT 反馈的大多数可读性分数在 3.75 到 4.0 之间，而大多数讲师反馈（超过 75%）低于可读性分数 3.75，标准差高于 ChatGPT。通过仔细检查讲师和 ChatGPT 反馈的内容，我们发现 ChatGPT 生成的反馈通常包含学生作品的简要摘要和评估反馈，然后解释如何给出此反馈，而讲师的反馈主要由关于学生表现评估的简单表达组成。我们从数据集中提取了以下示例以供参考。 • 讲师：“主题选择得很好。不是一个新颖的想法。报告清晰且结构良好。” • ChatGPT：“总体而言，文本清楚地描述了项目的目标，即实施数据驱动的方法。。。使用数据科学进行人才挖掘的主题是恰当且相关的，因为游戏的受欢迎程度和商业成功。。。”

在这里插入图片描述

RQ2 的结果回答 RQ2 的结果如表 IV 所示。通过观察精确度和召回率指标的值（在第 III-C 节中介绍），我们可以看到，在五个评估方面中，ChatGPT 在“主题”方面的正极性一致性得分最高（精确度：0.84，召回率：0.93）。这一观察可以通过以下事实得到支持：在“主题”方面，教师和 ChatGPT 都给予了大多数学生正反馈，即教师的 103 个反馈中有 86 个是正反馈，而 ChatGPT 的 103 个反馈中有 95 个是正反馈，如表 IV 中“主题”正极性反馈的数量所示。在其他四个方面，学生大多从教师那里得到负面反馈或空反馈（即，反馈中不包含对特定方面的任何评论，在表 IV 中表示为无），而 ChatGPT 产生的正反馈比教师多。虽然 ChatGPT 在“目标”和“好处”的正极性上的回忆分数也很高，但我们不能得出 ChatGPT 与讲师意见一致的结论，因为这些层面的精确度很低（“目标”正极性为 0.04，“好处”正极性为 0.20）。换句话说，在“目标”方面，在 95 份 ChatGPT 给出积极反馈的报告中，只有 4% 也得到了讲师的积极反馈，而在“好处”方面，在 85 份 ChatGPT 给出积极反馈的报告中，只有 4% 也得到了讲师的积极反馈。正面反馈，只有 20% 的人也得到了老师的正面反馈。

RQ3 表 V 的结果表明，任务级反馈出现在老师提供或 ChatGPT 生成的每条反馈中。令人惊讶的是，ChatGPT 能够为超过一半的报告生成以过程为重点的反馈。与其他水平相比，教师在自我调节和自我层面提供的反馈比例较小，而在 ChatGPT 生成的反馈中根本没有检测到自我调节和自我层面的反馈。

讨论意义

值得注意的是，由于时间限制，高等教育中的教师难以始终如一地提供符合学生期望的高质量反馈。我们的研究表明，ChatGPT 能够以更高的一致性生成更易读的反馈，这为部署 ChatGPT 提供了支持，以帮助教育工作者在更短的时间内为更大规模的班级提供始终如一的高质量个性化反馈。 RQ2 的结果表明，与教师相比，ChatGPT 无法提供可靠的学生表现评估。对此的一个可能的解释是，我们没有通过提供包括不同质量的学生作业和相关的黄金反馈在内的例子来训练 ChatGPT，这些例子可以准确评估他们的表现。在未来的研究中，应该进行及时的工程设计，以确保 ChatGPT 在评估学生作业方面的可靠性，在此基础上，我们可以进一步研究 ChatGPT 反馈在促进学生学习方面的有效性。此外，我们惊讶地发现，ChatGPT 可以生成大量以过程为重点的反馈，这种反馈被认为比以任务为重点的反馈更有效地塑造学生的任务策略。

这意味着 ChatGPT 在指导学生改进任务甚至发展学习技能方面具有良好的价值。局限性。首先，虽然本研究衡量了教师反馈和 ChatGPT 反馈在每个评估方面的极性方面的总体一致性，但我们还没有测试它们在同一作业上的一致性，这对每个学生来说都更为关键。进一步的研究应该调查 ChatGPT 能在多大程度上提供与其评论的作业相关的有效反馈。其次，ChatGPT 以无监督的方式生成反馈可能会影响我们研究中生成的反馈的有效性。未来，我们可能会考虑进行快速工程，以根据学习目标从 ChatGPT 获得所需的反馈。最后，我们研究中进行的分析严重依赖于人工注释，这非常耗时。因此，自动评估值得进一步发展，以评估教育反馈的有效性