Towards Enriched Controllability for Educational Question Generation

文章目录

- 题目
- 摘要
- 引言
- 生成显式和隐式问题
- 实验设置
- 结果基线
- 结论

题目

迈向教育问题生成的丰富可控性

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.14917

摘要

问题生成 (QG) 是自然语言处理 (NLP) 中的一项任务，涉及根据输入自动生成问题，输入通常由文本和目标答案组成。QG 的最新研究旨在控制生成问题的类型，以满足教育需求。教育 QG 中可控性的一个显著例子是生成基于某些叙事元素的问题，例如因果关系、结果解决或预测。本研究旨在通过引入一种新的指导属性来丰富 QG 中的可控性：问题明确性。我们建议控制儿童友好故事中显性和隐性 (wh) 问题的生成。我们展示了通过问题明确性单独控制 QG 的初步证据，并同时使用另一个目标属性：问题的叙事元素。代码可在 github.com/bernardoleite/question-generation-control 上公开获取。

关键词：自然语言处理´问题生成´可控性´问题明确性。

引言

在教育背景下，问题生成 (QG) 可以自动化并协助教师完成一项耗时费力的任务。通过自学和参与计算机生成的练习题，QG 还可以帮助学习者进行形成性评估。然而，自动 QG 工具在课堂上并没有得到广泛使用 [2,8]，这是因为生成的问题通常类型和难度级别有限 [2]。正如 Wang 等人 [8] 所指出的，用户强烈希望控制，即人类为 QG 系统提供输入并决定何时使用他们的输出。受这种需求的启发，本研究提出了一个 QG 框架来控制显性和隐性问题的生成，在生成过程中使用问题的显性作为指导属性。一般来说，显性问题以特定的故事事实为中心，而隐性问题则依赖于总结和得出推论来自文本中的隐性信息。
正如 Xu 等人 [9] 所述，显性和隐性问题的正式定义如下： – 显性问题要求在故事中直接找到答案。换句话说，答案的来源是文本范围。 – 隐性问题要求在文本中无法直接找到答案。回答问题需要重新表述语言或进行推断。换句话说，答案来源是“自由形式”，这意味着答案可以是任何自由文本，并且答案的来源没有限制。
值得注意的是，先前的研究 [6,11,9] 表明，显性和隐性问题的组合有助于评估中更加平衡的难度。

为了实现我们的目标，我们使用了一个名为 FairytaleQA [9] 的最新数据集，其中包含来自儿童友好故事的问答 (QA) 对。每个问题都由专家注释者归类为“显式”或“隐式”。之前的一些研究已经解决了教育问答系统中的可控性问题。例如，Ghanem 等人 [1] 控制问题所需的阅读理解技能，例如，描述性语言和总结。同样，Zhao 等人 [10] 控制生成问题背后的叙述元素，例如因果关系、结果解决或预测。他们使用与本研究相同的数据集 FairytaleQA，其中每个问题除了显式性之外，还根据所引用的叙述元素进行分类。

生成显式和隐式问题

在本研究中，我们使用可控机制对 T5 预训练模型 [5] 进行微调，以生成显式和隐式问题。T5 是一个文本到文本的生成模型，在包括问答和总结在内的多个自然语言生成基准上取得了最佳效果。我们训练模型来为特定的故事文本生成问题和答案。为了控制所生成问题的明确性，我们在输入的开头（故事文本之前）添加一个特殊标记，后跟explicit 或 implicit属性。此属性指导系统生成所需类型的问题。其他特殊标记（

、和）用于分隔模型的输入和输出信息。

该技术基于最近的一项研究 [10]，旨在控制以另一个目标属性为条件的 QG：问题的叙述元素。我们还研究同时控制问题的明确性和目标属性。为此，除了之外，我们还在前面添加，后跟叙述属性名称。

实验设置

数据：我们使用 FairytaleQA [9]，其中教育专家从 278 个儿童友好故事中手动创建了 10,580 个 QA 对。每个问题都标注有明确性标签，可以是“明确”或“隐含”。此外，每个问题都标有以下叙述元素之一：人物、背景、动作、感觉、因果关系、结果解决或预测。从统计上讲，每个故事大约有15个部分，每个部分（由多个句子组成）大约有3个问题。显式问题约占所有问题的75%。我们使用由8,548/1,025/1,007个QA对组成的原始训练/验证/测试分割。

模型：从原始数据集中，我们训练了不同的模型5：（A）问题部分：答案；（B）答案部分：问题；（C）部分：问题-答案；（D）前部分：问题-答案； (E) nar-section:question-answer；和 (F) nar-exsection:question-answer。模型 A 和 B 将作为与 FairytaleQA 论文中的 QA 和 QG 模型的基线比较。模型 C 仅包含部分文本作为输入，因此其目的是作为与包含控制属性的模型 D-F 进行比较的基线。模型 D 在输入中包含问题的明确性属性。模型 E 在输入中包含叙述属性。模型 F 包含两个控制属性。图 1 显示了具有可控性提示的模型的说明性示例。

受控测试集：为了评估模型 D-F 可控性的有效性，我们从原始测试集准备了一个重组版本，我们称之为受控测试：每个示例包括一个部分和关于该部分的所有真实 QA 对，这些 QA 对属于一种明确性类型（显式或隐式）和叙述元素。此外，为了便于 C 模型和 D-F 模型之间的比较，每个部分仅出现一次。实施细节：我们使用 t5-base6 模型版本。我们分别将最大 token 输入和输出设置为 512 和 128。我们训练模型的最大周期为 10 个，耐心值为 2 的提前停止，批处理大小为 32。对于推理，我们使用波束宽度为 5 的波束搜索。
在这里插入图片描述

结果基线

FairytaleQA 作者报告称，测试集上的 n-gram 相似度 ROUGELF1 [3] 值为 0.536（QA）和 0.527（QG）。使用我们的基线模型（A 和 B），我们分别获得了 0.559（QA）和 0.529（QG）。这表明我们的基线模型在定量上与之前获得的结果一致。按问题明确性划分的 QA 结果：更多关于 QA 基线模型 A，我们对明确和隐性问题的 ROUGEL-F1 QA 结果分别为 0.681 和 0.194。徐等人 [9] 也观察到了这种显著差异。根据作者的说法，这种情况是可以预料到的，因为明确问题的答案可以直接在文本中找到。相比之下，隐性问题需要深入的推理和总结。我们利用这一原理来评估问题明确性的可控性。我们假设，在设置 A 中获得的 QA 模型在由模型 D 和 F 生成的显性问题上的表现将明显优于隐性问题。

可控性：我们通过采用 QA 和 QG 任务来寻找问题可控性的证据。对于 QA，我们使用 ROUGEL-F1 指标和 EXACT MATCH，这是两个字符串之间严格的全有或全无分数。对于 QG，我们使用 n-gram 相似度 ROUGEL-F1 和 BLEU-4 [4]。此外，我们使用 BLEURT [7]，这是一个较新的文本生成性能指标。

表 1 引用了 QA 结果，如下所示。我们使用 QA 模型（在设置 A 中获得）来回答由模型 D 和 F 生成的问题。然后，将从 QA 模型获得的答案与从模型 D 和 F 生成的答案进行比较，得出报告的结果。对于这两个评估指标，QA 模型在显式生成问题上的表现明显优于隐式生成问题（证实了我们的假设）。因此，我们得出结论，这些分数表明，使用所提出的可控机制可以控制问题的显性。

表 2 列出了获得的 QG 结果。这里采用了 QG 中的传统评估程序，即直接将生成的问题与基本事实进行比较 7。我们发现模型 D 获得的 QG 分数与模型 C 获得的 QG 分数没有显著差异，这可以解释如下：控制问题的显性对回答生成问题所需的答案类型的影响大于对生成问题的语法的影响。

因此，我们认为模型 C 和 D 在 QG 结果中没有显著差异是可以预料的。相比之下，与模型 C 相比，模型 E 和 F（接收叙事可控性提示）的改进更为显著。这可以解释如下：控制问题的叙事元素会强烈影响所生成问题的语法。例如，我们通过经验观察到，当要求模型生成有关“因果关系”元素的问题时，它会生成（在许多情况下）问题从“为什么……？”开始。对于“结果解决”，该模型生成“发生了什么……？”问题。对于“预测”，该模型生成“将如何……？”问题。最后，值得注意的是，模型 F（接收显性和叙述可控性提示）被证明可以有效地同时控制问题的显性和叙述元素。

结论

在本研究中，我们致力于丰富教育 QG 的可控性。通过自动评估，结果显示初步证据表明，可以 (1) 控制问题的明确性和 (2) 同时控制问题的明确性和问题的叙述元素。我们认为，教育 QG 的下一步发展应该涉及通过多种指导和教育相关属性来丰富（甚至更多）可控性过程。寻找其他有效的控制机制也是一条有趣的途径。对于未来的工作，我们打算在实际教育环境中进行大规模的人工评估，重点关注 QG 的可控性。