Towards Enriched Controllability for Educational Question Generation

embedded/2024/12/23 7:16:53/

文章目录

    • 题目
    • 摘要
    • 引言
    • 生成显式和隐式问题
    • 实验设置
    • 结果基线
    • 结论

题目

迈向教育问题生成的丰富可控性

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.14917

摘要

    问题生成 (QG) 是自然语言处理 (NLP) 中的一项任务,涉及根据输入自动生成问题,输入通常由文本和目标答案组成。QG 的最新研究旨在控制生成问题的类型,以满足教育需求。教育 QG 中可控性的一个显著例子是生成基于某些叙事元素的问题,例如因果关系、结果解决或预测。本研究旨在通过引入一种新的指导属性来丰富 QG 中的可控性:问题明确性。我们建议控制儿童友好故事中显性和隐性 (wh) 问题的生成。我们展示了通过问题明确性单独控制 QG 的初步证据,并同时使用另一个目标属性:问题的叙事元素。代码可在 github.com/bernardoleite/question-generation-control 上公开获取。

关键词:自然语言处理´问题生成´可控性´问题明确性。

引言

    在教育背景下,问题生成 (QG) 可以自动化并协助教师完成一项耗时费力的任务。通过自学和参与计算机生成的练习题,QG 还可以帮助学习者进行形成性评估。然而,自动 QG 工具在课堂上并没有得到广泛使用 [2,8],这是因为生成的问题通常类型和难度级别有限 [2]。正如 Wang 等人 [8] 所指出的,用户强烈希望控制,即人类为 QG 系统提供输入并决定何时使用他们的输出。受这种需求的启发,本研究提出了一个 QG 框架来控制显性和隐性问题的生成,在生成过程中使用问题的显性作为指导属性。一般来说,显性问题以特定的故事事实为中心,而隐性问题则依赖于总结和得出推论来自文本中的隐性信息。
    正如 Xu 等人 [9] 所述,显性和隐性问题的正式定义如下: – 显性问题要求在故事中直接找到答案。 换句话说,答案的来源是文本范围。 – 隐性问题要求在文本中无法直接找到答案。 回答问题需要重新表述语言或进行推断。换句话说,答案来源是“自由形式”,这意味着答案可以是任何自由文本,并且答案的来源没有限制。
值得注意的是,先前的研究 [6,11,9] 表明,显性和隐性问题的组合有助于评估中更加平衡的难度。

    为了实现我们的目标,我们使用了一个名为 FairytaleQA [9] 的最新数据集,其中包含来自儿童友好故事的问答 (QA) 对。 每个问题都由专家注释者归类为“显式”或“隐式”。 之前的一些研究已经解决了教育问答系统中的可控性问题。例如,Ghanem 等人 [1] 控制问题所需的阅读理解技能,例如,描述性语言和总结。同样,Zhao 等人 [10] 控制生成问题背后的叙述元素,例如因果关系、结果解决或预测。他们使用与本研究相同的数据集 FairytaleQA,其中每个问题除了显式性之外,还根据所引用的叙述元素进行分类。

生成显式和隐式问题

    在本研究中,我们使用可控机制对 T5 预训练模型 [5] 进行微调,以生成显式和隐式问题。T5 是一个文本到文本的生成模型,在包括问答和总结在内的多个自然语言生成基准上取得了最佳效果。我们训练模型来为特定的故事文本生成问题和答案。为了控制所生成问题的明确性,我们在输入的开头(故事文本之前)添加一个特殊标记 ,后跟explicit 或 implicit属性。此属性指导系统生成所需类型的问题。其他特殊标记(

、 和 )用于分隔模型的输入和输出信息。

    该技术基于最近的一项研究 [10],旨在控制以另一个目标属性为条件的 QG:问题的叙述元素。我们还研究同时控制问题的明确性和目标属性。为此,除了 之外,我们还在前面添加 ,后跟叙述属性名称。

实验设置

    数据:我们使用 FairytaleQA [9],其中教育专家从 278 个儿童友好故事中手动创建了 10,580 个 QA 对。每个问题都标注有明确性标签,可以是“明确”或“隐含”。此外,每个问题都标有以下叙述元素之一:人物、背景、动作、感觉、因果关系、结果解决或预测。从统计上讲,每个故事大约有15个部分,每个部分(由多个句子组成)大约有3个问题。显式问题约占所有问题的75%。我们使用由8,548/1,025/1,007个QA对组成的原始训练/验证/测试分割。

    模型:从原始数据集中,我们训练了不同的模型5:(A)问题部分:答案;(B)答案部分:问题;(C)部分:问题-答案;(D)前部分:问题-答案; (E) nar-section:question-answer;和 (F) nar-exsection:question-answer。模型 A 和 B 将作为与 FairytaleQA 论文中的 QA 和 QG 模型的基线比较。模型 C 仅包含部分文本作为输入,因此其目的是作为与包含控制属性的模型 D-F 进行比较的基线。模型 D 在输入中包含问题的明确性属性。模型 E 在输入中包含叙述属性。模型 F 包含两个控制属性。图 1 显示了具有可控性提示的模型的说明性示例。

    受控测试集:为了评估模型 D-F 可控性的有效性,我们从原始测试集准备了一个重组版本,我们称之为受控测试:每个示例包括一个部分和关于该部分的所有真实 QA 对,这些 QA 对属于一种明确性类型(显式或隐式)和叙述元素。此外,为了便于 C 模型和 D-F 模型之间的比较,每个部分仅出现一次。实施细节:我们使用 t5-base6 模型版本。我们分别将最大 token 输入和输出设置为 512 和 128。我们训练模型的最大周期为 10 个,耐心值为 2 的提前停止,批处理大小为 32。对于推理,我们使用波束宽度为 5 的波束搜索。
在这里插入图片描述

结果基线

    FairytaleQA 作者报告称,测试集上的 n-gram 相似度 ROUGELF1 [3] 值为 0.536(QA)和 0.527(QG)。使用我们的基线模型(A 和 B),我们分别获得了 0.559(QA)和 0.529(QG)。这表明我们的基线模型在定量上与之前获得的结果一致。按问题明确性划分的 QA 结果:更多关于 QA 基线模型 A,我们对明确和隐性问题的 ROUGEL-F1 QA 结果分别为 0.681 和 0.194。徐等人 [9] 也观察到了这种显著差异。根据作者的说法,这种情况是可以预料到的,因为明确问题的答案可以直接在文本中找到。相比之下,隐性问题需要深入的推理和总结。我们利用这一原理来评估问题明确性的可控性。我们假设,在设置 A 中获得的 QA 模型在由模型 D 和 F 生成的显性问题上的表现将明显优于隐性问题。

    可控性:我们通过采用 QA 和 QG 任务来寻找问题可控性的证据。对于 QA,我们使用 ROUGEL-F1 指标和 EXACT MATCH,这是两个字符串之间严格的全有或全无分数。对于 QG,我们使用 n-gram 相似度 ROUGEL-F1 和 BLEU-4 [4]。此外,我们使用 BLEURT [7],这是一个较新的文本生成性能指标。

    表 1 引用了 QA 结果,如下所示。我们使用 QA 模型(在设置 A 中获得)来回答由模型 D 和 F 生成的问题。然后,将从 QA 模型获得的答案与从模型 D 和 F 生成的答案进行比较,得出报告的结果。对于这两个评估指标,QA 模型在显式生成问题上的表现明显优于隐式生成问题(证实了我们的假设)。因此,我们得出结论,这些分数表明,使用所提出的可控机制可以控制问题的显性。

    表 2 列出了获得的 QG 结果。这里采用了 QG 中的传统评估程序,即直接将生成的问题与基本事实进行比较 7。我们发现模型 D 获得的 QG 分数与模型 C 获得的 QG 分数没有显著差异,这可以解释如下:控制问题的显性对回答生成问题所需的答案类型的影响大于对生成问题的语法的影响。

    因此,我们认为模型 C 和 D 在 QG 结果中没有显著差异是可以预料的。相比之下,与模型 C 相比,模型 E 和 F(接收叙事可控性提示)的改进更为显著。这可以解释如下:控制问题的叙事元素会强烈影响所生成问题的语法。例如,我们通过经验观察到,当要求模型生成有关“因果关系”元素的问题时,它会生成(在许多情况下)问题从“为什么……?”开始。对于“结果解决”,该模型生成“发生了什么……?”问题。对于“预测”,该模型生成“将如何……?”问题。最后,值得注意的是,模型 F(接收显性和叙述可控性提示)被证明可以有效地同时控制问题的显性和叙述元素。

结论

    在本研究中,我们致力于丰富教育 QG 的可控性。通过自动评估,结果显示初步证据表明,可以 (1) 控制问题的明确性和 (2) 同时控制问题的明确性和问题的叙述元素。我们认为,教育 QG 的下一步发展应该涉及通过多种指导和教育相关属性来丰富(甚至更多)可控性过程。寻找其他有效的控制机制也是一条有趣的途径。对于未来的工作,我们打算在实际教育环境中进行大规模的人工评估,重点关注 QG 的可控性。


http://www.ppmy.cn/embedded/100568.html

相关文章

加密与安全_解密AES加密中的IV和Seed

文章目录 概述IV(Initialization Vector,初始化向量)Seed(种子) CodeseedIV 小结 概述 在AES加密中,**IV(Initialization Vector,初始化向量)和Seed(种子&am…

pwm子系统

一、系统框架 内核的PWM core,向下对实际pwm控制器驱动,提供了pwm_chip,soc厂商编程控制器驱动,只需注册结构体,配置好private_data,实例化pwm_ops操作,编写具体函数即可。 向上为其他驱动调用提供了统一的…

【YOLO家族】Scaled-YOLOv4, Optimal Speed and Accuracy of Object Detection,CVPR 2021

资源 论文题目《YOLOv4: Optimal Speed and Accuracy of Object Detection》 论文地址:https://arxiv.org/abs/2004.10934 论文代码:https://github.com/AlexeyAB/darknet 作者:AlexeyAB 论文链接:https://arxiv.org/pdf/2004.10…

如何使用ssm实现在线作业管理系统的设计与实现+vue

TOC ssm182在线作业管理系统的设计与实现vue 绪论 1.1 选题背景 网络技术和计算机技术发展至今,已经拥有了深厚的理论基础,并在现实中进行了充分运用,尤其是基于计算机运行的软件更是受到各界的关注。计算机软件可以针对不同行业的营业特…

PHP进阶篇(奇怪的知识又增加了)

这里的知识不太正经哦 但用好了很实用 哈哈 对象和数组的调用 对象:$object->属性名 $object->方法名() 数组:$array[下标名] 这里都理解 但开发需要注意有些地方会产生调用错误 尤其框架model方法处 有的是数组有的是对象 直接返回前端看起…

学习前端面试知识(15)

防抖和节流怎么实现? 参考文章 彻底理清防抖和节流 防抖和节流都是用于控制函数执行频率的方法,防抖是在一定时间内只执行最后一次操作,节流是在一定时间内只执行一次操作,可以通过setTimeout和时间戳等方法实现。 防抖&#x…

王树森《搜索引擎技术》- 课程笔记

课程合集:ShusenWang的个人空间-ShusenWang个人主页-哔哩哔哩视频 (bilibili.com) 课件地址:GitHub - wangshusen/SearchEngine: 搜索引擎原理 目录 概要 1、搜索引擎的基本概念 曝光和点击 垂搜vs通搜 课程安排 2、决定搜索满意度的因素&#…

克服编程挫折:从Bug的迷宫中寻找出口与面对算法保持冷静的策略

在编程学习的道路上,挫折感无疑是每个学习者都必须面对的挑战之一。它们仿佛是一座座高墙,阻挡我们前进的步伐。然而,正如许多有经验的编程高手所证明的那样,挫折并不是终点,而是成长和进步的催化剂。本文将分享一些有…