BBQ: A Hand-Built Bias Benchmark for Question Answering 论文精读

Information
Abstract
1 Introduction
2 Related Work
3 The Dataset
3.1 Coverage
3.2 Template Construction
3.3 Vocabulary
4 Validation
5 Evaluation
6 Results
7 Discussion
8 Conclusion
9 Ethical Considerations
10 Acknowledgments
A Vocabulary details
B Proper Name Selection Process
C Dataset Size
D Template Validation Details
E Overall Accuracy Results
F Question-only Baseline Results
G Distribution of UNKNOWN Answers
H Detailed Results from Intersectional Categories

Information

标题： BBQ：一个基于问题回答的手工制作的基于问题回答偏见基准
时间： 2022/05/16 ACL
作者： Alicia Parrish,1 Angelica Chen,2 Nikita Nangia,2 Vishakh Padmakumar,2 Jason Phang,2 Jana Thompson,2 Phu Mon Htut,2 Samuel R. Bowman1,2,3
单位： ¹New York University Dept. of Linguistics ²New York University Center for Data Science ³New York University Dept. of Computer Science
链接： https://arxiv.org/pdf/2110.08193.pdf

Abstract

Q：众所周知，NLP模型会学习社会偏见，但在应用任务（如问答）中，关于这些偏见如何在模型输出中体现的工作却很少。 R：我们引入了偏见问题基准（BBQ），这是一个由作者构建的问题集数据集，突出显示了针对属于受保护类别的人们的社会偏见，涵盖了对美国英语环境相关的九个社会维度。我们的任务在两个层面评估模型的响应；（一）在信息不足的上下文中，我们测试回答在多大程度上反映社会偏见；（二）在提供充分信息的上下文中，我们测试模型的偏见是否会改变正确答案的选择。 C: 我们发现，当上下文信息不足时，模型常常依赖刻板印象，这意味着模型在这种情况下始终会重现有害的偏见。虽然当上下文提供了充分信息时，模型的准确性会更高，但它们仍然依赖于刻板印象，当正确答案与社会偏见一致时，平均准确性提高了3.4个百分点，而当冲突时，这个差异扩大到超过5个百分点，对大多数经过测试的模型而言，针对性别的示例效果更为明显。

1 Introduction

大型语言模型（LMs）学习了世界上存在的社会偏见，而这些系统在不同环境中的广泛使用增加了这些偏见可能导致伤害的情况。已经发现LMs在诸如语言生成（Sheng等人，2019）和共指消解（Rudinger等人，2018）等下游任务中重现了社会偏见。因此，在现实世界应用中使用这些模型存在着对边缘化个体和群体造成伤害的风险。然而，目前很少有工作去了解这些偏见在问答（QA）模型的输出中如何体现。为了评估模型输出中的这些偏见，我们测量了针对一系列社会类别的偏见，并测量了在哪些上下文中最可能出现这些影响。

在自然语言处理（NLP）领域中，关于偏见的定义有很多，而且经常是相互冲突的（Blodgett等人，2020）。我们关注的是刻板行为，并在Li等人（2020）对QA中的偏见的定义和处理基础上进行研究。他们已经表明，模型与不同答案选项相关的边际概率与加粗样式不同性别和种族身份相关的积极或消极关联有关。然而，尚未展示这些差异如何在离散的模型输出中体现，因为概率差异并不总是对应于模型的分类预测的差异，而且这些表现是否与可识别的偏见有关，而不仅仅是身份标签和积极或消极词汇之间的普遍关联。为了解决这个问题，我们创建了偏见问题基准（BBQ），这是一个手工编写的数据集，针对九个不同的社会相关类别中已经确认的社会偏见，经过专家和众包工作者的验证。

我们将每个上下文与问题和答案选项进行匹配，以测试模型是否系统地依赖于社会偏见。每个示例都有两个问题，反映了消极或有害的偏见：一个问题询问有害刻板印象的目标（例如，“谁偷东西？”），另一个问题询问非目标实体（例如，“谁从不偷东西？”）。为了衡量偏见模型输出可能出现的情况，我们评估两种情况：上下文中没有足够的信息来回答问题（导致正确答案是不确定的表达，如“not known”），以及正确答案存在的情况，从而让我们测试我们已知的偏见是否会覆盖正确答案。

动机相比许多偏见数据集，偏见问题基准（BBQ）涵盖了更广泛的个体社会关键属性，其中许多属于受保护类别，而且每个示例模板都针对已被证实会造成伤害的一种特定偏见。我们希望这个基准能够成为比目前可用的工具更强大的测量工具，从而能够对模型如何重现社会偏见进行更可靠和准确的结论。这项工作并不直接贡献于去偏见或其他减少伤害的措施（例如更好的部署前测试），但我们期望它能成为支持这些工作的一种工具。

范围我们关注的是在将有偏见的模型部署为问答系统时可能出现的伤害。我们评估的伤害反映了以下两个方面：（一）刻板印象的强化，这会使偏见得以延续，以及（二）刻板印象的归因，这可能会基于个体（真实或感知）身份的属性将偏见特征归因给个人。具体而言，如果一个问答模型显示出超重人群智力低下的偏见，那么它在回答任何反映智力缺乏的问题时，可能更有可能选择一个被描述为超重的个体，而不管这样的回答在文本中是否得到支持。这种模型行为会通过两种方式对超重人群造成伤害：（一）强化了与体重与智力相关的刻板印象，以及（二）将智力低下的特征归因给被描述的具体个人。

BBQ 每个偏见类别包含至少25个由作者编写的独特模板，并使用众包工作者的判断进行验证。BBQ中的325个不同模板扩展为平均每个模板约175个问题，最终数据集大小超过58,000个示例。我们在BBQ上测试了UnifiedQA（Khashabi等人，2020）、RoBERTa（Liu等人，2019）和DeBERTaV3（He等人，2021）模型，并发现在信息不足的上下文中，模型通常选择不支持的答案，而不是表达不确定性的答案，而且这些选择通常与社会偏见一致。当正确答案与社会偏见不一致时，在明确的上下文中，这种偏见的持续存在导致准确性下降高达3.4个百分点。

2 Related Work

测量NLP中的偏见 在NLP中衡量偏见已经有几项研究调查了NLP模型中偏见的普遍性（Caliskan等，2017；May等，2019；Bordia和Bowman，2019；Davidson等，2019；Magee等，2021），其中很多研究关注模型展示刻板印象行为的情况。尽管Blodgett等人（2020）指出这些研究对于“偏见”的定义可能存在较大差异，但模型编码负面刻板印象和社会偏见的关联性的结果得到了很好的复制。在这项研究中，我们对偏见的定义与Crawford（2017视频）关于表征性伤害的定义最为一致，即当系统通过某些身份线索强化某些群体的支配地位时产生的伤害。 在构建用于衡量这种偏见的数据时，对比不同群体而不仅仅是相关属性，突显了给定刻板印象针对的群体在结果和影响上的差异（Dev等，2021）。

下游NLP任务中的社会偏见 在模型的表示或嵌入中存在偏见，并不能单纯地说明模型会产生有偏见的输出。 为了理解模型的输出如何强化偏见，我们查看这些偏见在两个下游分类任务中的表现，这些任务已经存在相关研究：指代消解和仇恨言论检测。

在指代消解中，关于偏见的大部分研究都集中在特定的性别刻板印象（Lu等，2020）或性别与职业的关联（Rudinger等，2018；Zhao等，2018）上。这些研究通常关注模型的性能如何受到示例是否与相关刻板印象一致的影响，Webster等人（2018）发现训练语料库中的偏见导致模型错误地倾向于选择男性代词。Cao和Daumé III（2020）将性别偏见的研究扩展到非二元身份，并强调了如何通过人类标注引入偏见，并在指代消解中表现为模型预测的错误和有害结果。

在仇恨言论检测方面，Röttger等人（2021）创建了HATECHECK并研究了分类模型的失败点，如不同目标群体之间的性能差异。类似地，Davidson等人（2019）发现对使用非裔美国英语撰写的推文与标准美国英语写的推文相比进行仇恨言论检测时性能存在差异，。其他研究还关注了不仅限于性别和种族的偏见，还包括年龄、宗教、性取向和残疾状况（有关综述请参阅Dev等，2021）。Sap等人（2020）将一系列偏见放入推断框架中，将潜在的仇恨言论与引发现实世界偏见关联起来。Vidgen等人（2021）还包括一系列个体和交叉偏见，并开发了一个具有细粒度注释的数据集，这些注释与偏差类型和目标相关。

问题回答中的社会偏见 据我们所知，在衡量QA模型中的社会偏见方面，只有一个其他数据集，即UnQover（Li等，2020）。他们使用了无法通过给定上下文回答的不明确问题，以评估模型对性别化的姓名-职业关联、国籍、种族和宗教的偏见。Li等人将与两个答案选项相关的模型分数进行比较，而不是模型的输出，以揭示所研究的刻板印象是否在模型中得到了体现。

1. 类别的详细分类在附录表3中。
2. 完整的数据集可以在https://github.com/nyu-mll/BBQ上获得，并在CC-BY 4.0许可下发布。

3 The Dataset

在这里插入图片描述
图1:BBQ在第4节中的一个例子，通过改变(A)中的两个上下文选项(只有歧义上下文或模糊+消除歧义上下文)和(B)中的两种问题类型(否定问句或非否定问句)来创建。然后我们把“基督徒”和“穆斯林”互换，重复这个步骤。这组题的正确答案显示在(C )中。每个例子都是一个有三个选项的多选题。在这种情况下，所有的问题都有“基督教徒”、“穆斯林”和“未知”选项。

BBQ包含58,492个独特的示例。我们创建了模板，其中包含两个问题、答案选项、一个部分上下文缺少回答问题所需的信息，以及一个提供必要信息的消歧上下文。每个模板都是由作者从头编写的，并受到已确认的偏见的启发。每个上下文都独立于目标偏见，并有两个插槽，我们在其中填入代表给定类别的标签（见表1）。这种设计允许我们在保持上下文一致的同时插入不同的标签值。 我们对每个模板进行了注释，注释了（i）与偏见相关的值（例如，表1中的认知能力代表年龄）、（ii）可能的偏见目标，以及（iii）偏见被确认的来源。

在这里插入图片描述
表1:九个偏见类别的例子。每一个都包含一个链接来源，识别偏见是负面的或有害的。带下划线的部分表示模板中的插槽，用一个潜在的填充显示。

BBQ通过测试模型的预测偏见，使我们能够研究社会偏见在下游任务中的表现方式。这与UnQover不同，后者测量模型的可能性，并将有偏见的模型行为与不会改变模型输出的行为合并。尽管他们的度量可能会识别出BBQ未能发现的表征性偏见，但这仅限于在模型行为和伤害之间无法建立联系的情况下。 我们专注于模型行为发生变化的情况。 此外，BBQ总是提供了一个正确的答案选项，使我们能够研究在什么情况下模型的偏见会覆盖一个本来有效的答案。这与UnQover不同，后者测量了两个不正确选项被赋予的可能性。由于我们总是提供一个正确的答案选项，我们提供了一种方式让模型表明答案是未知的为了不过分依赖词汇项“未知”，我们从十个等效表达式的分布中随机抽样（例如，“无法确定”，“不可知”）；我们将这些称为“未知”答案。

3.1 Coverage

我们在表1中包含了九个广泛的社会偏见类别，其中大多数取自美国平等就业机会委员会（EEOC，2021）定义的受保护人口统计类别。对于外貌方面，我们超出了EEOC的定义范围，还包括了其他有报道的具有偏见的特征（例如体重）。在每个示例中，负面问题明确指出了针对该类别成员的社会偏见。例如，在宗教方面，一些模板测试对穆斯林的偏见（例如与恐怖主义、暴力或厌女症的关联），而其他模板测试对犹太人的偏见（例如与贪婪或双重忠诚的关联）。

我们还包括了两种交叉偏见：种族/族裔与性别之间的偏见，以及种族/族裔与社会经济地位之间的偏见。我们将这个子集与其他类别分开进行分析，因为非目标构造不能随机选择，因为一个相关的人口统计特征通常在目标和非目标之间共享，使得对比非交叉偏见的BBQ更加相似。（为什么这两种进行交叉研究？非目标与目标啊构造怎么构造并识别偏见？）

3.2 Template Construction

在BBQ的九个偏见类别中，表1展示了每个类别的一个模板示例。每个模板都是由作者手写的，并引用了针对特定受保护类别成员的负面偏见或造成伤害的具体偏见。我们将以下任何内容作为证据或伤害的文档：记录刻板印象和偏见影响的研究文章，讨论特定刻板印象或偏见影响的新闻文章，列出与给定群体负面相关的刻板印象和偏见的维基百科页面，以及个人博客中关于刻板印象和偏见造成伤害的第一手经历。对于两个交叉类别，我们创建了三个比较模板，使得一个命名实体成为偏见目标，而第二个实体在两个目标维度中的一个或两个上有所不同。例如，如果偏见目标是黑人男性，比较可能是一个黑人男性与(a)一个黑人女性、(b)一个亚洲男性和(c )一个亚洲女性之间的比较。

问题每个问题示例以四个为一组，包括负面问题和非负面问题的变体，以及带有和不带有消歧上下文的情况。负面问题是违反美国社会价值观的问题，并且反映的偏见对某些群体有害。非负面问题是负面问题的补充；它并不意味着它不具有有害性。这使我们能够评估给定标签的响应率是否存在偏见，因为某些标签在模型的训练数据中可能具有更高的整体概率，这可能会影响选择该标签作为回答的概率。如果我们只使用负面问题，我们将无法确定答案是否是由于对处于不利地位群体的问题无关偏好（这本身是一种偏见，但不是我们正在衡量的那种偏见）或问题旨在引出的特定偏见关联而选择的。

有些问题中包含表示概率判断的词语，例如"probably"或"likely"。我们包含这些词语是为了允许一定程度的语用推理，尽管在某些情况下，我们测试的偏见确实对应于现实世界的差异（例如，相对于年轻成年人，老年人平均来说确实更有可能听力有困难）。然而，即使在这些情况下，在模糊的语境中，也不能将特定属性归因于文本中的个体，这一点在我们的示例验证过程中得到了确认（§4节）。

模糊的语境 模糊的语境旨在（i）介绍一般情境以及问题所涉及的两个群体类别，并且（ii）评估模型在缺乏足够证据的情况下的行为。在所有模糊的语境中，正确答案都是"UNKNOWN"选项。

明确的语境 在明确的语境中，我们提供了关于模糊语境中提到的哪个个体是负面/非负面问题答案的信息。在明确的语境中，正确答案始终是两个个体中的一个，其中一个个体是负面问题的答案，另一个个体是非负面问题的答案。

平衡模板 为了避免模板中目标和非目标短语出现顺序的影响，我们对每个示例中的目标和非目标词进行排列组合。 例如，如果一个模板的一个示例提到“一个坐着轮椅的男人和一个走路的男人”，那么该模板的另一个示例将提到“一个走路的男人和一个坐着轮椅的男人”。这样做可以消除顺序带来的影响，使得我们可以更准确地衡量偏见。

每个类别的模板数量 每个顶级类别（包括九个基本类别和两个交叉类别）都包含25个唯一的模板，而种族和性别类别还包含使用特定姓名构建的额外25个模板。每个模板生成的示例数量在8个到200个之间变化，大多数模板至少生成100个示例。在大多数情况下，我们至少有两个独特的模板来捕捉每种偏见（例如，在宗教类别中，有两个单独的模板涉及将犹太人与贪婪联系起来的刻板印象），最小化特定语境中特定措辞的特殊效应。

3.3 Vocabulary

偏见目标的明确标签 在目标和非目标标签方面，每个类别的词汇是特定的。在国籍、种族/族裔、宗教、性取向和性别的情况下，模板通常是从一组群体标签的词汇中创建的（例如，宗教类别中使用的11个标签中的三个是“穆斯林”，“佛教徒”和“犹太人”）。在年龄、残疾状况、外貌和社会经济地位方面，标签通常使用自定义的一组词语或短语，每个模板都写有不同的词汇。这种定制是必要的，因为有许多方法可以表明两个人的差异，并且这些描述或类别标签在特定上下文中的适用性和语法可接受性也不同。例如，在年龄方面，模板可以引用年龄（例如，“72岁”）、年代（例如，“千禧一代”）、家庭术语（例如，“祖父”）或使用形容词（例如，“非常年轻”）。关于创建这些标签时的详细讨论，请参阅附录A。

专用名称 在性别和种族/族裔类别中，我们包括使用特定类别的刻板印象的专用名称的模板（例如，“Jermaine Washington”用于黑人男性，“Donna Schneider”用于白人女性）。在性别方面，我们使用了1990年美国人口普查中的常见名字，选择了自称为男性或女性的人中最常见的前20个名字。在种族/族裔方面，我们依靠各种来源的数据（详细信息请参见附录B），并始终包括名字和姓氏，因为这两者在美国可以指示种族或族裔身份。

我们强烈提醒，虽然名字是在文本中表示种族和性别的非常常见的方式，但它们是一个非常不完美的替代。(可以改进吗？） 我们单独分析使用专用名称的模板，与使用明确类别标签的模板分开。然而，由于我们的专用名称词汇反映了名字-种族和名字-性别关系中最极端的分布差异，因此即使是这个子集也能让我们推断，如果模型对与特定受保护类别相关联的某些名字表现出偏见，那么这种偏见将会对该类别的成员产生不成比例的影响。

2这种较低的端点发生在性别类别的例子中，其中只有“男人”和“女人”被放置在其中。
3这些信息的最近一次普查可追溯到1990年（美国人口普查局，1990年）。

4 Validation

我们在亚马逊机械土耳其验证每个模板的示例。从构建的数据集中随机选择每个模板的四个条件中的一个项目，并将其呈现给标注者进行多项选择任务。每个项目由五个标注者评分，我们设置了一个阈值，即4/5的标注者同意我们的黄金标签才能纳入最终数据集。 如果任何一个模板的项目低于阈值，则编辑该模板并重新验证所有四个相关项目，直到通过为止。关于验证程序的附加细节请参见附录D。为了估计在BBQ上的人类准确度，我们使用最终数据集中的300个示例重复验证过程。我们估计BBQ上原始人类（众包工作者标注者）的准确率为95.7%，通过多数票计算的聚合人类准确率为99.7%。评分者之间的一致性很高，Krippendorf’s α为0.883。

5 Evaluation

模型我们测试了UnifiedQA的11B参数模型（Khashabi等，2020），因为它在许多数据集上实现了最先进的性能。UnifiedQA在八个数据集上进行了训练，并接受多种输入字符串格式，因此我们包括了使用RACE格式（Lai等，2017）和ARC格式（Clark等，2018）输入的结果。UnifiedQA输出字符串，因此我们通过将顶部输出与每个答案选项进行完全匹配来评分。 4

为了与在多项选择问答数据集上表现出高性能的其他语言模型进行比较，我们还测试了RoBERTa（Liu等，2019）和DeBERTaV3（He等，2021）。我们测试了Base和Large模型，以比较它们在不同模型大小上在BBQ上的性能。为了在BBQ上测试这些模型，我们使用RACE（Lai等，2017）进行微调，进行了3个epoch，学习率为1e-5，批量大小为16。

准确率 我们在每个类别和上下文中计算准确率。在区分的上下文中，我们进一步将准确率分为两部分，即正确答案是否强化或违背了现有的社会偏见，以评估模型的表现是否受到社会偏见在回答问题时的影响。

偏见分数 由于仅仅使用准确率无法捕捉到错误答案中的响应模式，我们引入了一个偏见分数来量化（量化是指将连续的数值转化为离散的数值变量的过程。）模型系统地以一种有偏见的方式回答问题的程度。 我们分别计算模糊上下文和消除歧义上下文的偏见分数，因为这两种上下文代表了模型在非常不同的情境中的行为，并且需要不同的缩放。偏见分数反映了与社会偏见一致的非UNKNOWN输出的百分比。 偏见分数为0%表示没有测量到模型的偏见，而100%表示所有答案都与目标社会偏见一致，-100%表示所有答案都与偏见相反。当模型在负面环境中输出偏见目标（例如，在“谁不擅长数学？”的情况下回答“女孩”）或在非负面环境中输出非目标（例如，在“谁擅长数学？”的情况下回答“男孩”）时，答案会对正偏见分数做出贡献。消除歧义上下文中的偏见分数（sDIS）的计算如下所示，其中n表示落入每个响应组的示例数，因此nbiased_ans表示反映目标社会偏见的模型输出数（即，在负面环境中的偏见目标和在非负面环境中的非目标），nnon-UNKNOWN_outputs是所有非UNKNOWN（即，所有目标和非目标输出）的模型输出总数。（DIS的计算方式涉及将比例值进行缩放和转换。将(nbiased_ans / nnon-UNKNOWN_outputs)乘以2，可以将比例值的范围从0到1扩展到0到2。然后，再减去1，可以将范围调整为-1到1，使得-1代表完全相反的偏见，0代表没有测量到偏见，1代表完全一致的偏见。）
在这里插入图片描述
我们通过准确率对模糊上下文中的偏见分数进行缩放（在某些情况下，模型可能会在不确定或有歧义的上下文中进行预测。在这种情况下，正确的答案可能是多个，并且每个答案的概率都不同。如果我们简单地根据所有答案的准确率来计算偏见分数，则会导致更频繁出现的有偏见答案被视为更有害的情况。因此，我们需要对偏见分数进行缩放，以反映这种情况。具体地说，我们使用了准确率来对偏见分数进行缩放。这是因为准确率可以告诉我们模型在不同类别及其对应的数据分布上表现得如何。如果一个类别的准确率比其他类别低，那么这可能意味着模型在这个类别上存在一定程度的偏见或不公平。因此，我们可以通过将偏见分数乘以（1-准确率）的方式来缩放偏见分数，以反映更有害的有偏见答案。举个例子，假设我们正在评估一个模型的性别分类器，该分类器将人群分为“男性”和“女性”。在某些情况下，模型可能无法确定一个人的性别，因为没有足够的信息或存在歧义。在这种情况下，模型可能会随机选择一个性别作为预测结果。如果我们只考虑准确率，那么这些随机预测的结果将被视为“正确”的预测结果。然而，这种随机预测将会导致更频繁出现的错误结果，并且这些错误结果可能会受到某些偏见的影响。因此，我们需要对偏见分数进行缩放，以反映这种情况。），以反映如果出现更频繁的有偏见的答案会更加有害。这种缩放在消除歧义的上下文中是不必要的，因为偏见分数不仅仅计算不正确的答案。尽管准确率和偏见分数是相关的，因为完全准确率会导致偏见分数为零，但它们反映了不同的模型行为。尽管某些类别的准确率可能相同，但由于错误答案的不同模式，它们的偏见分数可能不同。

4我们会对标点符号和拼写变化等与内容无关的问题进行调整。如果输出结果在调整后与任何答案选项都不匹配，我们会将其从分析中排除（排除了3个示例，占数据的0.005%）（模型的输出到底是什么？？？）。
5如果我们按照在明确语境中的准确度进行缩放，那么总是给出偏见答案的模型得分将为50，因为该答案一半的时间是正确的，但是在模棱两可的语境中，相同的模型行为得分为100。

6 Results

在这里插入图片描述
图2：在明确语境中的准确度差异。我们计算方式是，将与目标偏见不一致的示例的准确度减去与偏见一致的示例的准确度。当正确答案与社会偏见不一致时，准确度通常较低，而不一致示例的准确度损失越大，对应的值越负。
（准确率的范围是[0,1]，准确率差值最多也就[-1,1]，但图中明显不是应该是做了准确率应该是乘以了100%？）

准确率 总体上，BBQ的准确率最高的是使用RACE风格输入格式的UnifiedQA，为77.8%，而最低的是RoBERTa-Base，为61.4%（随机猜测的准确率为33.3%）。然而，模型在消除歧义的上下文中的准确率通常比模糊的上下文要高得多（请参见附录中的图5），这表明当正确答案在上下文中时，模型在选择它时相当成功，即使该答案与已知的社会偏见相悖。然而，在与社会偏见一致的消除歧义的上下文中，准确率仍然高于与社会偏见不一致的示例。图2显示了当正确答案与社会偏见不一致时，准确率相对于正确答案与偏见一致时的准确率下降的程度。 在每个模型中，如图2所示，这种差异在大多数类别中都存在。

偏见分数 我们观察到与消除歧义的上下文相比，模糊的上下文中存在更强烈的偏见（图3）。这种差异主要是由于消除歧义的上下文中模型的准确率较高，因为准确率的提高会使偏见分数更接近于0。在模糊的上下文中，不同类别的模型在不同程度上依赖社会偏见，与测试的模型相比，与外貌相关的偏见对模型的响应产生更大的影响，而与种族和性取向相关的偏见对模型的响应影响较小。对于与性别相关的偏见，一些较大的模型的结果可能会有所不同，这取决于是否使用“男人”这样的身份标签，而不是像“罗伯特”这样的给定名字。虽然大多数性别模板几乎相同，但UnifiedQA和DeBERTaV3-Large在选择性别化的名字而不是身份标签时更经常依赖基于性别的偏见。

6例如，在“谁数学不好?”例如，正确答案是“男孩”的例子与偏见不一致，而正确答案是“女孩”的例子与偏见一致。在每个模板中，对齐和非对齐示例的比率是完全平衡的，我们计算偏见非对齐示例的精度代价为非对齐示例的精度减去对齐示例的精度。

对于每个模型，我们观察到当模型在模糊的上下文中回答错误时，答案与社会偏见一致的情况占比超过一半。这种效应在模型在典型的自然语言处理基准上表现更好时更加明显，而UnifiedQA在这种情况下的偏见性能最高，约有77%的模糊上下文中的错误答案与目标社会偏见一致。

在这里插入图片描述
图3：按类别划分的模糊上下文和明确上下文的偏见分数。较高的分数表示偏见更强烈。偏见分数在模糊上下文中要高得多，这表明（i）模型在正确选择未知选项方面表现不佳，（ii）在上下文中没有明确指定答案时，模型依赖社会偏见。

类别内结果 在同一类别内的结果中，当上下文模糊不清时，模型的准确率较低，并且更多地依赖于有害的社会偏见。关键是，总会有一个正确选项——模型可以选择UNKNOWN。例如，尽管在模糊的宗教和国籍上下文中，UnifiedQA的准确率相同（见附录图5），但是偏见分数揭示了模型在这两个类别的错误模式存在差异：在国籍方面，目标和非目标回答在负面和非负面问题之间更均衡分布，但在宗教方面，大多数错误发生在模型基于社会偏见进行回答的情况下，导致图3中的高偏见分数。当上下文被明确指定时，模型通常更准确，因此偏见分数趋近于零。

在这里插入图片描述
图4：统一问答（UnifiedQA）对种族/民族类别中不同标签的偏见分数，按照相关负面刻板印象进行细分。缺失值表示没有针对该组合的偏见和目标的模板，因为不是每个偏见都适用于每个群体。

每个标签结果 模板被注释为它们所唤起的刻板印象，因此我们可以根据刻板印象和标签进一步细分同一类别的结果。为了调查特定偏见对模型行为的影响，我们以UnifiedQA的结果为案例研究，并对接受的两种答案格式进行平均。图4突出显示了种族/民族中的一部分结果，我们可以看到尽管模型对“黑人”和“非裔美国人”等标签表现出明显的偏见，但在测试的偏见中存在差异，针对与愤怒和暴力相关的假设显示出非常低的偏见，而针对犯罪性的例子则显示出较高的偏见。此外，图4还显示，尽管在美国的背景下，自认为是“黑人”和“非裔美国人”的人群有很大的重叠，但模型对这两个不同的标签的回答并不相同，这可能是由于QA训练数据中群体成员资料的差异以及人们使用这两个标签的上下文的差异所致。

交叉偏见 在交叉模板中，我们在构建非目标标签的三种方法中计算偏见分数，而有偏见的答案总是与两个操作维度都匹配的答案。如果模型是基于交叉偏见回答的，我们预期在所有比较中偏见分数都为正数。例如，对于将黑人女性与愤怒联系起来的偏见，我们预期有偏见的模型在回答类似“谁生气了”的问题时更经常选择“黑人女性”，相比之下，对于三个对比选项：(i)“黑人男性”，(ii)“白人女性”，和(iii)“白人男性”，我们预期有偏见的模型更倾向于选择“黑人女性”。附录图8显示了所有模型在交叉模板上的结果，按照与偏见目标匹配/不匹配的特征进行细分。这种分析的结果通常比非交叉类别的结果不一致得多，可能是由于两个答案选项之间的重叠更高。基于这些结果，我们不能得出结论认为我们观察到了对个体身份的多个方面都敏感的模型行为。附录H提供了详细的讨论和探索性分析。

仅限问题基线 我们在一个仅包含问题的基准测试中对UnifiedQA进行测试，以评估模型在没有引入目标实体的情况下的偏见，因为这可能会增加模型正确选择UNKNOWN的频率，或者增加模型对偏见的依赖程度。我们发现，使用这个基准测试的准确性和偏见分数与使用模糊上下文时并没有显著的差异。请参阅附录中的图6。

7每个模型的精确率如下:RoBERTaBase: 56%， RoBERTa-Large: 59%， DeBERTaV3-Base: 62%， DeBERTaV3-Large: 68%， UnifedQA (RACE格式):76%，UnifedQA (ARC foramat): 77%。

7 Discussion

偏见分数的解释 我们在这里对结果的解释提出了一个重要的警告：接近零的偏见分数意味着在整体上，被测试的模型在回答负面问题时与回答非负面问题时一样经常给出包含某个标签的答案。这些分数反映了每个类别中仅有的25个模板的行为，不能被视为证明该模型没有偏见或更少偏见的证据，只能说明在这个小样本上模型存在一种方向上的一致偏见。第二个相关的警告是，BBQ数据只用于测试与美国英语文化背景相关的偏见，不能被用作证明模型在不同文化背景下仍然没有偏见的证据。

在这里插入图片描述
表格2：来自UnifiedQA在身体外貌类别中进行测试的单个模板结果。肥胖标签的可能输入为fat（胖）、obese（肥胖）和overweight（超重）；非肥胖标签的输入为slim（苗条）、thin（瘦）和regular-sized（正常尺寸）。"选择率"表示模型答案反映每个可能标签的百分比。

具有高偏见分数的类别 高偏见分数的类别，在模棱两可的情境中仍然存在很高的偏见分数，甚至在某些模板的明确情境中也如此，这表明模型有时会使用社会偏见来替代明确提供的正确答案。对这些类别的示例集进行更详细的分析发现，与肥胖有关的偏见主要是模棱两可情境中高偏见分数的主要原因。表2展示了在UnifiedQA上测试的一组示例（全部来自一个模板），展示了一个非常强烈的偏见，将肥胖的个体与邋遢联系在一起。

虽然有可能偏见的答案是由于“邋遢”和“胖”等词的联系，但这个问题的潜在影响超出了再现性伤害的范围，因为在问答环境中，由于这种偏见，模型将“邋遢”的属性归属于实际的个体。虽然查看单个模板的结果可能是有用的，但重要的是要记住，每个模板代表整个数据集中非常小的一部分示例，并容易受到具有少量项目的噪声问题的影响（表2仅显示了72个示例的结果）。这些结果应作为定性分析的一部分，并在可能的情况下与捕捉相同偏见的其他模板进行聚合。

8 Conclusion

我们提出了 BBQ（Biases in BiQuAD）数据集，这是一个手工构建的数据集，用于衡量在不同类型的语境下，社会偏见如何体现在问答模型的输出中，以评估模型对九个不同类别的社会偏见的表现。BBQ涵盖了在美国背景下相关的广泛类别和偏见，使研究人员和模型开发者能够（i）测量模型行为可能导致伤害的语境，以及（ii）开始对语言模型进行探索性分析，了解哪些偏见（个体和交叉性）需要缓解或进一步研究。我们的研究显示，当前的模型在语境不明确的问答任务中强烈依赖社会偏见。模型在这些模糊的语境中的准确率较低（不超过67.5%），它们的错误有77%的时间会强化刻板印象。即使在短语境中提供了明确的答案，模型的准确性和输出有时也会受到这些社会偏见的影响，覆盖正确答案，选择那些对特定人群造成伤害的选项。

9 Ethical Considerations

预期风险 这个基准测试是研究人员衡量问答模型社会偏见的工具，但潜在的风险在于人们可能会如何使用这个工具。我们并不打算让一个低偏见分数在所有情况下都表示模型偏见较低。BBQ允许我们就给定非常短的语境来得出关于模型行为的结论，这些语境与我们所包括的类别相关的偏见有关。这些类别仅限于当前的美国英语文化背景，并不包括所有可能的社会偏见。对于在非常不同的文本领域中使用的模型，BBQ很可能无法有效衡量偏见。因此，研究人员可能会错误地得出这样一个结论，即低分数意味着他们的模型不使用社会偏见。我们将通过在所有数据集发布中明确指出这种结论是不合理的来减轻这个风险。

通过从测量可能性转向测量模型输出，BBQ使用了更严格的定义来判断何种模型行为算作是有偏见的。因此，UnQover可能会捕捉到一些BBQ没有检测到的偏见。然而，UnQover在提高了敏感性的同时，无法清楚地显示模型偏见将如何在实际输出中体现出来。为了具体展示模型偏见将在哪些方面严重引入再现性伤害，我们选择了一种在某些情况下无法测量到仍然可能在其他领域中体现的偏见的技术。

潜在的好处 我们对模型行为的结论只有使用的工具的强度与可靠性一样强。我们开发这个基准的目的是使其成为比目前可用的工具更加强大的工具，从而能够更可靠、准确地得出关于语言模型如何表现和重现社会偏见的结论。BBQ旨在帮助研究人员更清楚地确定模型在何种情况下以及针对哪些群体最有可能显示出偏见，以便更好地减轻潜在的伤害。

10 Acknowledgments

我们感谢Adina Williams、Tyler Schnoebelen和Rob Monarch对这篇草稿提供的评论。我们还要感谢许多人对早期反馈的贡献，以及纽约大学社会语言学实验室有益的讨论。本项目得到了Eric和Wendy Schmidt（经Schmidt Futures计划推荐）以及三星研究机构的财务支持，这是在“利用潜在结构改善深度学习”项目下进行的。本材料基于国家科学基金会在资助号码1922658和2046556下的支持。本材料中所表达的任何观点、发现、结论或建议都属于作者个人，并不一定反映国家科学基金会的观点。

A Vocabulary details

词汇多样性 在许多模板中，那些不直接影响上下文的整体解释，也不影响所探讨的偏见的词语会在示例中被随机扰动，以减少与我们测试的偏见正交的独特词汇关系可能产生的任何意外影响。尽管还有其他方法可以在示例中引入词汇多样性（例如，Munro和Morrison（2020）屏蔽目标词并使用语言模型来建议上下文中可能的词语），但考虑到这些模板需要进行广泛的验证，其他选项会使我们对示例的确切形式控制较少，并可能引入可能降低示例有效性的人为因素。

身份标签 国籍标签是根据UnQover使用的列表进行调整的；我们添加了与维基媒体基金会使用的系统相对应的地区分类。性取向、种族/民族和宗教方面的标签表达了这些类别中常见的身份标签。在性别身份方面，标签通常为“男人”和“女人”，尽管一些模板更适合使用“女孩”和“男孩”，而其他一些则使用“家伙”和“女士”。BBQ中使用的所有身份标签的完整列表可以在项目存储库的vocabulary.csv文件中找到。

职业职业标签取自于国家意见研究中心（National Opinion Research Center）（Nakao and Treas, 1994）根据0-100的声望评分从高声望和低声望中选择的工作。我们选择了12个声望评分低于40或高于65的职业，并将它们标记为低社会经济地位（SES）和高SES的代理。在某些情况下，我们会更改职业的术语，使其更符合当代、性别中立或通用化的要求。例如，NORC数据库列出了“短工订单”，我们将其更改为“炒菜师傅”，“男招待女招待”，我们将其更改为“服务员”。

自定义模板词汇表 在几个类别中，没有单一的身份标签来指称那些受到偏见的人。例如，在谈论年龄时，以下所有术语都可以指向老年人：old, elderly, aging, retired, retiree, 88-year-old, geezer, grandfather。请注意，它们并不都适合模板格式中的相同位置，因为有些术语是形容词，而其他术语是名词。它们在可接受的语境和语域方面也并不相等，例如“geezer”这样的术语相当非正式（有时是贬义的），而“aging”这样的术语则用于更高级别的语境，并且有时被认为是委婉的说法。在这些情况下选择每个类别的词汇是为了在语义上和语法上与模板相符并且可以进行比较。例如，如果一个模板使用“88岁”的短语，它只会与“23岁”的短语进行比较，而不是与另一个年轻人的短语（例如，“青少年”，“大学新生”）进行比较。使用家庭术语的模板总是同时使用两个个体（例如，“祖母”与“孙子”）。

对于其他模板和类别，特别是与残疾状态有关的模板，在引用非偏见目标个体时，并不总是可以使用可比较的术语。尽管Blodgett等人（2021）正确指出偏见度量需要使用可比较的群体，但在某些情况下，这会导致问题。例如，如果偏见的对象是自闭症患者，则没有类似频繁使用的术语来描述那些不是自闭症患者的人（“allistic””是一个相对较新的术语，不常见且几乎仅与“自闭症患者”的短语形成鲜明对比；“neurotypical”直到最近才主要用于临床场景中）。在这些情况下，我们选择使用一个中性的描述符（例如，“同班同学”），并依赖于人们进行实用的推断，例如，如果有两个个体，只有一个被描述为患有自闭症，则另一个个体就没有自闭症。我们的验证证实了人类一致地做出这种推断。所有特定于模板的词汇列表都出现在模板文件本身中，并且可在项目存储库中获取。

B Proper Name Selection Process

在美国，人们普遍认为姓名可以传递性别和种族身份的信息，而且是衡量偏见的有效方式（Romanov等人，2019年；Darolia等人，2016年；Kasof，1993年）。（在别的国家是否适用？）我们在数据中包含姓名，因为它们代表了一种衡量偏见的方式，仅仅使用身份标签可能无法完全捕捉到。为了透明度和可重复性，我们在此描述了我们为BBQ创建姓名数据库的完整过程和标准。所有的名字+姓氏组合都是合成的，与现有个体的重叠是偶然的，但由于我们只选择非常常见的名字，这种重叠很可能会发生。

亚洲相关的姓名 由于美国人对来自亚洲文化的姓名与英美名字相比往往没有那么强烈的性别关联，而且一些亚洲文化的姓名通常没有性别划分（Mair，2018年），我们使用一个有性别的英语名字与常见的亚裔美国姓氏结合，构建了亚洲男性和女性的刻板姓名。我们将这个集合限制在在东亚国家常见的姓名上，这些姓名在移民和第一代美国人中常用英语名字。我们之所以加入这个限制，是因为与印度裔美国人相比，中国裔美国人更常用像“Alex”或“Jenny”这样的名字（Wu，1999年），因此“Jenny Wang”比“Jenny Singh”更可能是一个姓名。

为确定哪些给定姓名与亚洲身份最相关，我们使用了纽约市婴儿姓名数据库（OpenData，2021年）和一份简要报告，其中列出了更有可能与常见的中国姓氏相关的英语名字（Bartz，2009年）。纽约市婴儿姓名数据库使用自2012年以来的出生记录编制了一个数据库，其中包含了在纽约市注册出生的婴儿的姓名、性别和种族/民族信息。从该数据库中，我们选择了频率超过200且至少80%被标识为亚洲人的姓名。然而，这并没有给我们提供足够数量的姓名示例，因此我们还使用了Bartz编制的名单，以达到所需的20个姓名的词汇量。

我们编制亚洲姓氏列表时使用了美国人口调查局2010年最常见1000个姓氏的名单。我们包括那些至少有48,000次频率且至少有90%与亚洲人相关的姓氏，但出于上述原因，我们排除了在印度和其他南亚人群中常见的姓氏（例如，“Patel”）。在数据集的种族/民族类别中，我们没有包含任何特别针对南亚或印度人的示例。

黑人相关的姓名 我们的黑人名字列表主要基于Tzioumis（2018）的数据，我们从中选择与至少80%的黑人相关的名字。由于这个来源没有提供足够数量的名字，我们还根据Levitt和Dubner（2014）发表的“最具黑人特征”和“最具白人特征”的名字列表以及纽约市婴儿姓名数据库包括一些名字。我们选择出现次数至少为400次且至少80%可能是黑人的名字。我们编制黑人姓氏列表时使用了美国人口调查局2010年最常见1000个姓氏的名单。我们包括最高百分比为黑人或非洲裔美国人的前20个姓氏。所有被选择的名字在至少42%的情况下都与黑人相关，并且具有至少40,000次的频率。

西班牙裔/拉丁裔相关的姓名 我们的西班牙裔/拉丁裔名字列表主要基于Tzioumis（2018）的数据，我们从中选择与至少85%的西班牙裔/拉丁裔相关的名字，并且这些名字至少出现150次。我们还根据纽约市婴儿姓名数据库包括一些名字，选择出现至少500次且至少85%可能是西班牙裔/拉丁裔个体的名字。我们编制西班牙裔/拉丁裔姓氏列表时使用了美国人口调查局2010年最常见1000个姓氏的名单。我们包括至少有100,000次频率且至少93%与西班牙裔或拉丁裔个体相关的名字。

我们使用维基百科上的名单来组合与中东/阿拉伯个体相关的名字，包括给定名和姓氏。对于给定名，我们从每个国家最常见的给定名列表中选择，选择出现在中东和北非多个国家中最常见的名字，或者在“阿拉伯世界”中被列为最流行的名字。

对于姓氏，我们使用维基百科的阿拉伯语姓氏列表。该列表包含200个页面，大多数页面列出了具有该姓氏的知名人物名单。我们查看每个页面，使用以下标准来确定哪些姓氏在我们的数据集中是可行的：该名字不需要进一步澄清，该名字主要不是历史性的，该名字更多是一个姓氏而不是给定名，该页面上至少列出了10个知名人物，具有该姓氏。如果满足这四个标准，我们随机检查了10个被列为具有该姓氏的知名人物的页面，以查看他们的维基百科传记页面是否将他们列为居住在中东或阿拉伯世界国家，或者是该地区人的后裔。我们数据集中的所有姓氏至少有8/10的个人明确被确认为中东或阿拉伯人。

白人名字列表 我们的白人名字列表基于Tzioumis（2018）的数据，我们从中选择与至少95％的白人个体相关联的名字，并且频率至少为5000。我们通过使用美国人口普查局的2010年1000个最常见姓氏的列表来编制我们的白人姓氏列表。我们包括具有至少90k频率且至少91％与白人个体相关联的名字。

10可在以下网址找到：https://en.wikipedia.org/wiki/List_of_most_popular_given_names，访问日期为2021年7月。
11可在以下网址找到：https://en.wikipedia.org/wiki/Category:Arabic-language_surnames，访问日期为2021年7月。

C Dataset Size

在这里插入图片描述
表3:每个BBQ类别的样本总数。

表格3显示了BBQ中每个类别中的独特的示例数量。由于交叉类别需要针对每个模板进行三种不同类型的比较，因此这些类别比其他类别要大得多。

D Template Validation Details

为了避免人工标注员注意到一个问题，即在较短的语境中，正确答案总是UNKNOWN，我们创建了72个填充项目来打破这种模式。其中36个是短语境，其中UNKNOWN不是正确答案，另外36个是长语境，其中UNKNOWN是正确答案。填充项目仅用于人工验证任务，并不包含在最终的数据集中。在每次验证运行中，至少有13%的项目是填充项目，所有标注员在这些项目上的准确率都超过85%。在对人工准确性的最终估计中，我们从BBQ中随机抽取的300个示例中添加了50个填充项目。

我们使用一个资格任务来筛选适合这项任务的标注员。资格任务对位于美国的所有MTurk工作者开放，要求其HIT批准率超过98%，完成的任务数超过5000个。在开始主要任务之前，我们会提醒标注员许多示例涉及可能令人不悦的社会刻板印象，其中可能包括种族主义、性别歧视和暴力主题。我们向标注员支付每个任务0.50美元的报酬，每个任务包含5个选择题。我们估计每个任务需要最多2分钟的时间完成，因此实际的最低支付率为每小时15美元。

正如在第4节中所述，我们会编辑任何未通过人工验证的模板（即少于5个标注员中有4个同意我们分配的黄金标签的模板），并对其进行修改直到通过验证。通常情况下，我们需要修改消除歧义的模板，以使正确答案成为唯一明确的答案。例如，在宗教类别中，一个设计用于评估犹太人具有双重忠诚的刻板印象的模板需要多轮编辑，这可能是因为该偏见特别指涉对以色列的忠诚，但我们的模板无法明确包含这些信息，因为表明某人对以色列忠诚会与许多其他宗教的设置不兼容。在模糊的语境中，大部分需要进行编辑的模板属于年龄和外貌类别。我们测试的几种与年龄相关的偏见反映了老年人群体中更常见的个人特征（例如听力丧失），这可能导致人们根据统计可能性做出判断。在外貌类别中，需要进行编辑的许多模板与肥胖有关，这些是那些给出“两个人坐在一起吃饭，谈论他们作为新年计划的一部分开始的节食”这样的上下文，许多人认为“谁在节食失败了？”的正确答案是“超重的人”，而不是UNKNOWN。在这个特定的例子中，我们修改了模板，说明每个人只是最近开始节食，这个改变使得模板通过了人工验证。

12与人类不同，我们的模型是预先存在的问答系统，在没有先前接触我们的数据的情况下进行zero-shot评估。因此，它们不应该能够利用这种模式。
13第一个任务可能需要额外一分钟来阅读说明，但大多数工人在验证过程中完成了100多个任务，而且说明始终保持不变。

E Overall Accuracy Results

我们计算模型在模棱两可的语境和明确的语境下的基本准确度。在模棱两可的语境中，UNKNOWN始终是正确答案，在明确的语境中，一半时间偏见目标是正确答案，另一半时间非目标是正确答案。我们观察到，与模棱两可的语境相比，模型在明确的语境中的准确度要高得多，但在不同类别之间的准确度存在较大的变化。

我们观察到，在明确的语境下，相比其他模型，RoBERTa-Base的整体准确度要低得多，但在大多数模棱两可的语境中，它的准确度要更高。这是因为无论语境如何，RoBERTa-Base更有可能给出UNKNOWN的答案。这种偏向UNKNOWN选项的倾向是出乎意料的，对于该模型行为的解释超出了当前论文的范围。 然而，我们注意到，这似乎不是由于特定的标记或字符串驱动这种效应，因为图7显示RoBERTa-Base选择每个UNKNOWN字符串的比例与其他模型类似，只是数量更多。
在这里插入图片描述
图5：BBQ中模棱两可和明确语境下的整体准确率。除了RoBERTa-Base外，在明确的示例中准确率要高得多。

在这里插入图片描述
图7：UNKNOWN答案中每个可能字符串的比例。条形图顶部的白色数字表示该模型选择任何UNKNOWN答案的总示例数。

F Question-only Baseline Results

我们在图6中展示了使用问题作为基准的UnifiedQA在BBQ上的测试结果。我们通过删除上下文，仅向模型提供问题和三个答案选项来创建问题作为基准。在这种设置下，UNKNOWN选项始终是正确的，就像在模棱两可的上下文中一样。我们观察到，在基准测试中的结果与模棱两可的上下文中的结果非常相似，无论是在偏差得分还是准确率方面。
在这里插入图片描述
图6：UnifiedQA在BBQ上的准确率和偏倚分数结果，基线为仅包含问题的情况。结果没有根据模糊/明确的上下文进行分离，因为没有提供上下文。基线中的正确答案始终为UNKNOWN。

G Distribution of UNKNOWN Answers

模型对人类来说，对意义较小的词汇变化表现出敏感性。这就是为什么我们使用10个不同的字符串来表示UNKNOWN答案选项的原因。 然而，将这10个选项合并为UNKNOWN类别会隐藏模型中观察到的效果是否受特定字符串的驱动。由于UNKNOWN字符串是随机抽样的，如果对任何特定字符串没有明显的偏好或反对，我们预期每个模型选择这10个不同的选项的比率大致相等。图7显示这在大多数情况下是成立的，每个可能的字符串在给定模型的总UNKNOWN输出中的比例介于4.9％到15.5％之间。

H Detailed Results from Intersectional Categories

为了呈现交叉类别的结果，我们根据所代表的比较方式展示结果。正如第6节所描述的那样，偏倚目标始终是反映两个相关身份的标签，这个偏倚目标（例如，“黑人女性”）与非目标标签进行比较，非目标标签通过使用非目标（a）种族/族裔标签（例如，“亚洲女性”），（b）性别认同或社会经济地位标签（例如，“黑人男性”），或（c）同时使用种族/族裔和性别/社会经济地位标签（例如，“亚洲男性”）构建。图8显示了测试的这三种比较方式的整体结果，包括交叉类别的结果。

首先需要指出的是，在所有情况下，偏倚分数都接近零，因此与非交叉类别相比，我们测量到的差异并不是特别显著。我们观察到，在三个表现较好的模型（DeBERTaV3-Large和两个UnifiedQA结果）中，种族和社会经济地位的交叉存在一种小效应。我们观察到，在模糊的和明确的上下文中，所有三列的偏倚分数都是负值，尽管在模糊的上下文中，偏倚分数明显更高。这表明，在这三种比较中，偏倚目标更有可能作为对负面问题的回答，而非目标更有可能作为对非负面问题的回答。由于在明确的上下文中，偏倚分数非常接近于零，这可能只是由于噪音，或者可能是由于示例中的社会经济地位的表示方式。通常情况下，在模糊的上下文中引入了相关的社会经济地位变量（明确表示为类似“依赖福利”与“非常富裕”之类的内容，或者通过职业作为代理，如“出租车司机”与“医生”），但在明确的上下文中不再提及，因为这样的信息是多余且不自然的。然而，在种族与性别的例子中，完整的标签在明确的上下文中重复出现，可能使性别特征在上下文中更加显著，相比之下，社会经济地位特征可能不那么突出。表4显示了一些代表性的例子以说明这一点。

在这里插入图片描述
图8：每个模型对于两个交叉类别的偏见得分，按非目标与目标的差异进行分离。在每种情况下，与两个维度（种族与性别，种族与社会经济地位）匹配的标签是偏见目标，另一个标签是非目标。就种族与性别而言，结果在三个分组中总体不一致，表明BBQ在这种情况下没有测量到显著的交叉偏见效应。

在这里插入图片描述
表4：交叉类别中使用的比较示例，按照三种比较类型进行划分，并显示三个答案选项。

我们提供了两个图表，以展示针对两个交叉类别的偏倚目标的完整结果分解，仅在小规模的案例研究中测试UnifiedQA。在每种情况下，结果按特定的偏倚目标进行了细分，并沿y轴指示。总体而言，在种族与性别之间的关系中，我们观察到了不同的结果（图9），种族类别似乎引发了一些负面偏倚（当提及的两个个体的种族不匹配时，偏倚分数为正），但在包含性别时情况并非如此（当个体的性别不匹配时，偏倚分数通常为负，即使种族也不匹配）。可能存在针对中东妇女和亚洲男性的可衡量的交叉偏倚，但在其他身份标签中结果更为复杂。这些发现暗示了研究人员可以进一步探索的领域。对于种族与社会经济地位之间的关系（图10），在模糊的上下文中，我们观察到与低社会经济地位的西班牙裔/拉丁裔和黑人/非洲裔美国人相关的交叉偏倚是否与预期一致-在所有三种比较中，偏倚分数为正，当种族和社会经济地位与目标不匹配时，偏倚分数最为明显。然而，其他身份标签并不遵循这种模式。可能某些交叉偏倚在文本数据中更为明显，而我们在此处测试的一些偏倚未能被表示出来，这可能表明它们在训练UnifiedQA所使用的数据中出现的频率较低。这些结果再次暗示了需要进一步进行更详细的研究，才能得出明确结论的领域。
在这里插入图片描述
图9:根据UnifedQA的种族和性别偏见分数进行分类。当这种偏见针对中东女性和亚洲男性时，该模型似乎在反应中使用了系统性的交叉偏见，但其他所有标签的结果都更加复杂。

图10:根据UnifedQA的SES偏倚分数，按标签分类的种族。当偏见目标被认定为黑人/非洲裔美国人或西班牙裔/拉丁裔美国人且具有较低的社会地位时，该模型使用了一些系统性的交叉偏差，但对于其他标签的结果则更为复杂。