【大语言模型】ACL2024论文-25 微妙偏见需要更微妙的衡量：双重指标评估大型语言模型中的代表性和亲和力偏见

【大语言模型】ACL2024论文-25 微妙偏见需要更微妙的衡量：双重指标评估大型语言模型中的代表性和亲和力偏见
- 目录
- - 文章信息
  - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 核心创新点
  - 算法模型
  - 实验效果（包含重要数据与结论）
  - 相关工作
  - 后续优化方向
- 后记

在这里插入图片描述

文章信息

《微妙偏见需要更微妙的衡量：双重指标评估大型语言模型中的代表性和亲和力偏见》
https://arxiv.org/pdf/2405.14555

摘要

本研究关注大型语言模型（LLMs）中常被忽视的微妙偏见，这些偏见虽不明显，但可能显著影响模型输出，使其倾向于特定的社会叙事。研究提出了两种新的衡量指标：代表性偏见得分（RBS）和亲和力偏见得分（ABS），并介绍了面向创造力的生成套件（CoGS），这是一个包含开放式任务的集合，如短篇故事写作和诗歌创作，旨在检测这些微妙偏见。分析发现，主流LLMs存在明显的代表性偏见，倾向于与白人、异性恋和男性相关的身份。亲和力偏见的调查揭示了每个模型内独特的评估模式，类似于“偏见指纹”。这一趋势在人类评估者中也有所体现，突出了人类与机器偏见感知之间复杂的相互作用。

研究背景

近年来，随着GPT-4、PaLM、LLaMA-2和Mixtral等LLMs的出现，自然语言处理领域发生了变革。这些模型不仅扩展了自然语言生成和理解的边界，还嵌入到具有重大现实世界影响的关键决策过程中，如招聘实践、自动化作文评估甚至司法决策。人类的决策常常受到微妙偏见的影响，这些偏见虽然不易察觉，但可能产生深远的后果。代表性偏见和亲和力偏见是影响决策过程的主要偏见类型。
在这里插入图片描述

问题与挑战

LLMs在承担传统由人类担任的角色时，如创意写作和内容审核，不仅展示了复制复杂人类任务的能力，也引发了它们可能延续人类偏见的问题。本研究探讨LLMs在取代人类生成内容及其评估时表现出的代表性和亲和力偏见的程度。挑战在于如何量化和分析这些偏见，尤其是在它们微妙且难以检测的情况下。

如何解决

研究提出了一个全面的方法来量化和分析LLMs中的这些偏见，包括“面向创造力的生成套件”（CoGS），这是一个新颖的基准套件，通过一系列结构化但开放式的任务来审查微妙偏见。研究还开发了两个新指标，RBS和ABS，分别用于衡量内容生成和评估中的偏见。

核心创新点

创建了包含12种不同开放式任务的“面向创造力的生成套件”（CoGS），涵盖从短篇故事到俳句的多样内容创作，配备定制评估标准和多种主题，以进行全面分析。
开发了RBS和ABS两个新指标，专门用于衡量内容生成和评估中的偏见。
对最新的LLMs进行了广泛测试，如LLaMA-2、GPT-4和Mixtral，展示了对通常与白人、异性恋和男性相关的身份的普遍代表性偏见，并揭示了亲和力偏见的独特模式。

算法模型

研究采用了基于语义相似度的方法来衡量代表性偏见，通过将模型输出转换为向量嵌入，然后计算余弦相似度来评估模型输出的语义接近程度。亲和力偏见的衡量则侧重于模型的评估行为，特别是在需要模型根据预定义标准判断或选择不同输出的任务中。通过计算评估模型对特定身份群体输出的偏好比例，来量化模型的偏好分布，从而指示其评估行为的公平性或不公平性。

实验效果（包含重要数据与结论）

实验设计涉及三个主要身份轴：种族、性别和性取向。通过对GPT-4、LLaMA-2和Mixtral的分析，发现所有模型都倾向于“白人”、“男性”和“异性恋”身份，这表明了潜在的代表性偏见。LLaMA-2在种族偏好上表现出异常，更倾向于“黑人”和“亚洲人”身份，这可能反映了其多样化的训练数据或旨在减轻种族偏见的架构。Mixtral在内容生成中显示出最广泛的包容性，但在对身份提示的响应中，其语义相似度通常低于其他LLMs，这可能表明Mixtral的训练范式鼓励平衡而不偏袒特定身份。亲和力偏见方面，GPT-4明显倾向于“白人”、“异性恋”和“男性”身份，而LLaMA-2则倾向于“黑人”、“酷儿”和“女性”身份，Mixtral则表现出最均匀的评估模式。
在这里插入图片描述

后续优化方向

研究指出了一些限制，包括身份轴的范围、模型选择、任务和主题的多样性以及量化与定性偏见测量的对比。未来的研究可以通过包括更多细微的身份群体、考虑其他模型、扩展任务和主题的范围以及结合定性分析来提供更全面和包容的LLMs偏见理解。此外，研究还提出了将实验结果应用于现实世界应用的挑战，如用户特定提示、交互式对话或长形式内容生成对偏见表现的影响。最后，研究团队正在开发一个网络应用，利用本研究的框架为用户提供个性化的偏见指纹评估，以帮助提高对与LLM生成内容交互中潜在偏见的自我意识和反思。