RAGulator:如何识别和缓解大模型所谓的“忠实幻觉”

embedded/2024/11/13 1:14:26/

RAGulator,一个轻量级的、用于检测RAG系统中语义上与上下文不符(OOC)的LLM生成文本的检测器

论文链接:https://arxiv.org/abs/2411.03920

论文概述

实时检测大型语言模型(LLM)生成的与上下文不符的输出问题,这对于希望安全采用基于检索增强生成(RAG)应用的企业来说至关重要。

具体来说,本篇论文的目标是训练轻量级模型来区分LLM生成的语义上与检索到的文本文档不一致的文本。这项工作的核心是识别和缓解所谓的**“忠实幻觉”(faithfulness hallucination)**,即LLM生成的响应在语义上与提供的上下文不一致的情况

这对于高度敏感的工作环境,如金融机构来说尤为重要,因为无法确保LLM输出的准确性可能成为广泛采用LLM应用的最大限制之一。

核心内容

论文通过提出RAGulator,一个轻量级的、用于检测RAG系统**中语义上与上下文不符(OOC)**的LLM生成文本的检测器,来解决这个问题。具体来说,论文通过以下几个步骤来构建和评估RAGulator:

1. 问题定义

论文将问题定义为训练一个轻量级的灰盒判别器,以检测来自RAG系统的LLM生成的句子是否在语义上与检索到的文档集不符。

2. 数据集构建

通过改编公开可用的数据集,采样并预处理它们以模拟LLM生成的句子和RAG检索上下文的各种长度。

选择了摘要任务数据集(包括提取式和抽象式)和语义文本相似性任务数据集。

3. 生成性标注

为了适应BERT模型的512-token限制,论文通过生成性标注技术将数据集调整为这种格式。

使用LLM(如Llama-3.1-70b-Instruct)来标注每个句子,确定上下文句子中与候选句子相关的部分。

4. 特征工程

利用机器翻译指标和编码器模型计算的距离度量来比较响应和上下文之间的语义关系。

包括精确度分数、Unigram困惑度、Bigram困惑度、最大嵌入相似度分数和最大重排器相关性分数。

5. 模型训练

训练了两种类型的灰盒“非原生”判别模型:微调的BERT基分类器和在文本派生数值特征上训练的集成元分类器。

使用LLM生成的标签来适应BERT分类器的微调训练数据集。

6. 模型评估

在基于模拟RAG数据集的分布外测试集上评估RAGulator模型,以防止数据泄露并评估模型是否适用于特定用例。

比较了不同模型(包括LightGBM、Random Forest、deberta-v3-large和xlm-roberta-large)的性能,并与Llama-3.1-70b-Instruct进行了对比。

7. 结果分析

论文发现,尽管大型LLM在与人类标注一致性方面表现良好,但专门的OOC检测模型在AUROC和F1分数上优于LLM,强调了专门模型在OOC检测中的必要性。

通过这种方法,论文展示了一个低资源的数据收集和训练流程,用于构建能够检测LLM生成的与上下文不符文本的小型判别模型,这对于受严格数据安全规则和资源限制的企业来说,提供了一个有利的替代方案。

论文总结

论文中进行了以下实验来评估和验证RAGulator模型的性能:

1. 生成性标注与人类标注的一致性实验:

  • 实验旨在验证生成性标注的有效性,通过将LLM(Llama-3.1-70b-Instruct)的标注结果与人类标注进行比较。

  • 使用了不同的提示方法(如零次提示、少次提示、链式思考提示等)对58个句子-上下文对样本进行实验,计算与人类标注的一致性(Accuracy和κ值)。

2. 模型性能比较实验:

  • 比较了RAGulator模型(包括LightGBM、Random
    Forest、deberta-v3-large和xlm-roberta-large)与Llama-3.1-70b-Instruct基线模型的性能。

  • 使用了内部模拟的RAG数据集的分布内留出分割和分布外的银行信贷政策文档(CP)数据集进行评估。

  • 评估指标包括AUROC、AUPRC和F1分数,并比较了不同模型在整体评估集和CP数据集上的性能。

3. 模型推理速度和大小的比较:

  • 评估了不同模型的推理速度,并与Llama-3.1-70b-Instruct进行了比较。

  • 分析了不同模型在资源使用上的差异,包括所需的GPU数量和模型大小。

这些实验旨在全面评估RAGulator模型在检测LLM生成的与上下文不符文本方面的有效性、准确性和效率,并与现有的大型LLM模型进行比较。通过这些实验,论文展示了RAGulator在轻量级部署和资源受限环境中的潜力。

编者简介

致Great,中国人民大学硕士,多次获得国内外算法赛奖项,目前在中科院计算所工作,目前负责大模型训练优化以及RAG框架开发相关工作。

个人主页:https://github.com/yanqiangmiffy

项目链接:https://github.com/gomate-community/GoMate


http://www.ppmy.cn/embedded/136493.html

相关文章

ECCV2024新鲜出炉!动态再训练-更新用于无源目标检测的Mean Teacher

原文标题:Dynamic Retraining-Updating Mean Teacher for Source-Free Object Detection 中文标题:动态再训练-更新用于无源目标检测的Mean Teacher 想要快速了解这篇文章的可以看这篇分享: 论文速读:动态再训练-更新用于无源目标检测的Mean Teacher(ECCV2024)-CSDN博客

【数学二】线性代数-矩阵-初等变换、初等矩阵

考试要求 1、理解矩阵的概念,了解单位矩阵、数量矩阵、对角矩阵、三角矩阵、对称矩阵、反对称矩阵和正交矩阵以及它们的性质. 2、掌握矩阵的线性运算、乘法、转置以及它们的运算规律,了解方阵的幂与方阵乘积的行列式的性质. 3、理解逆矩阵的概念,掌握逆矩阵的性质以及矩阵可…

大模型微调技术 --> 脉络

Step1:脉络 微调技术从最早期的全模型微调演变成如今的各种参数高效微调(PEFT)方法,背后是为了应对大模型中的计算、存储和数据适应性的挑战 1.为什么有微调? 深度学习模型越来越大,尤其是 NLP 中的预训练语言模型(BERT, GPT)系列。如果从…

ArcGIS Pro SDK (二十三)实时要素类

ArcGIS Pro SDK (二十三)实时要素类 文章目录 ArcGIS Pro SDK (二十三)实时要素类1 从实时数据存储连接到实时要素类2 检查实时要素类是否可识别轨迹3 从实时要素类获取追踪 ID 字段4 订阅流数据5 搜索现有数据并订阅流数据6 搜索和订阅取消环境:Visual Studio 2022 + .NE…

软考中级 软件设计师 上午考试内容笔记(个人向)Part.1

软考上午考试内容 1. 计算机系统 计算机硬件通过高/低电平来模拟1/0信息;【p进制】: K n K n − 1 . . . K 2 K 1 K 0 K − 1 K − 2... K − m K n r n . . . K 1 r 1 K 0 r 0 K − 1 r − 1 . . . K − m r − m K_nK_{n-1}...K_2K_1K_0K…

【p2p、分布式,区块链笔记 Torrent】WebTorrent的add和seed函数

在【p2p、分布式,区块链笔记 Torrent】WebTorrent的上传和下载界面的示例中,主要通过WebTorrent类的add和seed函数实现相关功能。这两个函数都返回一个Torrent类对象的实例。 seed函数 import createTorrent, { parseInput } from create-torrent // &…

vxe-grid ,增加新行,并且定位到新增的行

1、先上个图: 点增了新增,则自动将滚动条滚动最底部。 2、代码: let $table tableRef.value;if ($table) {(async () > {const { row: newRow, rows: newRows } await $table.insertAt({demo: ,usertype: ,},-1,);$table.scrollToRow(n…

前端开发模板Pear Admin Layui

目录 基本资料学习笔记04-Pear-Admin-Layui模板运行05-Pear-Admin-Layui-GIT方式代...06-Pear-Admin与Vue对比 & 07-Pear-Admin与Vue对比补充09-Pear-Admin-CRUD练习-数据库表创建12-Pear-Admin-CRUD练习-引入其它依赖 & 13-Pear-Admin-CRUD练习-三层架构以及常见配置 …