论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

news/2024/9/18 12:29:46/ 标签: 语言模型, 人工智能, 自然语言处理

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

https://openreview.net/forum?id=KS8mIvetg2

验证测试集污染在黑盒语言模型

文章目录

摘要

大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这意味着一个被污染的语言模型会发现某些规范排序比其他排序更有可能。我们的测试在规范排序的基准测试数据集的可能性显著高于洗牌后的可能性时,标记潜在的污染。我们证明了我们的程序足够敏感,能够在包括只有10亿参数的模型、只有1000个示例的小测试集,以及在预训练语料库中只出现几次的数据集等具有挑战性的情况下,可靠地证明测试集污染。使用我们的测试,我们审计了四种流行的公开可访问的语言模型,以检测测试集污染,并发现很少有普遍污染的证据。

1 引言

大型语言模型(LLMs)在许多自然语言处理基准测试(Wang等人,2019)和专业考试(OpenAI,2023)上取得了显著的进步。这些进步是由在从互联网收集的大量数据集上进行的大规模预训练驱动的。虽然这种范式很强大,但涉及的最少策划导致了对数据集污染的日益关注,预训练数据集包含了各种评估基准。这种污染导致理解语言模型的真实性能变得困难——例如,它们是否只是记住了难题的答案。区分泛化效应和测试集记忆的影响对我们理解语言模型性能至关重要,但随着许多今天部署的语言模型的预训练数据集很少公开,这变得越来越困难。

尽管LLM提供商正在进行工作,从预训练数据集中移除基准,并进行数据集污染研究,但这种过滤可能会因为错误(Brown等人,2020a)而失败,仅限于一组选定的基准(Brown等人,2020a;Wei等人,2021;Chowdhery等人,2022),并且需要信任这些供应商。竞争压力的增加也导致了一些最近的模型发布完全没有污染研究(OpenAI,2023)。这些因素使我们能够审计现有的语言模型,以检测基准数据集的存在,而不需要语言模型提供商的合作。

与污染研究并行,有关启发式成员推断算法的文献越来越多,这些算法试图逆向工程预训练数据集的方面(Carlini等人,2019;Mattern等人,2023),并为测试集污染提供一些证据(Sainz等人,2023;Golchin & Surdeanu,2023)。然而,这些方法的启发式性质限制了它们的有用性,因为这些方法不能将对疑似测试集污染实例的猜测提升为污染的无可辩驳的证据。

在这项工作中,我们展示了如何超越启发式方法,并为黑盒语言模型提供可证明的测试集污染保证。更具体地说,我们提供了一个统计测试,它可以在不访问模型的训练数据或权重的情况下,识别预训练数据集中基准的存在,并提供可证明的误报率保证。

为了实现这些保证,我们利用了许多数据集具有的一个属性,即可交换性,其中数据集中示例的顺序可以洗牌,而不会影响其联合分布。我们的关键洞察是,如果语言模型对数据集的任何特定排序表现出偏好——例如,在公开可用的存储库中出现的规范排序——这违反了可交换性,并且只有在训练期间观察到数据集时才会发生(图1)。

我们利用这一洞察提出了一组测试,比较语言模型在“规范”排序(来自公共存储库)上的对数概率与在洗牌示例数据集上的对数概率,并在两个对数概率在统计上有显著差异时标记数据集

利用这些想法,我们提出了一个计算效率高且统计强大的测试,用于污染,该测试将数据集分割成更小的片段,并在每个片段内进行一系列对数概率比较。我们证明这种分片测试可以控制误报率,实现计算效率高的并行测试,并显著提高测试对于小p值的统计能力。

我们在一个训练了10亿参数的语言模型上评估了我们的统计测试,该模型在维基百科和一组策划的金丝雀测试集的组合上进行了训练。我们的测试足够敏感,可以识别出只有1000个示例的测试集,有时甚至在预训练语料库中只出现两次。在重复次数更高的情况下,例如数据集出现10次或更多次,我们的测试获得了极小的p值。最后,我们在四种常用的公共语言模型上运行我们的测试,以研究我们的测试在野外语言模型上的行为,并发现很少有普遍和强烈的测试集污染的证据。

我们总结了我们的贡献如下。
• 展示了使用可交换性作为仅使用对数概率查询来可证明地识别测试集污染的方法。
• 构建了一个高效且强大的分片假设测试,用于测试集污染。
• 实证展示了黑盒检测在预训练期间只出现几次的小数据集的污染。
我们的三项贡献表明,黑盒识别测试集污染是可行的,测试能力的进一步改进可能使我们能够定期审计野外的语言模型,以检测测试集污染。为了鼓励开发新的可证明的测试集污染保证,我们将我们的预训练模型作为开发未来统计测试的基准发布。1
在这里插入图片描述

图1:给定一个被BoolQ(Clark等人,2019)测试集污染的预训练数据集(左),我们通过测试数据集的可交换性(右)来检测这种污染。如果模型已经看到了一个基准数据集,它将偏好规范顺序(即示例在公共存储库中给出的顺序)而不是随机洗牌的示例顺序。我们测试这些对数概率的差异,并在整个数据集中汇总它们,以提供误报率保证。


http://www.ppmy.cn/news/1524970.html

相关文章

FPGA 时钟信号设计方法

一种常见的时钟激励产生方法是通过设置时钟周期和占空比来生成时钟信号。在给定的时钟周期内,通过控制时钟信号的占空比来实现不同的时钟激励效果。例如,在一个时钟周期内,可以让时钟信号的占空比为50%,即时钟信号在高电平和低电平…

android studio 模拟器 loadlibrary failed with 126:找不到指定的模块

loadlibrary failed with 126:找不到指定的模块 解决方法 解决方法:设备管理器-> 显示适配器-> 禁用 AMD Redeon 重启AndroidStudio

【pytorch】keepdim参数解析

keepdim 是 PyTorch 中的一个参数,常用于各种归约操作(如求和、求均值、求最大值等)。当我们对张量进行归约时,通常会减少该维度的大小,但有时我们希望保持归约后的维度不变,这时就会用到 keepdimTrue。 举…

CSDN文章无水印转成PDF

文章目录 一、打开检查二、点击进入控制台三、在控制台中输入代码 一、打开检查 f11或者右键打开检查 二、点击进入控制台 三、在控制台中输入代码 (function(){ use strict;var articleBox $("div.article_content");articleBox.removeAttr("style&quo…

进程与程序

进程和程序在计算机系统中是两个密切相关但又不同的概念。它们的主要区别在于动态与静态、执行与描述的不同,下面是详细的解释: 1. 程序 (Program) 定义: 程序是存储在磁盘或其他存储设备上的一组指令,它是静态的,代表了解决某一…

LLM - 理解 多模态大语言模型 (MLLM) 的预训练与相关技术 (三)

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 完备(F…

19:I2C一:程序模拟I2C通信时序

I2C 1、什么是I2C2、I2C的通信时序2.1:起始信号2.2:停止信号2.3:主机向从机发送一个字节数据2.4:主机向从机读取一个字节数据2.5:主机接收应答2.6:主机发送应答 3、程序模拟I2C的通信时序3.1:指…

RESTful Web服务详细解释

RESTful Web服务详解 一、概述 REST(Representational State Transfer,表述性状态转移)是一种基于Web的分布式架构风格,由Roy Fielding在他的博士论文中提出。它通过一组原则和约束,定义了如何在分布式系统中通过HTT…

Android的内核

Android的内核是基于Linux的长期支持版本的“Android通用内核(ACK)”。 Android作为一个广泛使用的操作系统,其根基在于内核的设计和功能。下面将深入探讨Android内核的各个方面,从其基本结构到与Linux内核的关系,再到内核的版本管理及在设备…

Selenium自动化 Web 浏览器操作

文章目录 Selenium自动化 Web 浏览器操作Selenium简介安装Selenium安装WebDriver使用问题驱动加载报错版本不匹配 常用API创建实例定位元素鼠标事件表单相关多窗口切换等待显示等待隐式等待 文件上传下载经验总结 Selenium自动化 Web 浏览器操作 Selenium简介 Selenium可以模…

《网络故障处理案例:公司网络突然中断》

网络故障处理案例:公司网络突然中断 一、故障背景 某工作日上午,一家拥有 500 名员工的公司突然出现整个网络中断的情况。员工们无法访问互联网、内部服务器和共享文件,严重影响了工作效率。 二、故障现象 1. 所有员工的电脑…

Flutter中自定义气泡框效果的实现

在用户界面的设计中,气泡框(Bubble)是一种非常有效的视觉工具,它可以用来突出显示信息或提示用户。气泡框广泛应用于聊天应用、通知提示等场景。在 Flutter 中,虽然有很多现成的气泡框组件,但如果你想要更多…

微深节能 天车位置跟踪物流信息管理系统 格雷母线

微深节能的天车位置跟踪物流信息管理系统结合格雷母线技术,为库房、冶金、矿山等场景的天车作业提供了高效、精准的位置跟踪和物流管理解决方案。 一、系统概述 微深节能的天车位置跟踪物流信息管理系统通过集成先进的格雷母线技术,实现了对天车位置的高…

python绘制3D瀑布图

成品: 代码: import matplotlib.pyplot as plt import matplotlib.ticker as ticker from mpl_toolkits.mplot3d.art3d import Poly3DCollection import numpy as npdef line_3d(x, y, z, x_label_indexs):"""在y轴的每个点,…

如何利用命令模式实现一个手游后端架构?

命令模式的原理解读 命令模式的英文翻译是 Command Design Pattern。在 GoF 的《设计模式》一书中,它是这么定义的: The command pattern encapsulates a request as an object, thereby letting us parameterize other objects with different reques…

能力追上博士生,OpenAI发布最强o1系列模型

9月13日凌晨1点,OpenAI发布o1系列模型,包括o1-preview(下称o1预览版)和o1-mini。针对这一消息,该公司创始人Sam Altman在X上表示:“no more patience, jimmy.(需要耐心等待的时刻结束了&#xf…

蓝桥杯DS18B20程序源码

蓝桥杯DS18B20程序源码解析 蓝桥杯,作为一项全国瞩目的电子设计竞赛,其核心挑战在于参赛者需深度融合单片机编程与各类电子元件的应用能力。在众多项目中,涉及DS18B20数字温度传感器的程序源码尤为引人注目,它巧妙地将单片机技术…

开源项目低代码表单FormCreate中ElementPlus表单使用校验规则示例

在开源项目低代码表单FormCreate 中,可以通过 validate 配置项为表单组件设置验证规则。无论是内置的表单组件还是自定义的表单组件,都支持表单校验。本文将详细介绍验证规则的使用方法,并提供一些示例来帮助您更好地理解和应用这些功能。 源…

ISO 21434与网络安全管理系统(CSMS)的协同作用

ISO/SAE 21434与CSMS(网络安全管理系统)之间的关系主要体现在以下几个方面: 提供指导框架:ISO/SAE 21434《道路车辆—网络安全工程》是一项国际标准,它为汽车行业提供了实施网络安全管理系统的国际认可的方法和最佳实…

模板匹配应用(opencv的妙用)

在图像处理领域,模板匹配是一种常用的技术,用于在一幅大图中寻找与给定模板最匹配的区域。OpenCV作为一个强大的计算机视觉库,提供了cv2.matchTemplate()函数来实现模板匹配功能。本文将详细介绍OpenCV中的模板匹配技术,包括其原理…