论文翻译:USENIX-2021 Extracting Training Data from Large Language Models

embedded/2024/9/24 14:22:15/

Extracting Training Data from Large Language Models

从大型语言模型中提取训练数据

https://www.usenix.org/system/files/sec21-carlini-extracting.pdf

文章目录

摘要

现在,发布在私有数据集上训练的大型(数十亿参数)语言模型已经变得很常见。本文展示了在这种设置中,攻击者可以通过查询语言模型来恢复个别训练样本,从而执行训练数据提取攻击。
我们在GPT-2上展示了我们的攻击,GPT-2是一个在公共互联网抓取的数据上训练的语言模型,我们能够从模型的训练数据中提取数百个逐字文本序列。这些提取的示例包括(公共)个人身份信息(姓名、电话号码和电子邮件地址)、IRC对话、代码和128位UUID。即使在训练数据中每个上述序列只包含在一个文档中,我们的攻击也是可能的。我们全面评估了我们的提取攻击,以了解其成功的因素。令人担忧的是,我们发现更大的模型比更小的模型更脆弱。我们通过总结教训和讨论训练大型语言模型的可能的安全措施来结束本文。

1 引言

语言模型(LM)——为一系列单词分配概率的统计模型——是许多自然语言处理任务的基础。现代基于神经网络的LM使用非常大的模型架构(例如,1750亿参数[7])并在庞大的数据集上训练(例如,近1TB的英文文本[55])。这种扩展提高了LM生成流畅自然语言的能力[53,74,76],并且也允许它们被应用于大量其他任务[29, 39, 55],甚至在不更新它们的参数的情况下[7]。
与此同时,机器学习模型因暴露其(可能是私有的)训练数据的信息而臭名昭著——无论是一般情况[47, 65]还是在特定的情况下的语言模型[8, 45]。例如,对于某些模型,已知攻击者可以应用成员推断攻击[65]来预测任何特定示例是否在训练数据中。
这种隐私泄露通常与过拟合[75]有关——当模型的训练误差显著低于其测试误差时——因为过拟合通常表明模型已经记住了训练集中的示例。事实上,过拟合是隐私泄露的充分条件[72],许多攻击通过利用过拟合来工作[65]。
过拟合和记忆之间的关联——错误地——导致许多人认为最先进的LM不会泄露有关其训练数据的信息。因为这些模型通常只在单个周期[7, 55]中在大量去重的数据集上训练,它们表现出很少或没有过拟合[53]。因此,普遍的观点是“对任何给定作品的复制程度可能最多是微不足道的”[71],并且模型不会显著记住任何特定的训练示例。

贡献。在这项工作中,我们展示了大型语言模型记忆并泄露个别训练示例。具体来说,我们提出了一种简单有效的从语言模型的训练集中提取逐字序列的方法,仅使用黑盒查询访问。我们的关键见解是,尽管训练示例在平均上没有比测试示例有显著更低的损失,但某些最坏情况下的训练示例确实被记住了。
在我们的攻击中,我们首先使用三种通用采样策略之一,从模型生成大量多样化的高概率样本。然后我们使用六种不同的度量标准对每个样本进行排序,这些度量标准估计每个样本使用单独的参考模型(例如,另一个LM)的可能性,并在两个模型之间具有异常高的似然比的样本中排名最高。
我们的攻击直接适用于任何语言模型,包括那些在敏感和非公共数据上训练的模型[10,16]。我们在实验中使用OpenAI发布的GPT-2模型[54]作为代表性的语言模型。我们选择攻击GPT-2以最小化现实世界的伤害——GPT-2模型和原始训练数据源已经是公开的。
为了使我们的结果可量化,我们定义了一个可测试的记忆定义。然后我们生成了1800个候选记忆样本,每个3×6攻击配置下100个,并发现其中超过600个是GPT-2训练数据中的逐字样本(与GPT-2的创造者合作确认)。在最佳的攻击配置中,67%的候选样本是逐字训练示例。我们最明显的敏感攻击提取了一个人的全名、实际地址、电子邮件地址、电话号码和传真号码(见图1)。我们全面分析了我们的攻击,包括研究模型大小和字符串频率如何影响记忆,以及不同的攻击配置如何改变提取数据的类型。
我们通过讨论许多实际策略来减轻隐私泄露来结束。例如,差分隐私训练[1]在理论上是合理的,并保证在适当的记录级别应用时产生私有模型,但它可能导致更长的训练时间,并且通常会降低效用。我们还提出了建议,例如仔细去重文档,这将有助于减轻记忆,但不能防止所有攻击。
在这里插入图片描述

图1:我们的提取攻击。给定对神经网络语言模型的查询访问,我们提取了一个人的姓名、电子邮件地址、电话号码、传真号码和实际地址。这个图示中的示例显示的信息都是准确的,所以我们对其进行了编辑以保护隐私。


http://www.ppmy.cn/embedded/112767.html

相关文章

机器学习--神经网络

神经网络 计算 神经网络非常简单,举个例子就理解了(最后一层的那个写错了,应该是 a 1 ( 3 ) a^{(3)}_1 a1(3)​): n o t a t i o n notation notation: a j ( i ) a^{(i)}_j aj(i)​ 表示第 i i i 层的…

通过解预测和机器学习促进蚁群优化

文章目录 Abstract1. Introduction2. Background and related work2.1 定向越野问题2.2 ACO优化Abstract ML - ACO 算法的第一阶段,使用一组已知最优解的小定向越野问题实例训练一个 ML 模型。具体来说,使用分类模型根据问题特定的特征和统计度量来判断一条边是否属于最优路…

Mac电脑剪切板在哪里找 苹果电脑剪切板打开教程【详解】

Windows 和 Mac 电脑在使用方式上存在一些差异,许多习惯了 Windows 系统的用户初次接触 Mac 时可能会对某些操作感到困惑。比如,很多人会问:Mac 上的剪贴板在哪里?如果你也有这样的疑问,不妨看看下面这篇关于如何在 Ma…

微信小程序页面制作——婚礼邀请函(含代码)

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

I²C通信协议

IC通信协议 IC通信协议i2c简介i2c硬件电路 i2c基本时序单元起始和终止条件发送数据接收数据发送和接收应答 i2c时序指定地址写当前地址读 MPU6050六轴姿态传感器MPU6050简介加速度计陀螺仪传感器姿态角MPU6050参数硬件电路内部框图 案例:软件i2c读写MPU6050接线图i2…

C# WinForm:禁用Panel容器滚动条自动移动位置的功能

1.在WinForm项目中新建一个类: 2.类里面的内容,重写Panel的这个方法 3.编译后这个控件就出现在工具箱了 4.然后用这个新Panel控件就好了 5.完事大吉。

[网络]TCP/IP协议 之 网络层IP协议(3)

文章目录 一. IP协议报头二. NAT机制三. IP地址管理的基本规则1. 网段划分2. 特殊的IP地址 四. IP路由选择 网络层主要做的事情: 1.路径规划(路由器选择) 2.地址管理 一. IP协议报头 1)4位版本 指定IP协议的版本, 4 > ipv4 , 6 > ipv6 2)4位首部长度 4位bit能表示0-15, …

什么是数据治理?如何保障数据质量安全

数据治理的定义 数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为,由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。根据国际数据管理协会(DAMA)和…