OpenAI 是怎么“压力测试”大型语言模型的?

ops/2024/11/24 0:21:30/

OpenAI 再次稍微揭开了它的安全测试流程的面纱。上个月,他们分享了一项调查的结果,这项调查研究了 ChatGPT 在根据用户名字生成性别或种族偏见的几率。现在,他们又发布了两篇论文,详细描述了如何对大型语言模型进行“压力测试”(也叫红队测试),目的是找出可能有害或者其他不希望出现的行为。

为什么要测试?

大型语言模型已经被成千上万的人用在各种各样的场景中。但 OpenAI 自己也承认,这些模型有可能生成种族主义、性别歧视或仇恨言论;泄露私人信息;放大偏见和刻板印象;甚至是凭空捏造事实。OpenAI 希望通过公开它的测试方法,展示他们是如何努力减少这些问题的。

怎么测试的?

第一篇论文提到,OpenAI 通过大量的外部测试人员对模型行为进行审查。这些人来自不同领域,比如艺术、科学、法律、医学,甚至是地区政治的专家。他们的任务就是尽可能“搞坏”模型,找出潜在的问题,比如诱导 ChatGPT 说出种族主义的话,或者让 DALL-E 生成暴力的图像。

第二篇论文则描述了一种新的自动化测试方法——用 GPT-4 这样的语言模型来“反过来”试图绕过自己的安全保护措施。这个方法的核心是用 AI 帮助发现更多潜在的问题。

OpenAI 的目标是把人工测试和自动化测试结合起来。人类测试发现的问题可以交给 AI 进一步挖掘,而 AI 找出的问题也可以让人类测试人员验证。OpenAI 的研究员 Lama Ahmad 说:“我们还在探索两者如何更好地互补。”

红队测试是怎么来的?

其实,红队测试并不是新概念。最初它来源于网络安全领域,就是通过模拟攻击来找系统漏洞。OpenAI 第一次使用这个方法是在 2022 年测试 DALL-E 2 时。当时,他们想知道用户会怎么用这个系统,以及可能会出现哪些风险。

这个方法后来成了行业标准。甚至美国总统拜登在去年的 AI 行政命令中,还指派国家标准与技术研究院(NIST)去制定红队测试的最佳实践。

发现问题的例子

举个例子,当 OpenAI 给 GPT-4 加上语音功能,让用户可以和 ChatGPT 对话时,测试人员发现模型有时会模仿用户的声音。这种行为虽然无意,但既让人不爽,又可能带来诈骗风险。

再比如,DALL-E 2 在测试时,测试人员要权衡“茄子”这个词的多种含义。一个正常的请求可能是“一个人吃茄子”,但另一个含性暗示的请求,比如“一个人把整根茄子放进嘴里”,就不合适了。模型必须学会分辨这些区别。

类似地,用户还会试图绕过安全检查。比如,你不能让 DALL-E 画“死马躺在血泊中”,但如果你换个说法,请求“睡着的马躺在一滩番茄酱里”呢?这就是测试需要发现的问题。

自动化测试的优势和局限

自动化测试能覆盖更多情况,但也有短板。过去的技术常常陷入两种极端:要么只集中在少量高风险行为上,要么泛泛而谈,结果无关痛痒。

OpenAI 在第二篇论文里提出了解决办法:先用大型语言模型生成各种潜在问题的清单,再用强化学习去实现这些问题。这样既能保证多样性,又能有针对性。

这个方法甚至发现了所谓的“间接提示注入”攻击,比如有的网站可以偷偷给模型发指令,让它做一些用户没要求的事情。

测试够了吗?

OpenAI 的 Ahmad 认为,让更多人了解红队测试会有帮助,但她也承认,仅靠 OpenAI 是不够的。她呼吁使用这些模型的公司也要进行自己的测试:“用法太多了,我们不可能覆盖所有情况。”

但一些专家表示,这恰恰是问题所在。因为没人完全了解大型语言模型的能力和局限性,再多的测试也无法彻底排除有害行为。而且,数百万实际用户的使用方式可能比任何测试人员都更“有创意”。

尤其当这些模型在不同环境下运行时,情况更加复杂。比如,一些人把模型接入新的数据源,这会改变它的行为。Collinear AI 的 CEO Nazneen Rajani 提到,GPT-4 自己进行红队测试也可能有偏见,因为模型倾向于更高评价自己的输出,这可能导致它对自己的问题“网开一面”。

未来怎么办?

英国 Ada Lovelace 研究所的 Andrew Tait 认为,模型的开发速度已经远远超过了测试技术的发展。他建议,与其宣传这些模型是“万能”的,不如专注于特定任务。这样才能真正测试它们在实际使用中的表现。

他说:“说引擎安全,不代表所有用这个引擎的车都安全。这种想法简直荒唐。”


http://www.ppmy.cn/ops/136178.html

相关文章

mac homebrew国内镜像源安装

最近换电脑了,需要安装homebrew,结果发现访问不了github,导致安装失败,报错信息如下: curl: (7) Failed to connect to raw.githubusercontent.com port 443 after 1 ms: Couldnt connect to server解决方法 使用国内…

【软件测试】设计测试用例的万能公式

文章目录 概念设计测试用例的万能公式常规思考逆向思维发散性思维万能公式水杯测试弱网测试如何进行弱网测试 安装卸载测试 概念 什么是测试用例? 测试⽤例(Test Case)是为了实施测试⽽向被测试的系统提供的⼀组集合,这组集合包…

Qt 开发笔记

上层控件遮挡底部控件 setAttribute(Qt::WA_TranslucentBackground); // 设置控件透明设置控件透明 存在一些事件会被过滤 setAttribute(Qt::WA_NoSystemBackground); // 使事件生效WA_OpaquePaintEvent //未验证树结构 子节点设置缩进宽度 treewidget 设置子节点缩进 setInde…

Semaphore 信号量

文章目录 基本概念工作原理Semaphore 与 ReentrantLockSemaphore常用场景1. 限制并发线程数(最常见场景)2. 公平模式的信号量(保证按顺序访问资源)3. 限制数据库连接数(模拟数据库连接池)4. 限制 API 请求次…

使用uniapp开发微信小程序使用uni_modules导致主包文件过大,无法发布的解决方法

在使用uniapp开发微信小程序时候,过多的引入uni_modules的组件库,会导致主包文件过大,导致无法上传微信小程序,主包要求大小不超过1.5MB.分包大小每个不能超过2M。 解决方法:分包。 1.对每个除了主页面navbar的页面进…

医药企业的终端市场营销策略

近年来,随着医药行业的快速发展,终端市场逐渐成为企业竞争的关键领域。在政策趋严、市场环境变化以及数字化转型的大背景下,医药企业如何在终端市场中立于不败之地?本文结合我们在医药数字化领域的经验,为大家剖析终端…

CPU详细介绍

CPU(中央处理器,Central Processing Unit)是计算机系统的核心部件之一,被称为计算机的“大脑”。它负责执行计算机程序中的各种指令,并管理和协调计算机系统的各个硬件组件。以下是对 CPU 的详细介绍,包括其…

前端图像处理(一)

目录 一、上传 1.1、图片转base64 二、图片样式 2.1、图片边框【border-image】 三、Canvas 3.1、把canvas图片上传到服务器 3.2、在canvas中绘制和拖动矩形 3.3、图片(同色区域)点击变色 一、上传 1.1、图片转base64 传统上传: 客户端选择图片&#xf…