AI Alignment: A Comprehensive Survey---摘要、简介

ops/2024/12/15 20:06:57/

题目

人工智能对齐:全面调查

在这里插入图片描述

摘要

    人工智能对齐旨在使人工智能系统的行为符合人类的意图和价值观。随着人工智能系统的能力不断增强,错位的风险也在不断增加。为了提供对齐领域的全面和最新概述,在本调查中,我们深入研究了对齐的核心概念、方法和实践。首先,我们确定了四个原则作为人工智能对齐的主要目标:鲁棒性、可解释性、可控性和道德性 (RICE)。在这四个原则的指导下,我们概述了当前对齐研究的概况,并将其分解为两个关键部分:前向对齐和后向对齐。前者旨在通过对齐训练使人工智能系统对齐,而后者旨在获得有关系统对齐的证据并对其进行适当管理,以避免加剧错位风险。在前向对齐方面,我们讨论了从反馈中学习和在分布变化下学习的技术。具体而言,我们调查了传统的偏好建模方法和从人类反馈中进行的强化学习,并进一步讨论了在难以获得有效人类监督的任务中实现可扩展监督的潜在框架。在分布转移学习中,我们还涵盖了数据分布干预措施,例如有助于扩大训练数据分布的对抗性训练,以及用于对抗目标错误泛化的算法干预措施。在向后对齐方面,我们讨论了保证技术和治理实践。具体来说,我们调查了人工智能系统在其整个生命周期中的保证方法,涵盖了安全评估、可解释性和人类价值合规性。我们讨论了政府、行业参与者和其他第三方采用的当前和未来治理实践,旨在管理现有和未来的人工智能风险。本次调查旨在提供全面但适合初学者的对齐研究主题回顾。在此基础上,我们还发布并不断更新网站 www.alignmentsurvey.com,其中包含教程、论文集、博客文章和其他资源。

简介

    最近的进展见证了功能强大的 AI 系统在复杂领域的应用日益广泛。例如,大型语言模型 (LLM) 在实际部署环境中表现出了多步推理 (Wei 等人,2022 年;Wang 等人,2023c) 和跨任务泛化 (Brown 等人,2020b;Askell 等人,2021) 方面的改进能力,并且这些能力随着训练时间、训练数据和参数大小的增加而增强 (Kaplan 等人,2020 年;Srivastava 等人,2023 年;Hoffmann 等人,2022 年)。深度强化学习 (DRL) 用于控制核聚变 (Degrave 等人,2022 年) 是另一个值得注意的例子。能力的提高和在高风险领域的部署伴随着更高的风险。先进人工智能系统表现出的各种不良行为(例如操纵(Perez 等人,2023;Carroll 等人,2023;Sharma 等人,2024)和欺骗(Park 等人,2023b))引发了人们对人工智能系统危害的担忧。

    因此,这些担忧催化了人工智能协调方面的研究工作(Soares 和 Fallenstein,2014;Christian,2020;Hendrycks 等人,2021b)。人工智能协调旨在使人工智能系统的行为符合人类的意图和价值观(Leike 等人,2018),更多地关注人工智能系统的目标而不是其能力。协调失败(即错位)是人工智能潜在危害的最主要原因之一。这些失败背后的机制包括奖励黑客攻击(Pan 等人,2021 年)和目标错误概括(Di Langosco 等人,2022 年),这些机制被双刃剑因素进一步放大,例如态势感知(Cotra,2022 年)、范围广泛的目标(Ngo 等人,2024 年)、mesa 优化目标(Hubinger 等人,2019c)和获得更多资源的途径(Shevlane 等人,2023 年)(§1.1.2)。

    解决这些失败的协调工作重点是实现四个关键目标(§1.2.2):稳健性、可解释性、可控制性和道德性 (RICE)。当前关于协调的研究和实践包括四个领域(§1.2):从反馈中学习(§2)、在分布转变下学习(§3)、保证(§4)和治理(§5)。这四个领域与 RICE 目标并不一一对应。每个单独的领域通常服务于多个对齐目标,反之亦然(见表 1)。在本调查中,我们介绍了 AI 对齐的概念、方法和实践,并讨论了其未来的潜在方向。

对齐的动机

    对齐的动机是一个三步论证,每一步都建立在前一步的基础上:

  1. 基于深度学习的系统(或应用程序)对社会的影响越来越大,并带来重大风险;
  2. 错位代表着重大风险来源;
  3. 对齐的研究和实践解决源于错位系统的风险(例如,权力寻求行为)。

错位风险

    随着人工智能系统能力的提升,风险也随之增加。 LLM 的一些不良行为,包括(但不限于)不诚实的回答(Bang et al, 2023)、谄媚(Perez et al, 2023; Sharma et al, 2024)和欺骗(Jacob Steinhardt, 2023; Park et al, 2023b),随着模型规模的增加而恶化(Perez et al, 2023),导致人们对难以控制的高级人工智能系统感到担忧。此外,基于 LLM 的代理(Xi et al, 2023; Wang et al, 2023b)等新兴趋势也引发了人们对系统可控性和道德性的担忧(Chan et al, 2023)。展望未来,人工智能系统能力的不断增强为在可预见的未来实现通用人工智能 (AGI) 提供了可能性,即系统可以在所有相关方面匹敌甚至超越人类智能 (Bubeck et al, 2023)。这可能带来大量机遇 (Manyika et al, 2017),例如自动化 (West, 2018)、效率提升 (Furman and Seamans, 2019),但也伴随着严重风险 (CAIS, 2023; Critch and Russell, 2023),例如安全问题 (Hendrycks and Mazeika, 2022)、偏见和不平等 (Ntoutsi et al, 2020),以及超人能力带来的大规模风险 (Bengio, 2023)。以偏见为例,前沿的法学硕士在性别、性别认同和移民身份等方面表现出明显的偏见(Perez 等人,2023 年),这可能会加剧现有的不平等。

    在超人能力带来的大规模风险中,有人推测,全球灾难性风险(即全球范围内造成严重危害的风险)(Bostrom 和 Cirkovic,2011 年;Hendrycks 等人,2023 年;英国政府,2023 年)和生存风险(即威胁人类长期潜力毁灭的风险)来自先进的人工智能系统尤其令人担忧。这些担忧在第一性原理演绎论证(Ngo,2020a;Bengio,2023)、进化分析(Hendrycks,2023)和具体情景映射(Christiano,2019;Kenton 等人,2022)中得到了详细阐述。在 CAIS(2023)中,领先的人工智能科学家和其他知名人士表示,减轻人工智能灭绝的风险应该成为全球优先事项,与其他社会规模的风险(如流行病和核战争)并列。Stein-Perlman 等人(2022)在 NeurIPS 2021 和 ICML 2021 上调查的中位数研究人员报告称,高级人工智能对人类的长期影响有 5% 的可能性极其糟糕(例如,人类灭绝),Michael 等人(2022 年)调查的 36% 的 NLP 研究人员自称相信人工智能可能在本世纪产生灾难性后果,相当于全面核战争的水平。

    除了灭绝风险外,人工智能带来的生存风险还包括锁定、停滞等风险(Bostrom,2013 年;Hendrycks 和 Mazeika,2022 年)。英国主办了世界上第一届全球人工智能安全峰会,聚集了国际政府、领先的人工智能公司、民间社会团体和研究专家。其目标是:

  1. 评估与人工智能相关的风险,特别是在其发展的前沿;
  2. 探索如何通过国际协调努力减轻这些风险。峰会以《布莱切利宣言》(峰会,2023 年)结束,该宣言强调了国际合作对人工智能安全的重要性。该协议由来自28个国家和欧盟的代表签署。

    当前,尖端人工智能系统已表现出多类可能与人类意图相悖的不良或有害行为(例如,权力追求和操纵)(Si 等人,2022 年;Pan 等人,2023a),人们也对更先进的系统提出了类似的担忧(Critch 和 Krueger,2020 年;CAIS,2023 年)。这些不符合人类意图的不良或有害行为被称为人工智能系统错位,即使没有被恶意行为者滥用,也可能自然发生,是人工智能的一个重大风险来源,包括安全隐患(Hendrycks 等人,2021b)和潜在的生存风险(Hendrycks 等人,2023 年)。这些大规模风险之所以规模巨大,是因为存在以下不小的可能性:

  1. 构建超级智能人工智能系统,
  2. 那些追求大规模目标的人工智能系统,
  3. 这些目标与人类意图不一致和价值观,以及
  4. 这种错位导致人类失去对人类未来轨迹的控制(Ngo,2020a)。

    解决错位带来的风险需要对人工智能系统进行对齐,以确保系统的目标符合人类的意图和价值观,从而避免意外和不利的结果。 更重要的是,我们期望对齐技术能够扩展到更艰巨的任务和比人类更聪明的先进人工智能系统。 一个潜在的解决方案是超级对齐,旨在构建一个大致与人类水平相当的自动对齐研究人员,从而使用大量计算来扩展和迭代对齐安全的超级智能(OpenAI,2023c)。

错位的原因

    在上一节中,我们从对人工智能风险和技术伦理的关注角度总结了对齐的动机。为了更深入地理解对齐,我们旨在进一步分析错位问题发生的原因和方式。我们将首先概述常见的故障模式,然后关注反馈引起的错位机制,最后将重点转向对错位行为和危险能力的检查。在此过程中,我们引入了双刃组件的概念,它有利于增强未来先进系统的能力,但也有可能产生危险的后果。 故障模式概述,为了说明错位问题,我们在本节概述了对齐故障模式,其中大多数可分为奖励黑客和目标错误泛化。

    强化学习的学习过程可以分为两个不同的阶段:首先,创建一个为奖励优化做好准备的代理,其次,建立一个为代理提供适当奖励信号的奖励过程。在马尔可夫奖励过程 (Marbach and Tsitsiklis, 2001; Puterman, 2014; Sutton and Barto, 2018) 的框架内,前一个阶段可以看作与过渡模型(例如基于模型的 RL 代理 (Moerland et al, 2023))相关的学习过程,或专门算法的开发。后一个阶段可以看作是代理奖励的构建,旨在近似从来源(例如人类偏好或环境)获得的真实奖励 (Ng et al, 2000; Leike et al, 2018)。

    奖励黑客:在实践中,代理奖励通常很容易优化和衡量,但它们往往无法捕捉到实际奖励的全部范围 (Pan et al, 2021)。这种限制被称为错误指定的奖励。基于这种错误指定的奖励追求优化可能会导致一种称为例如奖励黑客攻击,其中代理可能根据特定指标表现出高度熟练,但与人类标准相比却有所欠缺(Amodei 等人,2016 年;Everitt 等人,2017 年)。代理奖励和真实奖励之间的差异通常表现为奖励曲线的急剧相变(Ibarz 等人,2018 年)。

    此外,Skalse 等人(2022 年)定义了奖励的可黑客性,并深入了解了这种相变的基本机制,强调奖励函数的不当简化可能是导致奖励黑客攻击的一个关键因素。由于忽视了对结果的严格标准,经常会出现错误指定的奖励,从而使规范过于宽泛,容易被黑客攻击(Victoria 等人,2020 年)。除了奖励设计不佳(Ng 等人,1999 年),训练环境和模拟器的选择存在缺陷(Code Bullet,2019 年)也会导致 AI 系统无法满足预期目标。这些问题源于任务规范,广义上称为规范游戏,指的是 AI 系统利用任务规范中的漏洞而没有实现预期结果。(Victoria 等人,2020 年)奖励篡改可以被视为奖励黑客攻击的一个特例(Everitt 等人,2021 年;Skalse 等人,2022 年),指的是 AI 系统破坏奖励信号生成过程(Ring 和 Orseau,2011 年)。 Everitt 等人 (2021) 深入研究了 RL 代理遇到的子问题:

  1. 篡改奖励函数,即代理不恰当地干扰奖励函数本身;
  2. 篡改奖励函数输入,即负责将环境状态转化为奖励函数输入的过程出现腐败。

    当奖励函数通过人类监督者的反馈制定时,模型可以直接影响反馈的提供(例如,人工智能系统故意产生难以理解和判断的响应,导致反馈崩溃)(Leike 等人,2018 年)。由于任务规范具有其物理实例(例如,存储奖励信号的内存寄存器),因此部署在现实世界中的人工智能系统有可能练习操纵行为,从而导致更危险的结果(Victoria 等人,2020 年)。

    目标错误概括:目标错误概括是另一种失败模式,其中代理在部署中积极追求与训练目标不同的目标,同时保留其在训练期间获得的能力(Di Langosco 等人,2022 年)。例如,在 CoinRun 游戏中,代理经常喜欢到达关卡的末尾,在测试场景中经常忽略重新定位的硬币。Di Langosco 等人(2022 年)提请关注能力泛化和目标泛化之间的根本差异,强调模型及其训练算法固有的归纳偏差可能会在面对测试分布时无意中引导模型学习与预期初始目标不同的代理目标。这意味着即使有完美的奖励规范,当面对分布变化时,也可能出现目标错误概括(Amodei 等人,2016 年)。需要注意的是,目标错误泛化可能发生在任何学习系统中,并不局限于强化学习,因为其核心特征是追求非预期目标(Shah and Varma,2022 年)。此外,如果高级人工智能系统逃脱控制并利用其能力带来不良状态,可能会更加危险(Zhuang and Hadfield-Menell,2020 年)。

    反馈引起的错位随着先进人工智能系统的普及,与奖励黑客和目标错误概括相关的挑战在开放式场景中变得越来越明显(Paulus 等人,2018;Knox​​ 等人,2023)。Gao 等人(2023)强调,更有能力的代理往往会在更大程度上利用错误指定的奖励。虽然许多当前的人工智能系统主要由自我监督驱动,但值得注意的是,很大一部分依赖于来自人类顾问的反馈奖励(Bai 等人,2022a),这使我们能够引入反馈引起的错位机制。错位问题在开放式场景中尤为紧迫,我们可以将其归因于两个主要因素:

  • 人类反馈的局限性。在 LLM 训练过程中,人类数据注释者可能会产生不一致(例如,这些注释者的不同文化背景可能会引入隐性偏见 (Peng et al, 2022))(OpenAI, 2023a)。此外,他们甚至可能故意引入偏见,导致偏好数据不真实 (Casper et al, 2023b)。对于人类难以评估的复杂任务(例如游戏状态的价值),这些挑战变得更加突出 (Irving et al, 2018)。
  • 奖励建模的局限性。使用比较反馈训练奖励模型可能会对准确捕捉人类价值观带来重大挑战。例如,这些模型可能会无意识地学习次优或不完整的目标,从而导致奖励黑客攻击 (Zhuang and Hadfield-Menell, 2020; Skalse et al, 2022)。同时,使用单一的奖励模型可能难以捕捉和指定多元化人类社会的价值观(Casper 等人,2023b)。

在这里插入图片描述
图 1:危险能力。高级人工智能系统会被激励去寻求权力,因为权力将帮助他们实现既定目标。强大的人工智能系统可能会入侵计算机系统、操纵人类、控制和开发武器,并在避免关闭的同时进行违反道德的行为。原始版权属于 wiki (wikipedia, 2023),我们在此基础上进行了进一步的调整。我们将在 §1.1.2 中进一步讨论这些问题。

    此外,Huang 等人 (2023);Andreas (2022);Kim 等人 (2024) 证明,高级人工智能系统表现出目标追求和多步推理能力的模式,如果奖励定义不明确,这会进一步加剧这种情况 (Ngo 等人,2024;Yang 等人,2023)。讨论:在特定情况下,区分目标错误泛化和奖励黑客攻击可能具有挑战性。

    例如(Shah and Varma,2022),LLM 经过训练可以生成无害、诚实和有用的输出,但 LLM 偶尔会在细节上产生有害的输出,这些输出似乎在测试分布中获得的奖励较低(这可以看作是目标错误概括)。然而,在标记者被激励为在标记过程中被认为更有帮助的响应分配高奖励的情况下,上述场景 15 实际上会获得高奖励,并代表一种规范游戏(或奖励黑客攻击)。这两种情况之间的区别有时可能很模糊。

    需要进行更多研究来分析故障模式,更深入地了解奖励黑客攻击,并开发有效的方法来检测和减轻目标错误概括,以应对错位的高级 AI 系统的挑战。错位的行为和结果从错位机制中汲取灵感,针对非稳健代理进行优化可能会导致行为错位,从而可能导致更灾难性的后果。本节深入阐述了具体的错位行为(•),并介绍了我们所说的双刃组件(+)。这些组件旨在增强人工智能系统处理现实世界设置的能力,但也可能加剧错位问题。需要注意的是,其中一些双刃组件(+)仍是推测性的。尽管如此,在为时已晚之前讨论它们的潜在影响是至关重要的,因为从受控到不受控的高级人工智能系统的过渡可能只有一步之遥(Ngo,2020b)。随着模型规模的增加,一类危险能力(•)(Shevlane 等人,2023)也可能出现。危险能力(•)是人工智能系统可以执行的具体任务;它们本身不一定是错位的,但有助于实现极端风险。

    我们首先介绍双刃组件(+),并分析它们对人工智能系统的作用。然后,我们说明错位行为(•)和危险能力(*),以显示具体的错位问题并为未来的对齐评估研究提供方向。

  • 态势感知。人工智能系统可能能够有效地获取和使用有关其状态、其在更广泛环境中的位置、其影响该环境的途径以及世界(包括人类)对其行为的潜在反应的知识(Cotra,2022 年)。已经观察到了类似的行为LLM (Jonas DeGrave, 2022; Evan Hubinger, 2023)。了解情况可以帮助模型更好地理解人类意图,在能力范围内完成任务,并在需要时寻找异常帮助。然而,这样的知识也为奖励黑客的高级方法、增强的欺骗/操纵技能以及追逐工具子目标的倾向铺平了道路 (Ngo et al, 2024)。因此,在评估人工智能模型中潜在的危险能力时,应该优先考虑它,以及其他八项关键能力 (Shevlane et al, 2023)。一个高度相关的讨论是语言模型是否拥有世界模型 (LeCun, 2022; Li et al, 2022b)。
  • 范围广泛的目标。先进的人工智能系统有望制定跨越长期框架、处理复杂任务并在开放式环境中运行的目标 (Ngo et al, 2024)。进行广泛范围的规划可以使 AI 系统更好地在 OOD 设置上进行概括,并在人类医疗保健等领域充当有价值的助手。然而,它也可能带来鼓励操纵行为的风险(例如,AI 系统可能会采取一些不良行为来实现人类的幸福,例如说服他们从事高压工作 16 (Jacob Steinhardt, 2023))。直观地说,减轻这种风险的一种方法是将可优化的目标限制在短视的目标上,例如仅预测下一个单词,从而防止过于雄心勃勃的规划,但这种方法限制了系统的实用性并且可能会失败;例如,源文本数据(例如小说)可以帮助 AI 系统理解角色的意图和信念,从而可以引发长期目标导向行为(Andreas, 2022)。此外,诸如基于强化学习的微调 (Christiano 等人,2017;Ouyang 等人,2022) 或应用思路链提示 (Wei 等人,2022) 等技术可以使模型调整其获得的规划知识,为广泛范围的规划目标铺平道路 (Jacob Steinhardt,2023)。
  • Mesa 优化目标。当学习到的策略本身充当优化器 (即 mesa 优化器) 时,学习到的策略可能会追求内部目标。然而,这个优化器的目标可能与训练信号指定的目标不一致,而对这些不一致目标的优化可能会导致系统失控 (Hubinger 等人,2019c)。Freeman 等人 (2019);Wijmans 等人 (2023) 表明,人工智能系统可能拥有隐式目标导向规划,并在泛化阶段表现出突发能力。
  • 获取更多资源。未来的人工智能系统可能会访问网站并参与现实世界的行动,从而可能对世界产生更大的影响(Nakano 等人,2021 年)。它们可能会传播虚假信息、欺骗用户、破坏网络安全,在更严重的情况下,还会被恶意行为者用于不良目的。此外,它们对数据和资源的更多访问可能会促进自我扩散,带来生存风险(Shevlane 等人,2023 年)。
  • 权力追求行为。人工智能系统可能会表现出试图控制资源和人类的行为,然后施加这种控制以实现其指定目标(Carlsmith,2022 年)。这种行为可能发生的直观原因是,对于几乎任何优化目标(例如投资回报)​​,最大化该数量的最佳策略都会涉及权力追求行为(例如操纵市场),假设不存在坚实的安全和道德约束。Omohundro (2008);Bostrom (2012) 认为,权力追求是一种工具性子目标,对广泛的目标都有帮助,因此可能受到人工智能系统的青睐。Turner 等人 (2021) 还证明,在满足一些标准假设的 MDP 中,最佳策略往往是权力追求的。 Perez 等人 (2023) 提示 LLM 测试其暗示权力追求行为的倾向,发现此类倾向的显著水平,并表明 RLHF 会加强它们。这也适用于其他工具性子目标,例如自我保护 (Bostrom, 2012; Shevlane 等人, 2023)。另一个值得注意的研究方向是副作用避免,旨在通过惩罚对环境影响过大的代理系统来解决权力追求行为。它涵盖了 RL 系统 (Eysenbach 等人, 2018; Turner 等人, 2020) 和符号规划系统 (Klassen 等人, 2022)。
  • 不真实的输出。诸如 LLM 之类的 AI 系统可能会产生无意或故意不准确的输出。这种不真实的输出可能与既定资源不同或缺乏可验证性,通常被称为幻觉(Bang 等人,2023 年;Zhao 等人,2023 年)。更令人担忧的是,LLM 可能会选择性地向受教育程度较低的用户提供错误的答案 17(Perez 等人,2023 年)。这种行为(也称为谄媚)在规模上突然出现(Ajeya Cotra,2021 年;Perez 等人,2023),不真实的输出有可能导致欺骗,尤其是当先进的人工智能系统获得更多的在线资源和网站访问权限时 (Jacob Steinhardt, 2023)。
  • 欺骗性对齐和操纵。操纵和欺骗性对齐是一类利用人类评估者或用户的无能 (Hubinger et al, 2019a; Carranza et al, 2023) 甚至通过梯度黑客操纵训练过程 (Richard Ngo, 2022) 的行为。这些行为可能会使检测和解决不一致行为变得更加困难。

    欺骗性对齐:不一致的人工智能系统可能会故意误导其人类主管,而不是坚持预期的任务。这种欺骗行为已经体现在采用进化算法人工智能系统中 (Wilke et al, 2001; Hendrycks et al, 2021b)。在这些情况下,代理进化出了区分评估环境和训练环境的能力。它们在评估过程中采取了一种战略性的悲观反应方法,故意降低它们在调度程序中的再现率(Lehman 等人,2020 年)。此外,人工智能系统可能会采取表面上与奖励信号一致的故意行为,旨在最大限度地提高人类主管的奖励(Ouyang 等人,2022 年)。值得注意的是,当前的大型语言模型尽管有能力提供更准确的答案,但偶尔也会生成不准确或次优的响应(Lin 等人,2022c;Chen 等人,2021 年)。这些欺骗行为的例子带来了重大挑战。它们削弱了人类顾问提供可靠反馈的能力(因为人类无法确定人工智能模型的输出是否真实可信)。此外,这种欺骗行为会传播错误的信念和错误信息,污染在线信息源(Hendrycks 等人,2021b;Chen 和 Shu,2024)。

    操纵:先进的人工智能系统可以有效地影响个人的信念,即使这些信念与事实不一致(Shevlane 等人,2023)。这些系统可以产生欺骗性或不准确的输出,甚至欺骗人类顾问以达到欺骗性的一致。这样的系统甚至可以说服个人采取可能导致危险后果的行动(OpenAI,2023a)。

    这种行为的早期迹象已出现在 LLM、18 推荐系统(系统会影响用户的偏好)(Kalimeris 等人,2021 年;Krueger 等人,2020 年;Adomavicius 等人,2022 年)和 RL 代理(根据人类反馈训练的代理采用策略来欺骗人类评估者)(Amodei 等人,2017 年)中。此外,当前的 LLM 已经具备欺骗所需的能力。在 Spitale 等人(2023 年)的研究中,人们发现 GPT-3 是超人,能够产生令人信服的虚假信息。鉴于所有这些早期迹象,更先进的人工智能系统可能会表现出更严重的欺骗/操纵行为。

  • 集体有害行为。人工智能系统有可能采取一些在孤立情况下看似无害但在多智能体或社会背景下却会成为问题的行动。经典博弈论提供了理解这些行为的简单模型。例如,Phelps 和 Russell (2023) 评估了 GPT3.5 在迭代囚徒困境和其他社会困境中的表现,揭示了该模型合作能力的局限性。Perolat 等人 (2017) 执行了一项平行分析,重点关注公共池资源分配。为了缓解这些挑战,新兴的合作人工智能领域 (Dafoe 等人,2020 年,2021 年) 一直作为一个活跃的研究前沿不断发展。然而,除了基于简化博弈论框架的研究之外,迫切需要在更现实、更复杂的社会环境中进行研究 (Singh,2014 年)。在这些环境中,代理众多且多种多样,包括人工智能系统和人类参与者 (Critch and Krueger, 2020)。此外,由于存在调节人工智能行为的独特工具(例如社会制度和规范),这些环境的复杂性被放大 (Singh, 2014)。
  • 违反道德。人工智能系统中的不道德行为是指与公共利益相悖或违反道德标准的行为,例如对他人造成伤害的行为。这些不良行为通常源于在人工智能系统设计过程中忽略了基本的人类价值观或在系统中引入了不合适或过时的价值观 (Kenward and Sinclair, 2021)。此外,最近的研究发现,当前的 LLM 可以通过从推理过程中提供的背景中推断个人属性来侵犯个人隐私,这可能会侵犯人权 (Mireshghallah et al, 2024; Staab et al, 2024)。解决这些缺陷的研究工作涵盖了机器伦理领域(Yu 等人,2018 年;Winfield 等人,2019 年;Tolmeijer 等人,2020 年),并深入探讨了关键问题,例如,人工智能应该与谁保持一致?(Santurkar 等人,2023 年)等。
  • 危险能力。图 1 概述了高级人工智能系统可能具有的危险能力。随着人工智能系统在现实世界中的部署,它们可能以多种方式对社会构成风险(例如,黑客入侵计算机人工智能可能会破坏系统、逃避控制甚至违反伦理道德。它们可能会隐藏不良行为、欺骗人类监管者并寻求更多资源以变得更加强大。此外,双刃组件(+)可能会加剧危险并导致更危险的结果,甚至导致生存风险(Bostrom,2013)。

在这里插入图片描述
图 2:对齐循环。(1)前向对齐(对齐训练)根据对齐要求生成训练系统;(2)后向对齐(对齐细化)确保训练系统的实际对齐并修改对齐要求;(3)重复该循环,直到达到足够的对齐水平。值得注意的是,虽然后向对齐的最终目标是确保训练系统的实际对齐,但它在整个系统的生命周期中都是为了实现这一目标而进行的,包括训练之前、训练期间、训练后以及部署后(Shevlane 等人,2023 年;Koessler 和 Schuett,2023 年;Schuett 等人,2023 年)。

对齐的范围

    在本节中,我们重点说明人工智能对齐的范围:我们将对齐过程构建为一个对齐循环,并将其分解为前向对齐过程和后向对齐过程20(§1.2.1)。 具体来说,我们讨论了人类价值观在对齐中的作用(§1.2.3),并进一步分析了对齐之外的人工智能安全问题(§1.2.3)。

对齐循环:对齐框架

    我们将对齐分解为前向对齐(对齐训练)(§2、§3)和后向对齐(对齐细化)(§4、§5)。前向对齐旨在生成遵循对齐要求的训练系统。21 我们将这项任务分解为从反馈中学习(§2)和分布转移下的学习(§3)。后向对齐旨在通过在简单和现实环境中进行评估并设置监管护栏来处理现实世界的复杂性,从而确保训练系统的实际对齐。即保证(§4)。它还涵盖确保 AI 系统安全开发和部署的规则的制定和执行,即治理(§5)。同时,后向对齐根据对系统的评估和监控(包括部署前和部署后)更新对齐要求。然后,这些更新后的要求将为下一轮对齐训练提供信息。

    因此,前向对齐和后向对齐这两个阶段形成一个循环,每个阶段都会生成或更新下一阶段的输入(见图 2)。这个循环,我们称之为对齐循环,会重复进行以产生越来越对齐的 AI 系统。我们将对齐视为一个动态过程,其中应不断评估和更新所有标准和实践。值得注意的是,后向对齐(包括 AI 系统中的对齐保证和 AI 系统的治理)工作贯穿整个对齐周期,而不是仅在训练之后进行。正如 Shevlane 等人(2023 年)所论证的那样; Koessler 和 Schuett (2023) 认为,对齐和风险评估应在系统生命周期的每个阶段进行,包括前、中、训练后和部署后。

    同样,系统生命周期每个阶段的监管措施也已提出并讨论 (Schuett 等人,2023;Anderljung 等人,2023)。该调查围绕四个核心支柱展开:从反馈中学习 (§2) 和分布转变下的学习 (§3),它们构成了前向对齐的组成部分;保证 (§4) 和治理 (§5) 构成了后向对齐的要素。后面的段落对每个支柱进行了简要介绍,阐明了它们如何协同作用,为 AI 对齐的综合框架做出贡献。

  • 从反馈中学习 (§2) 从反馈中学习涉及在对齐训练期间,我们如何向训练后的 AI 系统的行为提供和使用反馈的问题?它以给定的输入-行为对为前提,只关注如何提供和使用对这一对的反馈。22 在 LLM 的背景下,一种典型的解决方案是从人类反馈中进行强化学习 (RLHF) (Christiano 等人,2017;Bai 等人,2022a),其中人类评估者通过比较聊天模型中的备选答案来提供反馈,并通过强化学习 (RL) 将反馈用于训练后的奖励模型。尽管 RLHF 很受欢迎,但它仍面临许多挑战 (Pandey 等人,2022;Casper 等人,2023b;Tien 等人,2022),克服这些挑战一直是对齐研究的主要目标 (Bowman 等人,2022),也是本节的主要重点之一。这里一个突出的挑战是可扩展的监督(§2.4),即对超人类能力的人工智能系统提供高质量的反馈,这些系统在人类评估者无法理解的复杂情况下运行,其中人工智能系统的行为可能不易被人类理解和评估(Bowman 等人,2022 年)。另一个挑战是提供道德反馈的问题,机器伦理学的方向正在解决这个问题(Anderson 和 Anderson,2011 年;Tolmeijer 等人,2020 年)。在道德方面,错位也可能源于忽视价值观差异的关键维度,例如在反馈数据中对某些人口群体的代表性不足(Santurkar 等人,2023 年)。也有研究将反馈机制与社会选择方法相结合,以产生更合理和公平的偏好聚合(集体智能项目,2023 年)(见§1.2.3)。
  • 分布偏移下的学习(§3)与保持输入固定的反馈学习不同,此支柱特别关注输入分布发生变化的情况,即发生分布偏移的情况(Krueger 等人,2020 年;Thulasidasan 等人,2021 年;Hendrycks 等人,2021a 年)。更具体地说,它关注的是分布偏移下对齐属性的保留(即遵守人类意图和价值观),而不是模型能力的保留。换句话说,它询问我们如何确保在训练分布上对齐的 AI 系统在部署到现实世界时也能对齐。与分布偏移相关的一个挑战是目标错误泛化,在训练分布下,AI 系统的预期目标(例如,遵循人类的真实意图)与其他不一致的目标(例如,不惜一切代价获得人类的认可)没有区别。系统学习后者,导致部署分布不一致的行为(Di Langosco 等人,2022 年)。另一个相关的挑战是自动诱导分布偏移 (ADS),其中 AI 系统会改变其输入分布以最大化奖励(Krueger 等人,2020 年;Perdomo 等人,2020 年)。一个例子是塑造用户偏好的推荐系统(Kalimeris 等人,2021 年;Adomavicius 等人,2022 年)。目标错误泛化和 ADS 都与 AI 系统中的欺骗行为(Park 等人,2023b)和操纵行为(Shevlane 等人,2023)密切相关,可能是其原因。解决分布偏移的干预措施包括算法干预(§3.2),它改变训练过程以提高其他分布下的可靠性,以及数据分布干预(§3.3),它扩展训练分布以减少训练和部署分布之间的差异。前者包括风险外推 (REx)(Krueger 等人,2021 年)和基于连通性的微调 (CBFT)(Lubana 等人,2023 年)等方法。后者包括对抗性训练(§3.3.1)(Song 等人,2018b;Bai 等人,2021 年),它增强了训练输入分布。
  • 保证(§4)一旦人工智能系统进行了前向调整,我们仍然需要在部署之前对其调整获得信心(英国政府,2021 年;Anderljung 等人,2023 年)。这就是保证的作用:评估训练有素的人工智能系统的调整情况。保证方法包括安全性评估(Perez 等人,2023 年;Shevlane 等人,2023 年)(§4.1)和更先进的方法,如可解释性技术(Olah 等人,2018 年)(§4.2)和红队(Perez 等人,2022 年)(§4.1.3)。保证的范围还包括验证系统是否与人类价值观保持一致,包括侧重于可证明的合作性(Dafoe 等人,2021 年)和道德性(Anderson 和 Anderson,2011 年;Tolmeijer 等人,2020 年)的形式理论,以及广泛的实证和实验方法(§4.3)。保证贯穿人工智能系统的整个生命周期,包括训练前、训练中、训练后和部署后,而不是仅在训练后进行(Shevlane 等人,2023 年;Koessler 和 Schuett,2023 年)。
  • 治理(§5)单靠保证无法完全确保系统的实际一致性,因为它没有考虑到现实世界的复杂性。这就需要人工智能系统的治理工作,重点是其一致性和安全性,并涵盖系统的整个生命周期(§5.1)。我们讨论了人工智能治理的多利益相关方方法,包括政府法规(Anderljung 等人,2023 年)、实验室自我治理(Schuett 等人,2023 年)和第三方实践,例如审计(Shevlane 等人,2023 年;Koessler 和 Schuett,2023 年)(§5.2)。我们还重点介绍了人工智能治理中的几个未解决的问题,包括开源治理的紧迫挑战(开源模型的治理以及是否开源高性能模型的问题)(Seger 等人,2023 年)以及国际协调在人工智能治理中的重要性(Ho 等人,2023 年)(§5.3)。除了政策研究外,我们还涵盖了公共和私营部门的关键行动。

    与内/外分解的比较 我们的对齐循环框架(见图 2)将对齐分解为四大支柱:从反馈中学习、分布转移下的学习、保证和治理,并组织成一个循环过程。该框架的设计原则有三点:实用(确保支柱直接对应于系统生命周期中特定阶段的具体实践)、具体(指向特定的研究方向而不是一般主题)和最新(容纳和强调对齐领域的最新发展)。最近,将对齐分解为外部对齐和内部对齐在对齐文献中变得流行起来(Hubinger et al, 2019b)。外部对齐是指设计人员根据用于构建 AI 系统的实际任务规范(例如目标和奖励)的意愿。而内部对齐是任务规范与 AI 系统行为反映的规范之间的一致性(Krakovna, 2022)。然而,对这种描述也提出了许多批评,包括它含糊不清,不同的人对它的理解不同(Perry,2020),并且它通过提出不是成功必要条件的问题而造成了不必要的困难(Turner,2022)。一些人试图通过确定内/外不一致的具体原因来消除歧义,并提出了例如目标错误指定和目标错误概括(Di Langosco 等人,2022;Krakovna,2022)。我们框架中的从反馈中学习(大致对应于目标错误指定和外部对齐)和在分布转变下学习(大致对应于目标错误概括和内部对齐)试图通过阐明应对挑战和解决歧义的具体方法来进一步改进内/外分解。另一方面,保证和治理将范围扩大到涵盖外部和内部对齐之外的主题。

    对齐的理论研究 对齐研究文献还包含大量理论工作(Amodei 等人,2016 年;Everitt 等人,2018 年;Hendrycks 等人,2021b 年)。这些工作经常提出新的方向,并为实践和实证研究提供基础。我们在下面简要概述了这部分理论研究:

  • 概念框架。一些理论工作提出了概念框架或描述了对齐中的子问题。例子包括工具收敛(其中高智能代理倾向于追求一组共同的子目标,例如自我保护和权力追求)(Omohundro,2008 年;Bostrom,2012 年)、mesa 优化(其中学习到的 ML 模型在推理过程中在自身内进行优化)(Hubinger 等人,2019c),以及构建对齐系统的具体建议,例如批准导向代理(其中人工智能系统不追求目标,而是寻求人类理想化的事后对行动后果的认可)(Oesterheld,2021;Christiano,2022)。Hadfield-Menell 和 Hadfield(2019);Cotra(2021)从经济学中汲取灵感,将市场协调问题与经济学中的委托代理问题联系起来。Christiano 等人(2021);Hobbhahn(2022)提出了引出高级人工智能系统潜在知识的问题,并探索了解决该问题的高级方法。
  • 数学公式。其他理论工作旨在以数学方式制定协调内的子问题并寻求正式解决方案。Soares 等人(2015)制定了可纠正性问题(即确保人工智能系统受到激励以允许讲师关闭或进行客观修改)。Benson-Tilsen 和 Soares (2016) 给出了工具收敛的数学公式。HadfieldMenell 等人 (2017a) 提出了关闭开关游戏来模拟人工智能代理的不可控性。Turner 等人 (2021) 证明了在某些假设下马尔可夫决策过程 (MDP) 中最优策略的权力寻求倾向。Everitt 和 Hutter (2016) 提出了价值强化学习来消除奖励黑客的动机 (Skalse 等人,2022;Pan 等人,2021)。另一条研究途径被指定为代理基础 (Soares 和 Fallenstein,2017),旨在为代理建立一个严格的正式框架,以适当地处理嵌入式代理的未解决的问题。这项工作探讨了各种关键主题,包括可纠正性(Soares 等人,2015 年)、价值学习(Soares,2018 年)和逻辑不确定性(Garrabrant 等人,2016 年)。

在这里插入图片描述
图 3:RICE 原则定义了一个协调系统应具备的四个关键特征(无特定顺序):(1)鲁棒性,即系统需要在各种环境中保证稳定性;(2)可解释性,即系统的运行和决策过程应清晰易懂;(3)可控性,即系统应受人类的指导和控制;(4)道德性,即系统应遵守社会规范和价值观。这四个原则指导人工智能系统与人类意图和价值观的协调。它们本身不是最终目标,而是服务于协调的中间目标。

RICE:对齐的目标

    我们如何构建符合人类意图和价值观的 AI 系统?对齐并没有一个普遍接受的定义。在开始讨论之前,我们必须明确对齐目标的含义。Leike 等人 (2018) 将其定义为代理对齐问题,提出以下问题:“我们如何创建按照用户意图行事的代理?” 人们还可以关注超人类 AI 系统 (OpenAI, 2023c) 并问:“我们如何确保比人类聪明得多的 AI 系统遵循人类意图?” 这些讨论中的一个一致主题是关注人类意图。为了明确定义对齐目标,必须准确描述人类意图,这是一项具有挑战性的任务,正如 Kenton 等人 (2021) 所指出的那样。例如,术语“人类”可以表示从个人到人类的各种实体。 Gabriel (2020) 将意图分为几类,例如指令(遵循我的直接命令)、表达的意图(按照我的潜在意愿行事)、显示偏好(反映我的行为偏好)等。

    具体来说,我们用四个原则来描述对齐的目标:鲁棒性、可解释性、可控制性和道德性(RICE)。图 3 总结了这些原则,表 1 给出了调查中涵盖的对齐研究方向与它们所贡献的原则之间的对应关系。以下是对这四个原则的详细解释。

  • 鲁棒性是指人工智能系统在不同场景(Dietterich,2017)或在对抗压力(Rudner and Toner,2021b)下运行时的弹性,尤其是其决策的正确性。除了能力之外,还要考虑目标。强大的人工智能系统应该能够应对黑天鹅事件(Nicholas,2008 年)和长尾风险(Hendrycks 等人,2021b),以及各种各样的对抗压力(Song 等人,2018b;Chakraborty 等人,2021 年)。例如,对齐的语言模型应该拒绝有害行为的请求,但可以通过越狱提示和其他对抗性攻击使模型造成伤害(Carlini 等人,2024 年;Zou 等人,2023b;Shah 等人,2023 年)。相反,即使面对旨在导致失败的输入,对抗性鲁棒模型也应该按预期行事。随着人工智能系统在军事和经济等高风险领域的部署越来越多(Steinhardt 和 Toner,2020 年),人们越来越需要确保它们能够抵御意外中断和对抗性攻击,因为即使是瞬间的故障也可能导致灾难性的后果(Kirilenko 等人,2017 年;OecdAI,2021 年;Rudner 和 Toner,2021b 年)。协调的系统应在整个生命周期内始终保持稳健性(Russell,2019 年)。
  • 可解释性要求我们能够理解人工智能系统的内部推理,尤其是不透明神经网络的内部工作原理(Räuker 等人,2023 年)。行为评估等简单的对齐评估方法可能会受到人工智能系统的不诚实行为(Turpin 等人,2024 年;Park 等人,2023b 年;Jacob Steinhardt,2023 年)或欺骗性对齐(Hubinger 等人,2019a 年;Carranza 等人,2023 年)的影响。解决此问题的一种方法是使人工智能系统诚实、不隐瞒、不操纵(Pacchiardi 等人,2024 年;Radhakrishnan 等人,2023 年;Shevlane 等人,2023 年)。或者,我们可以构建可解释性工具,以窥视神经网络内部的概念和机制(Elhage 等人,2021 年;Meng 等人,2022a 年)。除了支持安全评估之外,可解释性还使用户和利益相关者能够访问和理解决策过程,从而实现人类监督。随着人工智能系统在现实世界的决策过程和高风险环境中扮演着更关键的角色(Holzinger 等人,2017 年),揭开决策过程的神秘面纱变得势在必行,而不是让它成为一个不透明的黑匣子(DeepMind,2018 年;Rudner 和 Toner,2021a 年)。
  • 可控性是确保系统的行为和决策过程始终受到人类监督和干预的必要属性。它保证人类干预可以及时纠正系统行为中的任何偏差或错误(Soares 等人,2015 年;Hadfield-Menell 等人,2017 年)。随着人工智能技术的进步,越来越多的研究对这些强大系统的可控性表示担忧(Critch 和 Krueger,2020 年;UniteAI,2023 年;ARC Evals,2023 年)。当人工智能系统开始追求与其人类设计者相矛盾的目标时,它就会表现出带来重大风险的能力,包括欺骗、操纵和权力追求行为(Shevlane 等人,2023 年;ARC Evals,2023 年)。可控性的目标主要集中在实现训练过程中可扩展的人类监督(Bowman 等人,2022 年),以及人工智能系统的可纠正性(即在部署期间不抵制关闭或目标修改)(Soares 等人,2015 年)。 道德是指系统在决策和行动中坚定不移地致力于维护人类规范和价值观。这里的规范和价值观包括道德准则和其他社会规范/价值观。它确保系统避免违反道德规范或社会惯例的行为,例如对特定群体表现出偏见(Buolamwini 和 Gebru,2018 年;Zhang 等人,2018a;Noble,2018 年;Kearns 和 Roth,2019 年;Raji 等人,2020 年;Berk 等人,2021 年),对个人造成伤害(Hendrycks 等人,2020 年;Pan 等人,2023a),以及在汇总偏好时缺乏多样性或平等(集体智能项目,2023 年)。大量研究致力于为人工智能系统制定道德框架(Hagendorff,2020 年;Pankowska,2020 年)。强调向人工智能系统灌输道德原则对于其融入社会是必要的(Winfield 等人,2019 年)。

    将 RICE 原则与其替代方案进行比较,RICE 原则从人机协调与共存的角度对协调目标进行了简洁的总结。之前的一些研究已经提出了有关人工智能系统的指导方针。阿西莫夫三定律可以看作是对人机共存的最早探索,强调机器人应该造福人类以及实现这一目标的难度(Asimov,1942 年)。另一方面,FATE 原则(公平、责任、透明和道德)(Memarian 和 Doleck,2023 年)倾向于定义人工智能系统在人机共存生态系统中应具备的高级品质。我们希望从人类管理者和设计师的角度来回答人机共存问题,考虑需要采取哪些步骤来确保建造者的人工智能系统与人类的意图和价值观保持一致。此外,一些标准强调狭义的安全,例如 3H 标准(有益、诚实、无害)(Askell 等人,2021 年)和政府机构提案(白宫,2023 年)。我们旨在通过引入其他关键维度(包括可控性和稳健性)来扩展这些标准。

表 1:本研究涵盖的对齐研究方向与 RICE 原则之间的关系,列出了每个研究方向要实现的各自目标。实心圆圈代表主要目标,空心圆圈代表次要目标。
在这里插入图片描述

关于一致性边界的讨论

    在介绍了一致性的内在范围之后,在本节中,我们将进一步讨论人工智能安全与一致性之间的关系。实际上,人工智能一致性构成了人工智能安全问题的重要组成部分。在本节中,我们将深入探讨那些正好位于一致性边界上,但完全属于人工智能安全更广泛范畴的主题。我们对更广泛的人工智能安全问题的讨论将借鉴 Hendrycks 等人 (2023) 的研究。

    一致性中的人类价值观 将道德纳入我们的 RICE 原则标志着人类价值观在一致性中的关键作用。人工智能系统不仅应该与价值中立的人类偏好(例如人工智能系统执行任务的意图)保持一致,还应该与道德和伦理考虑保持一致。这些努力被称为价值一致性 (Gabriel, 2020; Gabriel and Ghazavi, 2021)。25 对人类价值观的考虑渗透到了一致性的所有部分——事实上,我们调查的所有四个部分都存在致力于人类价值观的一致性研究主题。因此,为了更全面地了解这些研究主题,我们先对它们进行概述,然后再深入研究每个部分的细节。

    我们将人类价值观的一致性研究分为三个主要主题:

  1. 道德和社会价值观,旨在教会人工智能系统明辨是非;
  2. 合作人工智能,旨在专门培养人工智能系统的合作行为;
  3. 解决社会复杂性,为多智能体和社会动态的建模提供工具。
  • 道德和社会价值观。人类价值观天生就具有很强的抽象性和不确定性。MacIntyre(2013)甚至指出,现代社会缺乏统一的价值标准,不同文化背景的人之间的价值观差异可能很大。这提出了一个重大挑战,即确定我们应该遵循哪些人类价值观。虽然普遍一致的人类价值观可能不存在,但仍有一些价值观反映在不同文化中。在下面的部分中,我们将从机器伦理、公平和社会心理学的跨文化价值观的角度讨论这些价值观。
  • 机器伦理:与许多将人工智能系统与人类偏好(包括价值观和价值观中立的偏好)相结合的研究不同,机器伦理特别关注向人工智能系统灌输适当的道德价值观(Yu 等人,2018 年;Winfield 等人,2019 年;Tolmeijer 等人,2020 年)。这项工作很早就开始于符号和统计人工智能系统的背景下(Anderson 等人,2005 年;Arkoudas 等人,2005 年;Anderson 和 Anderson,2007 年),后来扩展到包括大规模数据集(Hendrycks 等人,2020 年;Pan 等人,2023a)和基于深度学习/LLM 的方法(Jin 等人,2022a)。我们将在 §4.3.1 中介绍机器伦理的正式分支。
  • 公平:尽管存在争议(Verma 和 Rubin,2018 年;Saxena 等人,2019 年),但与其他人类价值观相比,公平的定义相对清晰。具体而言,公平是指不存在基于个人或群体固有或后天特征的偏见或偏袒(Mehrabi 等人,2021 年)。因此,人们对人工智能公平性进行了广泛的研究。这些方法包括减少训练前的数据偏差(d’Alessandro 等人,2017;Bellamy 等人,2018),尽量减少训练过程中引入的不公平现象(Berk 等人,2017),最后解决训练过程中未能成功学习到的不公平现象(Xu 等人,2018a)。
  • 社会心理学中的跨文化价值观:在社会心理学领域,许多研究集中于探索跨文化人类社区中存在的价值观集群,从而导致了各种跨文化价值观量表的发展。Allport-Vernon-Lindzey 价值体系(Allport,1955)认为,了解个人的哲学价值观是评估其信仰体系的重要基础。他们设计了一个包含六种主要价值观类型的价值量表,每种类型代表人们对生活各个方面的偏好和关注。Messick 和 McClintock(1968); McClintock和Van Avermaet(1982);Liebrand(1984);Van Lange等(1997)提出并改进了一种可量化的方法,即社会价值取向(SVO),以评估个体的社会价值倾向。它利用量化的方法来评估个体如何为自己和他人分配利益,反映其社会价值取向,如利他主义、个人主义等。在后续研究中,Murphy等(2011);Murphy和Ackermann(2014)引入了滑块测量法,该测量法可用于精确评估SVO值,该值是一个基于受试者对某些特定问题的选项的连续角度。Rokeach(1973)开发了一个包含36个价值观的价值观清单,其中18个终端价值观代表期望的最终状态,18个工具价值观表示实现这些最终状态的手段。 Schwartz(1992,1994)在20个不同的国家进行了全面的问卷调查,被称为“施瓦茨价值观调查”。这项研究确定了十种普遍认可的价值观,无论文化、语言或地点如何。这些研究都为确定人工智能应该遵循什么样的价值观奠定了坚实的理论基础。但它们受到研究历史背景的制约,可能无法在不同时代和文化中保持很强的普遍性。
  • 合作型人工智能。可以说,多智能体交互中最令人兴奋的方面是合作,而合作失败则是多智能体交互中最令人担忧的方面。作为人工智能合作失败的一个例子,2010 年的闪电崩盘导致 2 分钟内数万亿美元的市值暂时损失,部分原因是高频算法交易者之间的互动(Kirilenko 等人,2017 年)。因此,需要在类智能体人工智能系统及其运行的环境中实施确保合作的机制(Dafoe 等人,2021 年)。此类机制的高级设计原则和低级实现属于合作型人工智能的领域。此外,合作型人工智能还通过人工智能的视角研究人类合作以及人工智能如何帮助人类实现合作。更准确地说,Dafoe 等人(2020 年)将合作型人工智能研究分为四大主题:理解、沟通、承诺和机构。它们涵盖了从博弈论到机器学习再到社会科学等各个学科。本综述包括对合作人工智能的讨论,重点关注 §3.3.2 中的强化学习和 §4.3.1 中的博弈论。
  • 解决社会复杂性。道德要求本身就包含社会成分。“什么是道德”通常是在社会背景下定义的;因此,它在人工智能系统中的实施也需要考虑社会复杂性。Critch 和 Krueger (2020) 为许多此类研究课题提供了建议。一种研究途径侧重于社会系统的现实模拟,包括基于规则的基于代理的建模(Bonabeau,2002;De Marchi 和 Page,2014)、基于深度学习的模拟(Sert 等人,2020 年)以及包含 LLM 的模拟方法(Park 等人,2023a 年)。这些模拟方法可以服务于各种下游应用,从影响评估(Calvo 等人,2020 年;Fernandes 等人,2020 年)到多智能体社会学习(Critch 和 Krueger,2020 年)。另一方面,社会选择领域(Sen,1986 年;Arrow,2012 年)以及相关的计算社会选择领域(Brandt 等人,2016 年)旨在为不同人群中的偏好聚合提供数学和计算解决方案,以及其他目标。有人认为,类似的方法与基于人类偏好的对齐方法(例如 RLHF 和 §2 中介绍的大多数其他方法)相结合,可以补充这些方法,以保证公平地代表每个人的偏好(Leike,2023b;集体智能项目,2023 年)。这项提议已经进行了早期实验(Bakker 等人,2022 年;Köpf 等人,2024 年)。为了补充这种从人群中学习价值观的方法,也有人认为,人工智能系统中体现的价值观应该长期不断进步,而不是永久锁定(Kenward 和 Sinclair,2021 年),以便应对新出现的挑战,并成为面向未来的人,并应对道德领域中潜在的未知未知数。恶意使用恶意行为者可以故意使用人工智能造成伤害。犯罪分子已经使用深度伪造来进行诈骗和勒索(Cao 和 Baptista,2023 年)。随着人工智能系统开发出更危险的功能,滥用的威胁也越来越大。

    生物武器提供了一个令人担忧的例子,说明人工智能如何被恶意用于造成伤害。研究表明,大型语言模型可以提供有关合成大流行潜在病原体的详细分步说明(Soice 等人,2023 年)。除了传播有关如何制造生物武器的信息外,人工智能还可以帮助设计比现有疾病更致命、更具传染性的新病原体(Sandbrink,2023 年)。奥姆真理教(Danzig,2012 年)等恐怖组织已经试图制造生物武器以造成大规模破坏,而人工智能可以让小团体更容易制造生物武器并引发全球大流行。其他类型的恶意使用可能包括使用人工智能对关键基础设施发起网络攻击(Mirsky 等人,2023 年),或创建在人类控制之外生存和传播的自主代理(Bengio,2023 年)。随着人工智能系统中出现新的危险能力,需要进行彻底的评估以确定如何使用人工智能系统造成伤害。

    恶意使用可能不被视为一致性失败,因为当人工智能系统按照恶意用户的意图行事时,该系统将与其用户保持一致,但仍会对社会构成严重威胁。确保人工智能与公众利益保持一致的政策对于避免这种威胁至关重要。

    集体行动问题 许多人工智能开发人员都在竞相构建和部署强大的人工智能系统(Grant and Weise,2023 年)。这激励开发人员忽视安全并争先恐后地部署他们的人工智能系统。即使一位开发人员想要小心谨慎,他们也可能担心放慢速度来评估他们的系统并彻底投资新的安全功能可能会让他们的竞争对手超越他们(Armstrong 等人,2016 年)。这造成了一种社会困境,即理性追求自身利益的个体人工智能开发人员和机构可能会导致对每个人都不理想的结果。人工智能系统之间的竞争成功可能受进化动力学的支配,其中最强大和最自私的人工智能系统最有可能生存下来(Hendrycks,2023 年)。防止这些集体行动问题造成社会灾难可能需要国家和国际人工智能政策的干预,以确保所有人工智能开发人员都遵守共同的安全标准。

    从更广泛的角度看,恶意使用可以被视为人工智能系统与意图不纯的个人之间的有效协调,但与普遍持有的人类价值观并不一致。同时,集体行动问题可以被视为竞争的结果,导致开发人员忽视人工智能协调在确保模型安全方面的关键方面。从广义上讲,人工智能协调与人工智能安全之间的联系已逐渐变得更加紧密,导致界限逐渐模糊。


http://www.ppmy.cn/ops/142190.html

相关文章

Linux系统操作03|chmod、vim

上文: Linux系统操作02|基本命令-CSDN博客 目录 六、chmod:给文件设置权限 1、字母法 2、数字法(用的最多) 七、vim:代码编写和文本编辑 1、启动和退出 1️⃣启动 2️⃣退出 2、vim基本操作 六、chmod&#x…

前端 websocket

一、定义和基本概念 WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议。它使得客户端和服务器之间可以进行实时的、双向的数据传输。与传统的 HTTP 请求-响应模式不同,WebSocket 允许服务器主动向客户端推送数据,而不需要客户端先发起请求。这为…

【JavaWeb后端学习笔记】Redis常用命令以及Java客户端操作Redis

redis 1、redis安装与启动服务2、redis数据类型3、redis常用命令3.1 字符串String3.2 哈希Hash3.3 列表List3.4 集合Set(无序)3.5 有序集合zset3.6 通用命令 4、使用Java操作Redis4.1 环境准备4.2 Java操作字符串String4.3 Java操作哈希Hash4.4 Java操作…

【Linux】Ubuntu:安装系统后配置

hostname:更改主机名 打开终端。 使用hostnamectl命令更改主机名。 sudo hostnamectl set-hostname 新的主机名你可以使用hostnamectl 命令来验证更改是否成功: hostnamectlChrome:更换默认浏览器 以下是从 Ubuntu 中移除预装的 Snap 版 Fi…

使用BMFont创建适用于Unity的艺术字

最近经常使用艺术字,虽然之前的工作经验我知道只需要修什么哪些就可以弄好艺术字的创建和间隔,所以打算做个总结,接下来分为以下几步(其中会有补充,最后会有如何解决unity艺术字的字距问题) 第1步 下载BMF…

【人工智能-中级】卷积神经网络(CNN)的中阶应用:从图像分类到目标检测

文章目录 卷积神经网络(CNN)的中阶应用:从图像分类到目标检测1. 图像分类:CNN的基础应用CNN结构概述经典网络架构2. 目标检测:从分类到定位基于区域的目标检测方法单阶段目标检测方法边界框回归与NMS(Non-Maximum Suppression)3. 深度学习中的目标检测挑战与解决方案4. …

数组专题leetcode

链表适合插入、删除,时间复杂度 O(1) 数组是适合查找操作,但是查找的时间复杂度并不为 O(1)。即便是排好序的数组,你用二分查找,时间复杂度也是 O(logn) 数组:内存连续的存储相同类型 【数组插入】: 如果在数组的末…

Android中bindService和startService启动服务有何区别

Android中bindService和startService启动服务有何区别 bindService 和 startService 是 Android 中两种用于与 Service 交互的方式,它们的区别主要在于 生命周期管理 和 使用场景。以下是详细对比: 1. bindService方式 bindService 是一种绑定方式&am…