大家读完觉得有帮助记得关注和点赞!!!
抽象
深度残差网络 (ResNets) 在计算机视觉任务中取得了巨大的成功,这归因于它们能够保持通过深度架构的梯度流。同时,控制神经网络中的 Lipschitz 绑定已成为增强对抗鲁棒性和网络可验证性的重要研究领域。本文采用严格的设计方法ℒ- 使用线性矩阵不等式 (LMI) 框架的 Lipschitz 深度残差网络。ResNet 架构被重新表述为具有非对角线元素的伪三对角线 LMI,并衍生出对网络参数的封闭形式约束,以确保ℒ-Lipschitz 连续性。为了解决此类矩阵结构缺乏显式特征值计算的问题,采用了 Gershgorin 圆定理来近似特征值位置,从而保证了 LMI 的负半定性。我们的贡献包括用于构建 Lipschitz 约束网络的可证明参数化方法,以及用于在分层架构中管理递归系统的组合框架。这些发现使适用于对抗性鲁棒性、认证训练和控制系统的稳健网络设计成为可能。然而,在基于 Gershgorin 的近似中发现了一个限制,它过度约束了系统,抑制了非线性动力学并降低了网络的表达能力。
索引术语:
线性矩阵不等式、Lipschitz 连续性、深度残差网络、对抗鲁棒性、Gershgorin 圆定理、半定规划我介绍
深度神经网络 (DNN) 的鲁棒性是一项关键挑战,主要是在应用于安全敏感型领域时,在这些领域中,小的对抗性扰动可能导致危险情况,例如重要对象的错误分类。解决此问题的一种方法是对网络架构实施 Lipschitz 约束。这些约束保证 input 中的微小变化不会导致 output 发生重大变化。此属性对于证明对抗性攻击的稳健性至关重要,对抗性攻击涉及引入轻微的噪声来修改预期的分类输出结果[1,2].Lipschitz 常数是限制网络对输入扰动的敏感度的关键度量。具体来说,ℒ- 理论上可以保证 Lipschitz 网络在每个输入周围定义的“稳定球”内保持稳定,使其能够抵抗高达一定幅度的对抗性攻击[3].
为了实现这一点,已经提出了几种方法对神经网络实施 Lipschitz 约束,包括谱归一化[4,5]、正交参数化[6],以及最近的方法,如凸势层 (CPL) 和几乎正交层 (AOL)[7,6].以前的工作已被证明是在统一的半确定性编程架构下制定的,该架构具有作为 LMI 的网络约束[8].然而,由于其递归结构,确保深度架构中的 Lipschitz 约束,尤其是残差网络 (ResNets),带来了独特的挑战。虽然之前的工作在限制单个层方面取得了长足的进步[8,9]并生成统一的半定规划方法,广义深度残差网络公式在其施加的 LMI 的伪三对角线结构中提出了问题。
此外,多层通用前馈神经网络 (FNN) 已被证明可以生成块三对角矩阵 LMi 公式[10]由于它们固有的网络结构,与残差公式相反,可以产生显式解[11,12].然而,由于网络的非对角线结构,直接应用精确的特征值计算是不可行的,这使得求解过程明显更加复杂。
以前的工作还展示了一种迭代方法,该方法利用投影梯度下降优化或估计的 Lipschitz 常数的正则化项来确保对 Lipschitz 约束的约束[13,14,15].虽然这保证了 Lipschitz 约束的迭代执行,但它并不能确保在这种收敛之前在整个网络中实现理论上的 Lipschitz 保证。但是,这种技术的优点是其通用性,这允许使用更通用的网络结构。
I-A贡献
本文介绍了将深度残差网络的公式化为线性矩阵不等式 (LMI)。它对网络参数推导出闭式约束,以确保理论ℒ-Lipschitz 约束。LMI 被构造为具有非对角线分量的三对角矩阵,这本质上使封闭式特征值计算的推导复杂化。为了解决这一限制,采用了 Gershgorin 圆定理来近似特征值位置。Gershgorin 圆能够推导出封闭式约束,从而保证 LMI 的负半定性。
第二LMI 配方
跟踪[8],他们将 Lipschitz 神经网络定义为约束 LMI 问题以定义残差网络,从而确定了他们方法的局限性。具体来说,他们的公式导致了单层残差网络,与 ResNet 及其变体等架构推广的广义深层残差网络相比,它本质上的表达能力较低[16,17,18,19,20].由于组成模块的多个内层,这些更深的网络表现得更好,这允许更复杂的潜在空间转换,从而提高网络的表现力。本研究的重点是建立内层的约束条件,以维护ℒ-Lipschitz 条件,同时最大限度地提高较大内层残差网络的表现力。因此,残差网络的内层表示为线性方程的递归系统:
其中,每个图层参数定义为Cl∈ℝdl×dl−1,bl∈ℝdl为l∈{1,⋯,n}.什么时候n=1,将公式简化为[8],使其在派生中变得多余。LMI 的目标是保持 Lipschitz 约束,公式化为‖xk+1′−xk+1‖≤ℒ‖xk′−xk‖.
鉴于该系统可以表示为一个大型递归系统,可以将内层的所有约束拆分为一组 LMI 条件,类似于[8,10,21].对于最通用的 LMI 约束定义,假设激活函数不一定是 ReLU 函数,而是一般的元素激活函数,即L-smooth 和m-强凸,其中L我≥m我.因此,使用了一般的激活函数二次约束[8,10]:
哪里Λn必须是正确定对角矩阵。鉴于vk−vk′=Cn(wk,n−1−wk,n−1′)因此,不等式变为以下二次约束,其中Δwk,我定义为Δwk,我=wk,我′−wk,我,
为了组合 LMI,需要所有wk,n和xk的创建是为了将所有条件相加并一起解决它们。因此,下面的 LMI 可以表述为等式 (4) 中的求和。
哪里
此外我和j分别表示 row 和 column。这Elmatrix 表示一个 “selection” 向量,以确保使用正确的变量进行参数化。这在方程 (7) 中给出了以下结果 LMI。
那么问题就变成了{Λ1,⋯,Λn},{C1,⋯,Cn}和B需要确保 LMI 确实是负半确定的,以满足 Lipschitz 约束,理想情况下{C1,⋯,Cn}将尽可能不受约束,以确保富有表现力的内层。从 LMI 中可以注意到,根据网络的特征值显式推导出网络的约束非常复杂。因此,尽管它只提供了特征值的松散边界,但 Gershgorin 圆定理可用于推导网络上的边界。
定理 II.1.
让一个成为复杂矩阵n×nmatrix, 带条目一个我j.为我∈{1,⋯,n}让R我是我-第 ROW
让D(一个我我,R我)⊆ℂ是一个以一个我我带半径R我,则一个位于至少一个 Gershgorin 圆盘内D(一个我我,R我).
因此,推导出以下推论以生成确保 LMI 为负半确定的条件。
推论 1.
如果矩阵的所有 Gershgorin 圆盘一个定义在负实平面中,ℝ−为我∈{1,⋯,n} 再{(一个我我+R我)}≤0,然后输入矩阵一个必须为负数半确定性。
确保整体 LMI 矩阵所需的条件M是负半定的,是通过分析其 Gershgorin 圆盘得出的。分析需要证明所有 Gershgorin 圆盘都完全包含在左半平面内,确保M均为非阳性。给定 LMI 的结构,矩阵可以分解为三个不同的部分:第一个块、中间块和最后一个块。对于每个模块,确定了对所需参数的相应约束集,以确保问题的可行性。
由于 LMI 矩阵是对称的,因此从行中得出的 Gershgorin 圆盘与从列中得出的 Gershgorin 圆盘一致。这种对称性允许从任一角度进行等效分析,而不会失去通用性。
第三通用 LMI 解决方案
对于表示法,参数S一个和P一个定义为S一个=L一个+m一个和P一个=L一个m一个以帮助减小符号大小。
III-A 系列最后一个块
以下是 LMI 最后一个块部分中定义的参数的约束的推导。
定理 III.1.
对于参数Cn,则行的范数必须以
而λn,我必须下界为 ,
证明。
最终的矩阵行块通过参数表示,其中l=n:
这给了以下 Gershgorin 光盘∀我{1,⋯,mn}(其中mx=mn):
因此,上限约束为:
应用负半定义约束,导出以下约束:
鉴于这一切λn,我必须是 positive defic,确保这一点的唯一方法是确保: