L-Lipschitz Gershgorin ResNet 网络

大家读完觉得有帮助记得关注和点赞！！！

抽象

深度残差网络（ResNets）在计算机视觉任务中取得了巨大的成功，这归因于它们能够保持通过深度架构的梯度流。同时，控制神经网络中的 Lipschitz 绑定已成为增强对抗鲁棒性和网络可验证性的重要研究领域。本文采用严格的设计方法ℒ- 使用线性矩阵不等式（LMI）框架的 Lipschitz 深度残差网络。ResNet 架构被重新表述为具有非对角线元素的伪三对角线 LMI，并衍生出对网络参数的封闭形式约束，以确保ℒ-Lipschitz 连续性。为了解决此类矩阵结构缺乏显式特征值计算的问题，采用了 Gershgorin 圆定理来近似特征值位置，从而保证了 LMI 的负半定性。我们的贡献包括用于构建 Lipschitz 约束网络的可证明参数化方法，以及用于在分层架构中管理递归系统的组合框架。这些发现使适用于对抗性鲁棒性、认证训练和控制系统的稳健网络设计成为可能。然而，在基于 Gershgorin 的近似中发现了一个限制，它过度约束了系统，抑制了非线性动力学并降低了网络的表达能力。

索引术语：

线性矩阵不等式、Lipschitz 连续性、深度残差网络、对抗鲁棒性、Gershgorin 圆定理、半定规划

我介绍

深度神经网络（DNN）的鲁棒性是一项关键挑战，主要是在应用于安全敏感型领域时，在这些领域中，小的对抗性扰动可能导致危险情况，例如重要对象的错误分类。解决此问题的一种方法是对网络架构实施 Lipschitz 约束。这些约束保证 input 中的微小变化不会导致 output 发生重大变化。此属性对于证明对抗性攻击的稳健性至关重要，对抗性攻击涉及引入轻微的噪声来修改预期的分类输出结果[1,2].Lipschitz 常数是限制网络对输入扰动的敏感度的关键度量。具体来说，ℒ- 理论上可以保证 Lipschitz 网络在每个输入周围定义的“稳定球”内保持稳定，使其能够抵抗高达一定幅度的对抗性攻击[3].

为了实现这一点，已经提出了几种方法对神经网络实施 Lipschitz 约束，包括谱归一化[4,5]、正交参数化[6]，以及最近的方法，如凸势层（CPL）和几乎正交层（AOL）[7,6].以前的工作已被证明是在统一的半确定性编程架构下制定的，该架构具有作为 LMI 的网络约束[8].然而，由于其递归结构，确保深度架构中的 Lipschitz 约束，尤其是残差网络（ResNets），带来了独特的挑战。虽然之前的工作在限制单个层方面取得了长足的进步[8,9]并生成统一的半定规划方法，广义深度残差网络公式在其施加的 LMI 的伪三对角线结构中提出了问题。

此外，多层通用前馈神经网络（FNN）已被证明可以生成块三对角矩阵 LMi 公式[10]由于它们固有的网络结构，与残差公式相反，可以产生显式解[11,12].然而，由于网络的非对角线结构，直接应用精确的特征值计算是不可行的，这使得求解过程明显更加复杂。

以前的工作还展示了一种迭代方法，该方法利用投影梯度下降优化或估计的 Lipschitz 常数的正则化项来确保对 Lipschitz 约束的约束[13,14,15].虽然这保证了 Lipschitz 约束的迭代执行，但它并不能确保在这种收敛之前在整个网络中实现理论上的 Lipschitz 保证。但是，这种技术的优点是其通用性，这允许使用更通用的网络结构。

I-A贡献

本文介绍了将深度残差网络的公式化为线性矩阵不等式（LMI）。它对网络参数推导出闭式约束，以确保理论ℒ-Lipschitz 约束。LMI 被构造为具有非对角线分量的三对角矩阵，这本质上使封闭式特征值计算的推导复杂化。为了解决这一限制，采用了 Gershgorin 圆定理来近似特征值位置。Gershgorin 圆能够推导出封闭式约束，从而保证 LMI 的负半定性。

此外，本文还证明了 Gershgorin 圆定理在这种情况下的一个重大局限性：推导的近似值导致系统过度约束，有效地抑制了网络的非线性分量。反过来，这使得网络充当简单的线性转换。

此外，虽然[8]的工作为残差网络生成了一个闭式解，它仅限于考虑单个内层。相比之下，本文提出了一个更通用的公式，它在残差网络系统中容纳了一个更具表现力的内层系统，提供了更大的灵活性和更广泛的适用性。

第二LMI 配方

跟踪[8]，他们将 Lipschitz 神经网络定义为约束 LMI 问题以定义残差网络，从而确定了他们方法的局限性。具体来说，他们的公式导致了单层残差网络，与 ResNet 及其变体等架构推广的广义深层残差网络相比，它本质上的表达能力较低[16,17,18,19,20].由于组成模块的多个内层，这些更深的网络表现得更好，这允许更复杂的潜在空间转换，从而提高网络的表现力。本研究的重点是建立内层的约束条件，以维护ℒ-Lipschitz 条件，同时最大限度地提高较大内层残差网络的表现力。因此，残差网络的内层表示为线性方程的递归系统：

其中，每个图层参数定义为Cl∈ℝdl×dl−1,bl∈ℝdl为l∈{1,⋯,n}.什么时候n=1，将公式简化为[8]，使其在派生中变得多余。LMI 的目标是保持 Lipschitz 约束，公式化为‖xk+1′−xk+1‖≤ℒ⁢‖xk′−xk‖.

鉴于该系统可以表示为一个大型递归系统，可以将内层的所有约束拆分为一组 LMI 条件，类似于[8,10,21].对于最通用的 LMI 约束定义，假设激活函数不一定是 ReLU 函数，而是一般的元素激活函数，即L-smooth 和m-强凸，其中L我≥m我.因此，使用了一般的激活函数二次约束[8,10]:

哪里Λn必须是正确定对角矩阵。鉴于vk−vk′=Cn⁢(wk,n−1−wk,n−1′)因此，不等式变为以下二次约束，其中Δ⁢wk,我定义为Δ⁢wk,我=wk,我′−wk,我,

为了组合 LMI，需要所有wk,n和xk的创建是为了将所有条件相加并一起解决它们。因此，下面的 LMI 可以表述为等式（4）中的求和。

哪里

此外我和j分别表示 row 和 column。这Elmatrix 表示一个 “selection” 向量，以确保使用正确的变量进行参数化。这在方程（7）中给出了以下结果 LMI。

那么问题就变成了{Λ1,⋯,Λn},{C1,⋯,Cn}和B需要确保 LMI 确实是负半确定的，以满足 Lipschitz 约束，理想情况下{C1,⋯,Cn}将尽可能不受约束，以确保富有表现力的内层。从 LMI 中可以注意到，根据网络的特征值显式推导出网络的约束非常复杂。因此，尽管它只提供了特征值的松散边界，但 Gershgorin 圆定理可用于推导网络上的边界。

定理 II.1.

让一个成为复杂矩阵n×nmatrix，带条目一个我⁢j.为我∈{1,⋯,n}让R我是我-第 ROW

让D⁢(一个我⁢我,R我)⊆ℂ是一个以一个我⁢我带半径R我，则一个位于至少一个 Gershgorin 圆盘内D⁢(一个我⁢我,R我).

因此，推导出以下推论以生成确保 LMI 为负半确定的条件。

推论 1.

如果矩阵的所有 Gershgorin 圆盘一个定义在负实平面中，ℝ−为我∈{1,⋯,n} 再⁡{(一个我⁢我+R我)}≤0，然后输入矩阵一个必须为负数半确定性。

确保整体 LMI 矩阵所需的条件M是负半定的，是通过分析其 Gershgorin 圆盘得出的。分析需要证明所有 Gershgorin 圆盘都完全包含在左半平面内，确保M均为非阳性。给定 LMI 的结构，矩阵可以分解为三个不同的部分：第一个块、中间块和最后一个块。对于每个模块，确定了对所需参数的相应约束集，以确保问题的可行性。

由于 LMI 矩阵是对称的，因此从行中得出的 Gershgorin 圆盘与从列中得出的 Gershgorin 圆盘一致。这种对称性允许从任一角度进行等效分析，而不会失去通用性。