L-Lipschitz Gershgorin ResNet 网络

devtools/2025/3/5 0:33:41/

大家读完觉得有帮助记得关注和点赞!!!

抽象

深度残差网络 (ResNets) 在计算机视觉任务中取得了巨大的成功,这归因于它们能够保持通过深度架构的梯度流。同时,控制神经网络中的 Lipschitz 绑定已成为增强对抗鲁棒性和网络可验证性的重要研究领域。本文采用严格的设计方法ℒ- 使用线性矩阵不等式 (LMI) 框架的 Lipschitz 深度残差网络。ResNet 架构被重新表述为具有非对角线元素的伪三对角线 LMI,并衍生出对网络参数的封闭形式约束,以确保ℒ-Lipschitz 连续性。为了解决此类矩阵结构缺乏显式特征值计算的问题,采用了 Gershgorin 圆定理来近似特征值位置,从而保证了 LMI 的负半定性。我们的贡献包括用于构建 Lipschitz 约束网络的可证明参数化方法,以及用于在分层架构中管理递归系统的组合框架。这些发现使适用于对抗性鲁棒性、认证训练和控制系统的稳健网络设计成为可能。然而,在基于 Gershgorin 的近似中发现了一个限制,它过度约束了系统,抑制了非线性动力学并降低了网络的表达能力。

索引术语:
 线性矩阵不等式、Lipschitz 连续性、深度残差网络、对抗鲁棒性、Gershgorin 圆定理、半定规划

我介绍

深度神经网络 (DNN) 的鲁棒性是一项关键挑战,主要是在应用于安全敏感型领域时,在这些领域中,小的对抗性扰动可能导致危险情况,例如重要对象的错误分类。解决此问题的一种方法是对网络架构实施 Lipschitz 约束。这些约束保证 input 中的微小变化不会导致 output 发生重大变化。此属性对于证明对抗性攻击的稳健性至关重要,对抗性攻击涉及引入轻微的噪声来修改预期的分类输出结果[1,2].Lipschitz 常数是限制网络对输入扰动的敏感度的关键度量。具体来说,ℒ- 理论上可以保证 Lipschitz 网络在每个输入周围定义的“稳定球”内保持稳定,使其能够抵抗高达一定幅度的对抗性攻击[3].

为了实现这一点,已经提出了几种方法对神经网络实施 Lipschitz 约束,包括谱归一化[4,5]、正交参数化[6],以及最近的方法,如凸势层 (CPL) 和几乎正交层 (AOL)[7,6].以前的工作已被证明是在统一的半确定性编程架构下制定的,该架构具有作为 LMI 的网络约束[8].然而,由于其递归结构,确保深度架构中的 Lipschitz 约束,尤其是残差网络 (ResNets),带来了独特的挑战。虽然之前的工作在限制单个层方面取得了长足的进步[8,9]并生成统一的半定规划方法,广义深度残差网络公式在其施加的 LMI 的伪三对角线结构中提出了问题。

此外,多层通用前馈神经网络 (FNN) 已被证明可以生成块三对角矩阵 LMi 公式[10]由于它们固有的网络结构,与残差公式相反,可以产生显式解[11,12].然而,由于网络的非对角线结构,直接应用精确的特征值计算是不可行的,这使得求解过程明显更加复杂。

以前的工作还展示了一种迭代方法,该方法利用投影梯度下降优化或估计的 Lipschitz 常数的正则化项来确保对 Lipschitz 约束的约束[13,14,15].虽然这保证了 Lipschitz 约束的迭代执行,但它并不能确保在这种收敛之前在整个网络中实现理论上的 Lipschitz 保证。但是,这种技术的优点是其通用性,这允许使用更通用的网络结构。

I-A贡献

本文介绍了将深度残差网络的公式化为线性矩阵不等式 (LMI)。它对网络参数推导出闭式约束,以确保理论ℒ-Lipschitz 约束。LMI 被构造为具有非对角线分量的三对角矩阵,这本质上使封闭式特征值计算的推导复杂化。为了解决这一限制,采用了 Gershgorin 圆定理来近似特征值位置。Gershgorin 圆能够推导出封闭式约束,从而保证 LMI 的负半定性。

此外,本文还证明了 Gershgorin 圆定理在这种情况下的一个重大局限性:推导的近似值导致系统过度约束,有效地抑制了网络的非线性分量。反过来,这使得网络充当简单的线性转换。

此外,虽然[8]的工作为残差网络生成了一个闭式解,它仅限于考虑单个内层。相比之下,本文提出了一个更通用的公式,它在残差网络系统中容纳了一个更具表现力的内层系统,提供了更大的灵活性和更广泛的适用性。

第二LMI 配方

跟踪[8],他们将 Lipschitz 神经网络定义为约束 LMI 问题以定义残差网络,从而确定了他们方法的局限性。具体来说,他们的公式导致了单层残差网络,与 ResNet 及其变体等架构推广的广义深层残差网络相比,它本质上的表达能力较低[16,17,18,19,20].由于组成模块的多个内层,这些更深的网络表现得更好,这允许更复杂的潜在空间转换,从而提高网络的表现力。本研究的重点是建立内层的约束条件,以维护ℒ-Lipschitz 条件,同时最大限度地提高较大内层残差网络的表现力。因此,残差网络的内层表示为线性方程的递归系统:

其中,每个图层参数定义为Cl∈ℝdl×dl−1,bl∈ℝdl为l∈{1,⋯,n}.什么时候n=1,将公式简化为[8],使其在派生中变得多余。LMI 的目标是保持 Lipschitz 约束,公式化为‖xk+1′−xk+1‖≤ℒ⁢‖xk′−xk‖.

鉴于该系统可以表示为一个大型递归系统,可以将内层的所有约束拆分为一组 LMI 条件,类似于[8,10,21].对于最通用的 LMI 约束定义,假设激活函数不一定是 ReLU 函数,而是一般的元素激活函数,即L-smooth 和m-强凸,其中L我≥m我.因此,使用了一般的激活函数二次约束[8,10]:

哪里Λn必须是正确定对角矩阵。鉴于vk−vk′=Cn⁢(wk,n−1−wk,n−1′)因此,不等式变为以下二次约束,其中Δ⁢wk,我定义为Δ⁢wk,我=wk,我′−wk,我,


 

为了组合 LMI,需要所有wk,n和xk的创建是为了将所有条件相加并一起解决它们。因此,下面的 LMI 可以表述为等式 (4) 中的求和。

哪里

此外我和j分别表示 row 和 column。这Elmatrix 表示一个 “selection” 向量,以确保使用正确的变量进行参数化。这在方程 (7) 中给出了以下结果 LMI。

那么问题就变成了{Λ1,⋯,Λn},{C1,⋯,Cn}和B需要确保 LMI 确实是负半确定的,以满足 Lipschitz 约束,理想情况下{C1,⋯,Cn}将尽可能不受约束,以确保富有表现力的内层。从 LMI 中可以注意到,根据网络的特征值显式推导出网络的约束非常复杂。因此,尽管它只提供了特征值的松散边界,但 Gershgorin 圆定理可用于推导网络上的边界。

定理 II.1.

让一个成为复杂矩阵n×nmatrix, 带条目一个我⁢j.为我∈{1,⋯,n}让R我是我-第 ROW


让D⁢(一个我⁢我,R我)⊆ℂ是一个以一个我⁢我带半径R我,则一个位于至少一个 Gershgorin 圆盘内D⁢(一个我⁢我,R我).

因此,推导出以下推论以生成确保 LMI 为负半确定的条件。

推论 1.

如果矩阵的所有 Gershgorin 圆盘一个定义在负实平面中,ℝ−为我∈{1,⋯,n} 再⁡{(一个我⁢我+R我)}≤0,然后输入矩阵一个必须为负数半确定性。

确保整体 LMI 矩阵所需的条件M是负半定的,是通过分析其 Gershgorin 圆盘得出的。分析需要证明所有 Gershgorin 圆盘都完全包含在左半平面内,确保M均为非阳性。给定 LMI 的结构,矩阵可以分解为三个不同的部分:第一个块、中间块和最后一个块。对于每个模块,确定了对所需参数的相应约束集,以确保问题的可行性。

由于 LMI 矩阵是对称的,因此从行中得出的 Gershgorin 圆盘与从列中得出的 Gershgorin 圆盘一致。这种对称性允许从任一角度进行等效分析,而不会失去通用性。

第三通用 LMI 解决方案

对于表示法,参数S一个和P一个定义为S一个=L一个+m一个和P一个=L一个⁢m一个以帮助减小符号大小。

III-A 系列最后一个块

以下是 LMI 最后一个块部分中定义的参数的约束的推导。

定理 III.1.

对于参数Cn,则行的范数必须以


而λn,我必须下界为 ,

证明。

最终的矩阵行块通过参数表示,其中l=n:

这给了以下 Gershgorin 光盘∀我⁢{1,⋯,mn}(其中mx=mn):

因此,上限约束为:


应用负半定义约束,导出以下约束:

鉴于这一切λn,我必须是 positive defic,确保这一点的唯一方法是确保:


http://www.ppmy.cn/devtools/164604.html

相关文章

[密码学实战]Java生成SM2根证书及用户证书

前言 在国密算法体系中,SM2是基于椭圆曲线密码(ECC)的非对称加密算法,广泛应用于数字证书、签名验签等场景。本文将结合代码实现,详细讲解如何通过Java生成SM2根证书及用户证书,并深入分析其核心原理。 一、证书验证 1.代码运行结果 2.根证书验证 3.用户证书验证 二、…

算法系列之动态规划

动态规划(Dynamic Programming,简称DP)是一种用于解决复杂问题的算法设计技术。它通过将问题分解为更小的子问题,并存储这些子问题的解来避免重复计算,从而提高算法的效率。本文将介绍动态规划的基本概念、适用场景、复…

计算机网络 (第一章)

第一章 计算机网络 概述 1. 定义: 计算机网络主要是由一些通用的、可编程的硬件互连而成的,而这些硬件并非专门用来实现某一特定目的(例如,传送数据或视频信号).这些可编程的硬件能够用来传送多种不同类型的数据,并能支持广泛的和日益增长的…

实战-使用 Playbook 批量部署多台 LAMP 环境

实战-使用 Playbook 批量部署多台 LAMP 环境 playbooks 使用步骤 playbook 是一个不同于使用 ansible 命令行执行方式的模式,功能更强大更灵活。 1、在 playbooks 中定义任务: - name: task description #任务描述信息 module_name: modul…

Google chrome拦截某些下载内容

现在越来越多的单位和个人都开始使用Google chrome了,本人也觉得chrome浏览器很好用,页面加载速度极快,能快速呈现网页内容,提升浏览效率。扩展程序丰富,涵盖办公、学习、娱乐、开发等众多领域,可满足各种个…

CogFindCircleTool工具

CogFindCircleTool是专门用于在工业图像中自动检测圆形或圆弧的特征,它通过分析图像中的边缘信息,拟合出最优的圆形集合参数(如圆心坐标、半径),常用于精密测量、定位或质量控制等场景。 效果图: CogFindCircleTool工具功能 圆…

PHP面试题--后端部分

本文章持续更新内容 之前没来得及整理时间问题导致每次都得找和重新背 这次整理下也方便各位小伙伴一起更轻松的一起踏入编程之路 欢迎各位关注博主不定期更新各种高质量内容适合小白及其初级水平同学一起学习 一起成为大佬 数组函数有那些 ps:本题挑难的背因为…

doOnNext() vs flatMap():区别与适用场景

在 Reactor(Flux / Mono)中,doOnNext() 和 flatMap() 都可以用来处理流中的元素,但它们有不同的作用和适用场景。 1. doOnNext() ✅ 作用 用于执行副作用(side effects),但不会改变数据流。适…