【深度学习】神经网络灾难性遗忘(Catastrophic Forgetting,CF)问题

devtools/2025/1/19 4:43:03/

文章目录

  • 1. 什么是灾难性遗忘?
  • 2. 为什么会存在灾难性遗忘?
    • 2.1 网络权重的更新
    • 2.2 没有有效的记忆机制
    • 2.3 任务间数据分布差异
  • 3. 目前解决方案
    • 3.1 弹性权重保持(Elastic Weight Consolidation, EWC)
    • 3.2 其他方法

1. 什么是灾难性遗忘?

灾难性遗忘(Catastrophic Forgetting)是指在神经网络,尤其是深度学习模型中,当模型在学习新的任务时,往往会遗忘之前学过的任务或知识。这种现象通常发生在连续学习过程中,即模型必须依次学习多个任务时。随着新任务的学习,模型会在不加保护的情况下丧失对旧任务的记忆或表现,导致旧任务的性能显著下降。

2. 为什么会存在灾难性遗忘?

灾难性遗忘的根源通常来自于以下几个方面:

2.1 网络权重的更新

  • 深度神经网络在训练过程中,模型的权重会不断更新,以便最小化当前任务的损失函数。当学习新任务时,新的数据会影响网络中的权重,从而导致网络忘记先前学习的任务的信息。特别是在任务之间没有共享的知识结构时,新的训练数据可能会“覆盖”先前任务的知识。

2.2 没有有效的记忆机制

  • 大多数神经网络模型没有一种内建的记忆机制来保留旧任务的知识。新的任务训练时,旧任务的信息往往会丢失,模型只能“记住”当前的任务。

2.3 任务间数据分布差异

  • 在连续学习中,不同任务的数据可能有不同的分布(即数据的统计特性不同)。这种数据分布的差异会导致模型在学习新任务时必须调整其权重,而这些调整会破坏对先前任务的适应性。

3. 目前解决方案

3.1 弹性权重保持(Elastic Weight Consolidation, EWC)

该方法通过对模型的权重施加额外的正则化约束,使得在学习新任务时,网络会尽量保留对旧任务的重要权重。EWC通过计算权重对损失的敏感度,并对重要权重施加惩罚,从而避免模型在训练新任务时大幅度改变这些权重。

主要原理:

EWC 基于 费舍尔信息矩阵(Fisher Information Matrix)的概念来衡量每个网络权重对于当前任务的"重要性"。对于不同任务,EWC通过惩罚不重要的权重的变化,确保在学习新的任务时尽可能保留对旧任务的知识。

权重重要性度量:

假设我们已经训练了一个模型 θ ∗ \theta^* θ 来完成一个任务, EWC目标是通过计算权重的重要性来确保我们不会在训练新的任务时过度修改这些权重。权重的重要性可以通过计算 费舍尔信息矩阵 来估计。费舍尔信息矩阵 F F F 是一个由模型输出的似然函数的二阶导数矩阵,它度量了模型预测对于不同权重的敏感度。一个权重的费舍尔信息越大,说明它对于当前任务的预测越重要。因此,EWC将惩罚那些在训练过程中改变了重要权重的操作。

正则化项:

EWC通过在损失函数中加入正则化项来实现对重要权重的约束。具体地,在原有损失函数的基础上,EWC增加了一项惩罚项:

L ( θ ) = L task ( θ ) + λ ∑ i F i 2 ( θ i − θ i ∗ ) 2 L(\theta) = L_{\text{task}}(\theta) + \lambda \sum_i \frac{F_i}{2} (\theta_i - \theta_i^*)^2 L(θ)=Ltask(θ)+λi2Fi(θiθi)2

  • L t a s k ( θ ) L_{task} (\theta) Ltask(θ) 是当前任务的损失函数
  • θ i \theta_i θi 是模型中第 i i i 个权重
  • θ i ∗ \theta_i^* θi 是在旧任务中学习到的权重
  • F i F_i Fi 是第 i i i 个权重的费舍尔信息值,衡量了该权重对旧任务的重要性
  • λ \lambda λ 是超参数,用来控制正则化的强度

通过这个正则化项,EWC确保在训练新任务时,不会让模型的某些重要权重(即那些对于先前任务至关重要的权重)发生过大的变化。换句话说,EWC通过惩罚权重的变化来确保模型在学习新任务时不会忘记旧任务。

3.2 其他方法

  • 迁移学习(Transfer Learning):利用旧任务的知识作为新任务的基础,在此基础上微调模型参数,从而减少对旧知识的干扰。在实际应用中,迁移学习可以通过冻结部分网络层来保护旧任务的知识。
  • 元学习(Meta-learning):通过训练一个能够快速适应新任务的元模型,使得模型在面对新任务时不容易遗忘旧任务。元学习通过在元任务上进行训练,提升模型在多个任务间的泛化能力。
  • 记忆增强网络(Memory-Augmented Networks):记忆增强网络(如神经图灵机、可微分神经计算机)通过引入外部记忆单元来保存重要的任务信息。这样,模型能够随时访问这些记忆来防止遗忘。
  • 增量学习(Incremental Learning):增量学习方法是指在训练过程中,模型根据新的任务或数据逐步更新,而不会重新训练整个模型。这种方法能够有效减少灾难性遗忘,通过适当的增量更新策略保留旧任务的信息。
  • 生成对抗网络(GAN)与自监督学习:一些研究提出通过生成对抗网络或自监督学习来保持旧任务的知识。这些方法通过生成任务相关的数据样本,帮助模型更好地记住已学的知识。
  • 经验重放(Experience Replay):经验重放是一种通过保存一定量的历史数据,并在新任务训练时反复回顾旧任务的经验,从而减少灾难性遗忘的方法。这种方法在强化学习中使用得比较广泛,但也可以应用于神经网络的训练中。

http://www.ppmy.cn/devtools/151742.html

相关文章

【专题系列】华为堆叠场景-堆叠无法组建、堆叠异常分裂和堆叠快速升级异常处理

互联网各领域资料分享专区(不定期更新): Sheet 堆叠无法组建 1、堆叠无法组建,首先排查两侧配置是否正确,主要为 DOMAIN、堆叠端口是否正确。通过 display stack configuration all 来查看。display stack troubleshooting 也能显示常见的配…

2019-腾讯Android面试精选题——谈一谈Binder的原理和实现一次拷贝的流程

####2.2 Linux 下的传统 IPC 通信原理 理解了上面的几个概念,我们再来看看传统的 IPC 方式中,进程之间是如何实现通信的。 通常的做法是消息发送方将要发送的数据存放在内存缓存区中,通过系统调用进入内核态。然后内核程序在内核空间分配内…

重拾Python学习,先从把python删除开始。。。

自己折腾就是不行啊,屡战屡败,最近终于找到前辈教我 第一步 删除Python 先把前阵子折腾的WSL和VScode删掉。还是得用spyder,跟matlab最像,也最容易入手。 从VScode上搞python,最后安装到appdata上,安装插…

【精选】基于EfficientViT优化YOLOv8的智能车辆识别系统设计 车辆颜色分类与车牌检测、深度学习目标检测系统开发

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

【深度学习项目】语义分割-FCN网络(原理、网络架构、基于Pytorch实现FCN网络)

文章目录 介绍深度学习语义分割的关键特点主要架构和技术数据集和评价指标总结 FCN网络FCN 的特点FCN 的工作原理FCN 的变体和发展FCN 的网络结构FCN 的实现(基于Pytorch)1. 环境配置2. 文件结构3. 预训练权重下载地址4. 数据集,本例程使用的…

openharmony标准系统芯片移植指导

标准系统移植指南 本文描述了移植一块开发板的通用步骤,和具体芯片相关的详细移植过程无法在此一一列举。后续社区还会陆续发布开发板移植的实例供开发者参考。 定义开发板 本文以移植名为MyProduct的开发板为例讲解移植过程,假定MyProduct是MyProduc…

服务器迁移MySQL

由于公司原有的服务器不再使用,需要将老的服务器上的MySQL迁移到新的服务器上,因此需要对数据进行备份迁移,前提是两台服务器已安装相同版本的MySQL,这里就不再讲解MySQL的安装步骤了,可以安装包、可以在线下载、可以容…

如何构建优质的prompt

优化前: 帮我做一幅很好看的画,一只猫趴在透明的泡泡上,眼睛盯着前方看,泡泡上还打着光非常可爱,整体上是粉色系为主的动画风格 优化后: 画一幅画,呆萌的小猫躺在泡泡中,可爱温柔&am…