探索可变参数提升不变学习以增强分布外泛化能力
https://arxiv.org/abs/2310.16391
论文核心原理解析
核心问题:如何在存在分布噪声的情况下,学习对分布变化鲁棒的模型?
1. 关键挑战
- 分布外(OOD)泛化:模型需适应未见过的分布,但传统方法易受分布特异性特征干扰。
- 彩票假设(LTH)的局限性:仅关注任务相关的“关键参数”,忽略了分布变化敏感的参数(可能误导优化)。
2. 核心思想:EVIL方法
提出**探索可变参数(Variant)与不变参数(Invariant)**的框架:
- 可变参数:对分布变化敏感的参数(如光照、背景等环境因素)。
- 不变参数:对任务核心特征(如物体形状、语义)稳定的参数。