学习任务自适应超参数以实现小样本学习
引用:Baik, Sungyong, et al. “Learning to learn task-adaptive hyperparameters for few-shot learning.” IEEE Transactions on Pattern Analysis and Machine Intelligence 46.3 (2023): 1441-1454.
论文地址:下载地址
论文代码:https://github.com/baiksung/ALFA
Abstract
小样本学习的目标是设计一个系统,该系统能够在给定任务下仅通过少量示例进行适应,同时实现良好的泛化性能。模型无关的元学习(Model-Agnostic Meta-Learning,MAML)由于其简单性和灵活性,近年来受到广泛关注。MAML 通过学习一个良好的初始化,使模型能够在少样本的情况下快速适应任务。然而,当新的任务与训练期间遇到的任务存在较大差异时,其性能相对有限。在本研究中,我们并没有寻求更好的初始化,而是专注于设计一个更好的快速适应过程。因此,我们提出了一种新的任务自适应权重更新规则,显著增强了快速适应过程。具体来说,我们引入了一个小型元网络,它能够为每个给定任务生成逐步的超参数:学习率和权重衰减系数。实验结果验证了,为快速适应学习一个好的权重更新规则是同等重要的组成部分,而这一点在近期的小样本学习方法中相对较少受到关注。令人惊讶的是,使用 ALFA 从随机初始化进行快速适应已经能够超越 MAML。此外,提出的权重更新规则在多个问题领域中始终提升了 MAML 的任务适应能力:小样本分类、跨领域小样本分类、回归、视觉跟踪和视频帧插值。
1 Introduction
通过监督学习训练深度神经网络(DNNs)需要大量带有精确标注的数据,而这些数据的生产需要投入大量的精力和时间。为了克服这种限制——这种限制可能阻碍DNNs的实际应用——小样本学习从人类能够通过少量示例快速学习新任务的能力中获得启发。具体而言,小样本学习旨在解决设计能够在少数据条件下学习并推广到新任务的人工智能系统的挑战。
近年来,元学习(meta-learning),或称为“学习如何学习”,被广泛用作应对小样本学习挑战的其中一种方法。在小样本学习中,元学习通常被表述为两阶段学习器:元学习器首先学习跨任务共享的通用先验知识,基础学习器则通过使用这些先验知识来适应每个任务。在元学习算法中,基于优化(或梯度)的元学习方法因其灵活性和适用性而受到越来越多的关注。基于优化的方法通过双层优化(包括外循环和内循环优化)直接修改参与训练基础学习器的优化算法,以便在少量示例的情况下适应任务。
基于优化方法中最成功的实例之一是模型无关的元学习(MAML)1,它将元学习器表述为可学习的初始化,作为基础学习器网络参数的一个良好起点,在少数据条件下经过几次梯度下降后可以实现良好的泛化能力。顺应这一趋势,许多近期的工作2,3,4:,5,6,7,旨在学习更好的初始化以获得更好的泛化能力。另一方面,任务适应的优化(即基于优化的元学习方法中的另一个重要组成部分)却相对被忽视,通常依赖于传统的优化器(如SGD)。近期,一些 MAML 的变种8,9,10,11,已经开始探索更好的优化器来实现快速任务适应,然而这些优化器仍然相对简单,并缺乏自适应性特征。已有研究表明,这种自适应性特征在包括 Adam12 和学习优化器13,14 在内的多项优化研究中是有效的。
在这项工作中,我们将注意力转向 MAML 框架中的一个重要但相对被忽视的因素,即在小样本学习中的任务适应过程的优化(或内循环优化)。与其像许多近期工作那样努力寻求更好的初始化,我们提出了自适应快速适应超参数学习(ALFA),该方法使任务适应能够通过任务自适应的内循环优化变得更加有效,无论起始点是何种初始化,包括随机初始化。为了使内循环优化具有任务自适应性,所提出的方法动态生成了优化过程中的两个关键超参数:即学习率和权重衰减系数。具体而言,我们将一个小型元网络与每一步的当前权重和梯度值相结合,生成特定任务的超参数,从而使每一次内循环的梯度下降都能够根据给定任务进行自适应。如图1所示,与传统的内循环优化方法(如 SGD)相比,ALFA 由于其逐步的任务自适应正则化和学习率,能够提供更有效的优化和更好的泛化能力。
通过提出的内循环权重更新规则 ALFA,即使从随机初始化开始的快速适应,也表现出了比 MAML 更高的性能。这一结果表明,学习一个好的权重更新规则至少与学习一个好的初始化同样重要。此外,ALFA 还可以与现有的旨在学习良好初始化的元学习方法结合使用。我们通过进一步的实验,验证了 ALFA 在更多实际计算机视觉问题中的适用性和有效性,包括视觉跟踪和视频帧插值,扩展了我们之前的工作15。
Fig. 1: 我们提出的权重更新规则的概念性概览,称为ALFA,用于优化基础元学习算法中的任务适应,以解决小样本学习问题。
(a) 以前的元学习算法采用传统的优化器(例如,SGD),其通过一个固定的学习率沿损失梯度的反方向更新参数。在小样本学习中,通常只执行固定数量的梯度下降步骤,固定的学习率可能导致较差的泛化性能。
(b) ALFA根据第 i i i 个任务和第 j j j 次内循环更新步骤自适应地调整学习率和正则化超参数。任务自适应超参数有助于更好地泛化到任意未知任务。
2 RELATED WORK
小样本学习旨在解决在学习新任务时只有极少标注示例可用时出现的挑战。应对这些挑战的主要方法之一是元学习,其通过一个两阶段框架来处理问题:学习任务之间共享的通用先验知识,并利用这些先验知识快速适应新任务16,17,18,19,20。根据先验知识的学习和任务适应的开发方式,针对小样本学习开发的元学习算法可以分为三大类:基于度量的、基于黑盒或网络的,以及基于优化的算法。基于度量的方法学习一个嵌入空间,使相似的类彼此靠近,而不同的类远离21,22,23,24,25。黑盒或基于网络的元学习算法直接生成权重26,27,权重更新13,17,28,或预测结果29,30。另一方面,基于优化的方法1,11,28,31 实现了元学习的两阶段框架作为双层优化,以学习学习过程本身,例如网络参数的初始化值。
在元学习算法中,基于优化的方法最近由于其在不同问题领域的适用性而受到越来越多的关注。最为著名的算法之一是 MAML1,其因其简单性和模型无关的设计而广泛应用于各种问题领域。这样的流行趋势促使了许多基于 MAML 的变种2,4,5,6,7,10,11,32,33,34,35,36,37,38,39,40 的出现,这些变种试图解决 MAML 的已知问题,如(元层面的)过拟合。在此过程中,许多研究探索了混合方法5,38,41,42,43,这些方法在很大程度上提高了 MAML 的泛化性能,但代价是牺牲了 MAML 的适用性和灵活性。
与此同时,关于优化算法,尤其是权重更新规则的相关研究在小样本学习中受到的关注相对较少。这一趋势可以从许多最近的基于 MAML 的算法中看出,这些算法在内循环优化中使用了简单的权重更新规则,例如没有任何正则化的 SGD,尽管即使简单的 ℓ2 正则化也可能有助于在适应少量示例的新任务时防止过拟合。这与一系列学习优化器13,44,45,46,47,48 以实现更稳健和有效的神经网络训练的工作形成了鲜明对比。最近的一些工作尝试通过元学习学习率5,32,49 和学习正则化梯度8,11,34,37,50,从这些简单的更新规则中进行改进。然而,这些方法在内循环优化中缺乏自适应性,因为它们的元学习的学习率或正则化项不能适应每个任务。相比之下,Ravi 等人28 直接通过 LSTM 学习了整个内循环优化,该 LSTM 生成更新后的权重。虽然这种实现可能更加通用并提供了任务自适应特性,但直接学习整个内循环优化(尤其是生成权重本身)可能具有一定难度,并且缺乏可解释性。这可能解释了为什么后续的工作,包括 MAML 及其变种,依赖于简单的权重更新规则。
所提出的方法可以被认为与基于梯度的超参数优化51,52,53,54 以及学习优化器13,14,44,46,47,48,55,56 的工作有类似的目标,因为它们都旨在学习超参数或更新规则。然而,它们要么假设有大数据集可用,要么专注于分类任务。相比之下,所提出的元学习算法旨在处理每个任务只有少量样本可用的各种应用。
因此,我们提出了一种新的自适应学习更新规则,用于快速适应(ALFA),该规则专门为小样本学习背景下的元学习框架设计。值得注意的是,ALFA 通过一个元网络根据基础学习器的梯度和权重生成动态的学习率和权重衰减项,从而为每个更新步骤和任务指定权重更新规则的形式。这种新的公式化允许 ALFA 在为简单权重更新规则(如 SGD)32,49 学习固定学习率和直接学习整个复杂权重更新规则28 之间取得平衡。
3 PROPOSED METHOD
3.1 Background
在深入讨论所提出的方法之前,首先介绍为小样本学习设计的元学习框架的基础知识。在元学习框架中,假设存在任务分布 p ( T ) p(T) p(T),从中可以采样出每个任务 T i ∼ p ( T ) T_i \sim p(T) Ti∼p(T)。元学习的目标是学习任务分布中共享的通用先验知识,并利用这些学习到的通用知识快速适应新任务。通常认为,每个任务 T i T_i Ti 包含两个不相交的集合:支持集 D i D_i Di 和查询集 D i ′ D'_i Di′。支持集由标注示例组成,用于适应每个任务,而查询集则是用于评估元学习算法泛化性能的新示例集合。在 k k k-shot 学习设置中,支持集 D i D_i Di 包含 k k k 个标注示例(因此称为 k k k-shot),用于学习任务 T i T_i Ti。当使用标注的支持示例来使模型适应给定任务 T i T_i Ti 后,从同一任务 T i T_i Ti 中采样查询示例 D i ′ D'_i Di′,以使用相应的损失函数 L T i L_{T_i} LTi 评估适应后的模型在未见示例上的泛化性能。损失函数 L T i L_{T_i} LTi 的反馈随后用于调整元学习算法,以获得更高的泛化性能。
在模型无关的元学习(MAML)1 中,先验知识的学习被表述为学习神经网络 f θ f_\theta fθ 的一组通用初始权重值 θ \theta θ,这些权重可以作为良好的起始点,在使用标注的支持集 D i D_i Di 进行几次梯度下降后,实现对新任务 T i T_i Ti 的良好泛化性能。具体来说,给定一个带有标注示例集 D i D_i Di 和损失函数 L D i T i L_{D_i}^{T_i} LDiTi 的采样任务 T i T_i Ti,网络通过固定次数的内循环更新从其初始权重 θ \theta θ 适应每个任务。
网络在第 j j j 步内循环的权重记为 θ i , j \theta_{i,j} θi,j,可以通过以下方式更新:
θ i , j + 1 = θ i , j − α ∇ θ L D i T i ( f θ i , j ) , (1) \theta_{i,j+1} = \theta_{i,j} - \alpha \nabla_\theta L_{D_i}^{T_i}(f_{\theta_{i,j}}), \tag{1} θi,j+1=θi,j−α∇θLDiTi(fθi,j),(1)
其中 θ i , 0 = θ \theta_{i,0} = \theta θi,0=θ 表示初始权重。在经过 S S S 次内循环更新后,得到的网络权重 θ i ′ = θ i , S \theta'_i = \theta_{i,S} θi′=θi,S 被认为已适应给定任务 T i T_i Ti。为了评估并提供任务适应后的网络权重 θ i ′ \theta'_i θi′ 的泛化性能反馈,使用从原始任务 T i T_i Ti 中采样的新示例查询集 D i ′ D'_i Di′ 对网络进行评估。这样的反馈用于外循环优化,以更新初始权重 θ \theta θ,以在所有任务上实现更好的泛化:
θ ← θ − η ∇ θ ∑ T i L D i ′ T i ( f θ i ′ ) . (2) \theta \leftarrow \theta - \eta \nabla_\theta \sum_{T_i} L_{D'_i}^{T_i}(f_{\theta'_i}). \tag{2} θ←θ−η∇θTi∑LDi′Ti(fθi′).(2)
3.2 Adaptive learning of hyperparameters for fast adaptation (ALFA)
前期基于优化的元学习方法通常旨在找到能够在不同任务上实现良好泛化的初始化权重,而我们的方法则专注于通过学习的自适应更新规则来调节适应过程或内循环优化本身。为此,我们首先将一个 ℓ 2 \ell_2 ℓ2 正则化项 λ ∣ ∣ θ ∣ ∣ 2 \lambda ||\theta||^2 λ∣∣θ∣∣2 重新引入到内循环优化中,尽管这一项在最近的基于优化的元学习方法中被忽略了。内循环更新方程(公式(1))变为:
θ i , j + 1 = θ i , j − α ( ∇ θ L D i T i ( f θ i , j ) + λ θ i , j ) = β θ i , j − α ∇ θ L D i T i ( f θ i , j ) , (3) \theta_{i,j+1} = \theta_{i,j} - \alpha \left( \nabla_\theta L_{D_i}^{T_i} (f_{\theta_{i,j}}) + \lambda \theta_{i,j} \right) = \beta \theta_{i,j} - \alpha \nabla_\theta L_{D_i}^{T_i} (f_{\theta_{i,j}}), \tag{3} θi,j+1=θi,j−α(∇θLDiTi(fθi,j)+λθi,j)=βθi,j−α∇θLDiTi(fθi,j),(3)
其中 β = 1 − α λ \beta = 1 - \alpha \lambda β=1−αλ。在保持参数和梯度不变的情况下,可以通过调节内循环更新方程中的超参数 α \alpha α 和 β \beta β 来控制适应过程。 α \alpha α 本质上控制学习率,因此决定了权重更新的量,而 β \beta β 负责控制正则化的程度。这些超参数可以替换为可调变量 α i , j \alpha_{i,j} αi,j 和 β i , j \beta_{i,j} βi,j,它们的维度分别与 ∇ θ L D i T i ( f θ i , j ) \nabla_\theta L_{D_i}^{T_i} (f_{\theta_{i,j}}) ∇θLDiTi(fθi,j) 和 θ i , j \theta_{i,j} θi,j 相同。最终的内循环更新方程变为:
θ i , j + 1 = β i , j ⊙ θ i , j − α i , j ⊙ ∇ θ L D i T i ( f θ i , j ) , (4) \theta_{i,j+1} = \beta_{i,j} \odot \theta_{i,j} - \alpha_{i,j} \odot \nabla_\theta L_{D_i}^{T_i} (f_{\theta_{i,j}}), \tag{4} θi,j+1=βi,j⊙θi,j−αi,j⊙∇θLDiTi(fθi,j),(4)
其中 ⊙ \odot ⊙ 表示 Hadamard(逐元素)乘积。为了对每个任务和每个内循环步骤的更新规则进行更精细的控制,我们提出基于任务特定的学习状态 τ i , j \tau_{i,j} τi,j 为任务 T i T_i Ti 在时间步 j j j 生成超参数。在所提出的框架中,超参数 α i , j \alpha_{i,j} αi,j 和 β i , j \beta_{i,j} βi,j 由一个参数化为 ϕ \phi ϕ 的神经网络 g g g 生成,如下所示:
( α i , j , β i , j ) = g ϕ ( τ i , j ) . (5) (\alpha_{i,j}, \beta_{i,j}) = g_{\phi}(\tau_{i,j}). \tag{5} (αi,j,βi,j)=gϕ(τi,j).(5)
上述超参数生成网络 g ϕ g_{\phi} gϕ 生成任务特定的学习率和正则化超参数,这些超参数将用于公式 (4) 中的每一步内循环更新权重 θ i , j \theta_{i,j} θi,j,生成的超参数用于控制权重更新的方向和幅度。所提出的内循环优化的整体过程如图 2(b) 所示,并与使用简单更新规则(如 SGD)的常规方法(如图 2(a) 所示)进行了比较。
Fig. 2: 内循环更新方案的示意图。
(a) 记输入、输出和标签分别为 x i x_i xi、 y ^ i \hat{y}_i y^i 和 y i y_i yi,传统的基于梯度的元学习框架通过简单的更新规则(例如,SGD)更新网络参数 θ i , j \theta_{i,j} θi,j。
(b) 我们提出的元学习器 g ϕ g_\phi gϕ 使用当前参数 θ i , j \theta_{i,j} θi,j 和其梯度 ∇ θ L D i T i \nabla_\theta \mathcal{L}_{\mathcal{D}_i}^{\mathcal{T}_i} ∇θLDiTi 生成自适应超参数 α i , j \alpha_{i,j} αi,j 和 β i , j \beta_{i,j} βi,j。需要注意的是, ϕ \phi ϕ 仅在外循环优化中更新。
类似于在 MAML 中训练初始化权重 θ \theta θ 的方式,网络 g ϕ g_{\phi} gϕ 在外循环优化中使用新的示例 D i ′ D'_i Di′ 和任务适应后的权重 θ i ′ \theta'_i θi′ 进行训练,如下所示:
ϕ ← ϕ − η ∇ ϕ ∑ T i L D i ′ T i ( f θ i ′ ) . (6) \phi \leftarrow \phi - \eta \nabla_{\phi} \sum_{T_i} L_{D'_i}^{T_i} (f_{\theta'_i}). \tag{6} ϕ←ϕ−η∇ϕTi∑LDi′Ti(fθi′).(6)
需要注意的是,所提出的内循环优化与初始化权重无关。因此,我们的方法可以从任何给定的初始化(例如,随机初始化)进行训练以适应任务。整体训练过程总结在算法 1 中。当将 ALFA 与 MAML 及其变体一起使用时,初始化参数可以联合训练以获得更高的性能。
3.3 Task-specific learning state
在这项工作中,学习状态由当前基础学习器的权重值 θ i , j \theta_{i,j} θi,j 及其对应的梯度 u i , j = ∇ θ L D i T i ( f θ i , j ) u_{i,j} = \nabla_\theta L_{D_i}^{T_i}(f_{\theta_{i,j}}) ui,j=∇θLDiTi(fθi,j) 组成,因为它们从优化的角度提供了关于学习状态的近似信息。然而,权重和梯度的维度可能非常大,因此我们在每一层对权重和梯度取平均值,以解决潜在的可扩展性问题:
θ ˉ i , j = { θ ˉ i , j l } l = 1 L f , u ˉ i , j = { u ˉ i , j l } l = 1 L f , (7) \bar{\theta}_{i,j} = \{ \bar{\theta}^l_{i,j} \}_{l=1}^{L_f}, \quad \bar{u}_{i,j} = \{ \bar{u}^l_{i,j} \}_{l=1}^{L_f}, \tag{7} θˉi,j={θˉi,jl}l=1Lf,uˉi,j={uˉi,jl}l=1Lf,(7)
其中, L f L_f Lf 是基础学习器网络的层数; θ ˉ i , j l \bar{\theta}^l_{i,j} θˉi,jl 和 u ˉ i , j l \bar{u}^l_{i,j} uˉi,jl 分别是第 l l l 层的权重和梯度的平均值; θ ˉ i , j \bar{\theta}_{i,j} θˉi,j 和 u ˉ i , j \bar{u}_{i,j} uˉi,j 分别是逐层权重和梯度的平均值集。因此,任务特定的学习状态变为:
τ i , j = [ θ ˉ i , j , u ˉ i , j ] , (8) \tau_{i,j} = [ \bar{\theta}_{i,j}, \bar{u}_{i,j} ], \tag{8} τi,j=[θˉi,j,uˉi,j],(8)
其中 [ ⋅ , ⋅ ] [ \cdot, \cdot ] [⋅,⋅] 表示连接操作。由于在每一层上都得到了权重和梯度的标量均值, θ ˉ i , j \bar{\theta}_{i,j} θˉi,j 和 u ˉ i , j \bar{u}_{i,j} uˉi,j 是 L f L_f Lf 维向量,从而使 τ i , j \tau_{i,j} τi,j 成为一个 2 L f 2L_f 2Lf 维向量。
3.4 Architecture
在这项工作中,所提出的超参数生成网络 g ϕ g_{\phi} gϕ 实现为一个具有 ReLU 激活函数的两层多层感知机(MLP)。假设基础学习器 f θ f_{\theta} fθ 的网络架构是一个 L f L_f Lf 层卷积神经网络(CNN),则超参数生成网络 g ϕ g_{\phi} gϕ 接受一个 2 L f 2L_f 2Lf 维向量 τ i , j \tau_{i,j} τi,j 作为输入,并且在中间层中具有相同数量的隐藏单元。对于输出,首先逐层生成学习率 α i , j 1 \alpha^1_{i,j} αi,j1 和权重衰减项 β i , j 1 \beta^1_{i,j} βi,j1,然后重复至相应参数 θ i , j \theta_{i,j} θi,j 的维度。根据 [24] 的实践,逐层逐步的元学习可学习后乘数被乘以生成的超参数值,以更好地控制生成值的范围,从而实现稳定的训练。数学上,学习率和权重衰减项在任务 T i T_i Ti 的第 j j j 步内循环中生成:
[ α i , j = α i , j 0 ⊙ α i , j 1 ( τ i , j ) , β i , j = β i , j 0 ⊙ β i , j 1 ( τ i , j ) , (9) \alpha_{i,j} = \alpha^0_{i,j} \odot \alpha^1_{i,j}(\tau_{i,j}), \quad \beta_{i,j} = \beta^0_{i,j} \odot \beta^1_{i,j}(\tau_{i,j}), \tag{9} αi,j=αi,j0⊙αi,j1(τi,j),βi,j=βi,j0⊙βi,j1(τi,j),(9)
其中, α i , j 0 \alpha^0_{i,j} αi,j0 和 β i , j 0 \beta^0_{i,j} βi,j0 是元学习可学习的后乘数,而 α i , j 1 ( τ i , j ) \alpha^1_{i,j}(\tau_{i,j}) αi,j1(τi,j) 和 β i , j 1 ( τ i , j ) \beta^1_{i,j}(\tau_{i,j}) βi,j1(τi,j) 是逐层生成的乘数值,并被重复至 θ i , j \theta_{i,j} θi,j 的维度。
与为 θ i , j \theta_{i,j} θi,j 和 ∇ θ L D i T i ( f θ i , j ) \nabla_\theta L_{D_i}^{T_i}(f_{\theta_{i,j}}) ∇θLDiTi(fθi,j) 中的每个元素生成 α i , j \alpha_{i,j} αi,j 和 β i , j \beta_{i,j} βi,j 相比,逐层的超参数生成使得我们的生成网络 g ϕ g_{\phi} gϕ 计算效率更高,极大地减少了外循环优化中训练的权重数量。当使用随机初始化代替 MAML 时,不再有可用的逐参数的先验知识。因此,在随机初始化的情况下,ALFA 需要一个元学习的逐参数权重衰减项来替代 MAML 初始化中为基础学习器每个参数生成先验知识的作用。在随机初始化和 MAML 初始化两种情况下,随着逐层逐步后乘数的增加,ALFA 的可学习参数总数比 MAML 增加的量是最小的,等于 2 S L f + 12 L f 2 2SL_f + 12L_f^2 2SLf+12Lf2,其中 S S S 是内循环步骤的数量, L f L_f Lf 是基础学习器 f θ f_{\theta} fθ 的层数。
4 EXPERIMENTS
在本节中,我们展示了我们提出的权重更新规则(ALFA)在多个问题领域的有效性和适用性,这些领域包括:小样本分类、跨领域小样本分类、小样本回归、视觉跟踪和视频帧插值。
4.1 Few-shot classification.
数据集
四个数据集用于小样本分类:两个 ImageNet 衍生数据集,miniImageNet 25 和 tieredImageNet 57,以及两个 CIFAR 衍生数据集,Fewshot-CIFAR100 (FC100) 24 和 CIFAR100 few-shots (CIFAR-FS) 58。它们是从 ILSVRC-12 数据集或 CIFAR 数据集派生而来,目的是模拟小样本学习环境。miniImageNet 和 CIFAR-FS 是通过随机采样类别构建的,而 tieredImageNet 和 FC100 是基于层次结构或超级类别分组来划分类别,以最大程度减少 meta-train、meta-validation 和 meta-test 不相交集合之间的类别重叠和任务相似性。
为了评估元学习模型在更具挑战性的场景下的泛化性能,文献 [66] 中引入了跨领域小样本分类,其中模型在与训练任务(meta-training 任务)显著不同的任务(meta-test 任务)上进行测试。按照 [66] 的方法,元学习算法在 miniImageNet 的 meta-train 集上进行训练,并在 CUB-200-2011(记为 CUB)59 的 meta-test 集上进行评估。
Meta-Dataset 38 是一个大规模数据集,旨在通过将多个不同的数据集收集到一个大数据集中来模拟更现实的场景。通过改变每个任务的类别数量和示例数量并保留两个完整的数据集用于评估,引入了更多的挑战,类似于跨领域设置,其中 meta-train 和 meta-test 集不同。
实现细节
4 层 CNN(以下简称为 4-CONV)和 ResNet12 架构用于基础学习器的主干特征提取网络 f θ f_\theta fθ。本文中使用的架构遵循文献 5、22、23、24、25 中的设计设置。在元训练期间,元学习器 g ϕ g_\phi gϕ 在 100 个 epoch 上进行训练(每个 epoch 包含 500 次迭代),批量大小为 2(5-shot)和 4(1-shot)。在每次迭代中,采样 N N N 个类别,每个类别有 k k k 个标注示例用于 D i D_i Di,以及 15 个示例用于 D i ′ D'_i Di′,以进行 N N N-way k k k-shot 分类。
结果
表 1 和表 2 总结了我们提出的更新规则 ALFA 在各种初始化(随机初始化、MAML 和 L2F 2)和最近的最新优化基于元学习算法 60 上的应用结果,并与其他最新的基于优化的算法 43,61 和基于度量的算法 62 进行了比较。在所有小样本分类数据集中,ALFA 在 MAML 初始化上带来了显著的改进。更令人有趣的是,即使在随机初始化上应用 ALFA 也能取得很高的分类精度,表明元学习内循环优化(ALFA + 随机初始化)比仅仅元学习初始化更有利。这个结果强调了内循环优化在 MAML 框架中与外循环优化同样重要。此外,如表 1 和表 2 所示,ALFA 显著提高了最近基于 MAML 的算法 MeTAL 60 的性能。该更新规则能够改进其他基于 MAML 的算法进一步强调了设计更好的内循环优化的重要性。我们相信,ALFA 的这些有前景的结果可以重新点燃人们对设计更好内循环优化的关注和研究,而不仅仅是专注于改进初始化(或外循环优化)。此外,表 3 展示了 4-CONV 基础学习器在 miniImageNet 上的 20-way 分类结果,显示了 ALFA 带来的显著性能提升。
表 1:miniimagenet 和 tieredimagenet 的 5 路分类测试精度
表 2:fc100 和 cifar-fs 的 5 路分类测试精度
表 3:20 路分类
Model | 1-shot | 5-shot |
---|---|---|
MAML | 15.21 ± 0.36% | 18.23 ± 0.39% |
ALFA + MAML | 22.03 ± 0.41% | 35.33 ± 0.48% |
为了进一步证明所提出的权重更新规则在调节快速适应以实现更好泛化方面的有效性,进行了跨领域小样本分类设置下的实验,其中 meta-test 任务与 meta-train 任务有显著不同。表 4 中跨领域小样本分类的实验结果与表 1 中的小样本分类结果显示了相似的趋势,即 ALFA 在不同初始化、元学习算法和基础学习器主干中均表现出一致的性能提升。文献 63 中的分析表明,具有更深主干的基础学习器在细粒度分类(如 CUB)中的类内差异性更具鲁棒性。随着类内差异变得不那么重要,支持示例和查询示例之间的差异也变得不那么重要,这表明关键在于从支持示例中学习任务而不产生过拟合。当 meta-train 和 meta-test 数据集之间的领域差距较大时,支持示例的重要性更加明显,因为从 meta-training 中学到的先验知识大多不相关。依赖先验知识可能使得从新领域学习任务变得困难,正如文献 2,3 所建议的那样。因此,正如文献 63 中所讨论的那样,使用支持示例对新任务的适应在跨领域小样本分类中起着关键作用。在这种需要快速适应新任务的场景下,ALFA 大大提高了性能,进一步验证了所提出的具有任务自适应超参数的权重更新规则的有效性。
表 4:5 路 5-shot 跨域分类的测试精度
Method | Backbone | miniImageNet → CUB |
---|---|---|
ALFA + Random Init | 4-CONV | 56.72 ± 0.29% |
MAML [1] | 4-CONV | 52.70 ± 0.32% |
ALFA + MAML | 4-CONV | 58.35 ± 0.25% |
MAML + L2F [2] | 4-CONV | 60.89 ± 0.22% |
ALFA + MAML + L2F | 4-CONV | 61.82 ± 0.21% |
MeTAL [57] | 4-CONV | 58.20 ± 0.24% |
ALFA + MeTAL [57] | 4-CONV | 66.37 ± 0.17% |
---------------------- | ----------- | --------------------------- |
ALFA + Random Init | ResNet12 | 60.13 ± 0.23% |
MAML [1] | ResNet12 | 53.83 ± 0.23% |
ALFA + MAML | ResNet12 | 61.22 ± 0.22% |
MAML + L2F [2] | ResNet12 | 62.12 ± 0.25% |
ALFA + MAML + L2F | ResNet12 | 63.64 ± 0.22% |
MeTAL [57] | ResNet12 | 61.29 ± 0.19% |
ALFA + MeTAL [57] | ResNet12 | 70.22 ± 0.14% |
---------------------- | ----------- | --------------------------- |
TIM-GD [61] | ResNet18 | 71.0% |
所提出的任务自适应内循环优化超参数的有效性在大规模且具有挑战性的数据集 Meta-Dataset 上得到了进一步评估。表 5 展示了仅在 ImageNet (ILSVRC-2012) 上训练(上部分)和在所有数据集上训练(下部分)的模型测试精度,其中每个模型(每列)的分类精度是在每个数据集的 meta-test 集上测量的(每行)。结果表明,ALFA 在 fo-MAML(一级 MAML)和 fo-Proto-MAML(MAML 的一种变体,由 Triantafillou 等人 38 提出,显著改善了 MAML 在 fc 层使用类别原型的初始化)上带来了持续的改进。即使在如此大规模的环境下,ALFA 在不同基线上的持续性能提升进一步强调了所提出的权重更新规则的有效性,表明学习一个良好的内循环优化与学习一个良好的初始化同样重要。
表 5:元数据集上的测试精度,其中模型仅在 ILSVRC-2012(顶部)或所有数据集(底部)上进行训练
msp; ALFA 在多种基于优化的元学习算法上带来的显著性能提升,包括最近的最新方法之一 MeTAL 60,展示了所提出的元学习框架的普适性和有效性。另一方面,基于度量的元学习算法 62,64,65,66,67 仍然在各自的小样本分类基准测试中表现出更高的性能。基于最新的基于度量和基于优化的元学习算法之间的性能差距表明,基于优化的元学习算法仍有很大的改进空间。虽然少数工作考虑了 MAML 的表示学习 10,68 或标签置换问题 69,但它们主要集中于分类任务。ALFA 的目标是设计一个具有自适应超参数的更好的内循环优化器,不仅提高分类性能,还提升在多个不同领域上的表现。
4.2 Ablation studies
在本节中,展示了若干消融实验,以更好地分析 ALFA 各个组成部分的有效性。所有实验均在 4-CONV 主干上进行,并使用 5-way 5-shot miniImageNet 分类任务。
控制适应程度
首先分析了任务自适应超参数的效果,任务适应的程度由 MAML 和随机初始化进行控制。为此,每个超参数要么是元学习的(在元训练后固定,类似于 49),要么是逐步或逐层生成的(通过我们提出的网络 g ϕ g_{\phi} gϕ),如表 8 所示。总体而言,通过生成使超参数具备任务自适应性,比固定的元学习超参数能提高性能。此外,在每一层和内循环步骤中不同地控制超参数被观察到在促进快速适应方面起到了重要作用。学习率 α \alpha α 和权重衰减项 β \beta β 之间作用的差异也被观察到。特别是,结果表明,对于随机初始化,正则化项比学习率起到了更重要的作用。正则化对于随机初始化尤为关键,因为它在使用少量示例进行训练时更容易受到过拟合的影响。
表 8:改变学习率 α 和正则化项 β 适应性的影响。固定或自适应分别表示超参数是元学习还是由 g ϕ g_{\phi} gϕ生成。
Init. | per step | per layer | fixed | adaptive | |
---|---|---|---|---|---|
MAML | α | ✔ | ✔ | 64.76 ± 0.48% 64.52 ± 0.48% | 64.81 ± 0.48% 67.97 ± 0.46% |
MAML | β | ✔ | ✔ | 64.76 ± 0.48% 66.30 ± 0.47% | 64.81 ± 0.48% 65.10 ± 0.48% |
Random | α | ✔ | ✔ | 44.64 ± 0.50% 44.64 ± 0.50% | 46.62 ± 0.50% 46.62 ± 0.50% |
Random | α | ✔ | ✔ | 44.64 ± 0.50% 62.89 ± 0.43% | 46.62 ± 0.50% 66.35 ± 0.47% |
内循环步骤
进一步分析了 ALFA 在促进快速适应方面的有效性,方法是改变更新步骤的数量。具体来说,表 9 报告了 ALFA+MAML 在为指定的内循环步骤数进行训练时的性能。无论内循环步骤的数量如何,ALFA+MAML 始终优于使用 5 个内循环步骤更新的 MAML。
表 9:调整内循环步骤数量以实现基于 ALFA+MAML 的快速适应
任务特定学习状态
为了研究学习状态每个部分(即基础学习器的权重和梯度)的作用,进行了消融研究,在该研究中,只有每个部分被单独输入到元网络 g ϕ g_{\phi} gϕ。表 6 总结了消融研究的结果。以学习状态的每个部分为条件的元网络仍然表现出相对于 MAML 的性能提升,表明两个部分都起到了重要作用。我们的最终模型以权重和梯度为条件,给出了最佳性能,表明权重和梯度是学习状态的互补部分。
表6: τ \tau τ的消融研究
Input | 5-shot |
---|---|
weight only | 68.47 ± 0.46% |
gradient only | 67.98 ± 0.47% |
weight + gradient (ALFA) | 69.12 ± 0.47% |
4.3 Visualization of generated hyperparameters
ALFA 生成的超参数值被可视化并进行分析,以验证和研究所提出的任务自适应权重更新规则的动态行为。图 3 展示了生成的超参数值在内循环步骤、基础学习器网络层和不同领域(miniImageNet 25 和 CUB 59)中的动态范围。值得注意的是,学习率和权重衰减项在每一层的更新步骤中都发生了显著变化。由于这些剧烈的变化,任务之间的差异并不十分明显。因此,加入了一个放大的箱线图,用于更好地可视化任务之间的差异。尽管任务之间的变化不如步骤之间的变化那么明显,但任务之间的变化仍然存在( α \alpha α 和 β \beta β 的变化幅度可达 1 e − 3 1e^{-3} 1e−3)。观察到的差异仍然具有显著性,考虑到通常的内循环学习率在 1 e − 2 1e^{-2} 1e−2 到 1 e − 1 1e^{-1} 1e−1 之间,而常见的 ℓ 2 \ell_2 ℓ2 权重衰减项的数量级在 1 e − 6 1e^{-6} 1e−6 或 1 e − 5 1e^{-5} 1e−5,具体取决于学习率。
Fig. 3: ALFA+MAML 生成的超参数可视化。 生成的 α \alpha α 和 β \beta β 在内循环步骤和层级上的分布展示,基学习器采用 4-CONV 作为骨干网络。所提出的元学习器通过 MAML 初始化并在 5-way 5-shot 的 miniImageNet 分类任务上进行训练。
一个有趣的现象是,生成的超参数值的范围在两个显著不同的领域的数据集下是相似的。我们认为这种领域鲁棒性归因于超参数生成是基于梯度和权重的,这使模型能够专注于泛化性能与学习轨迹(权重和梯度)之间的相关性,而不是领域敏感的输入图像特征。此外,还观察到一个有趣的现象,即学习率有时为负值。为深入研究这一现象,进行了另一项消融研究,以探讨负学习率的重要性。
负学习率
负学习率的一个可能解释是,它可以防止内循环优化过程中对支持集的过拟合。元学习的目标是在适应基础学习器到给定的支持集后,在未见示例(例如查询集)上实现泛化(即降低损失)。换句话说,超参数生成元网络被训练生成内循环优化超参数(无论是正的还是负的学习率),以引导基础学习器实现更好的泛化(即在未见查询示例上降低损失)。在某些步骤和层生成负学习率表明,简单地最小化支持集的损失可能导致过拟合,需要通过最大化支持集的损失来促进更好的泛化。
随机初始化可能更容易对支持集过拟合,因为它没有先验知识(例如 MAML 初始化或预训练)作为正则化。因此,负学习率对于随机初始化来说起到了更重要的作用。为了支持这一观点,故意将生成值的范围限制为非负值(通过应用 ReLU 函数),其结果如表 7 所示。表中展示的结果表明,ALFA + MAML 在应用 ReLU 后性能略有下降,但 ALFA + 随机初始化的性能大幅下降,这进一步证实了具有动态学习率值范围的益处。
表 7:限制超参数值的范围
Restriction | ALFA + MAML | ALFA + Random Init |
---|---|---|
ReLU | 68.65 ± 0.41% | 45.11 ± 0.39% |
None (Ours) | 69.12 ± 0.47% | 70.00 ± 0.46% |
4.4 Few-shot regression
所提出的权重更新规则的灵活性和适用性通过在另一个问题领域——小样本回归上进行实验得到了进一步研究。小样本回归的目标是拟合一个未知的目标函数,给定从该函数中采样的 k k k 个点。按照 1 和 49 的设置,输入范围为 [ − 5.0 , 5.0 ] [-5.0, 5.0] [−5.0,5.0],目标函数是一个正弦曲线,其幅度、频率和相位分别从区间 [ 0.1 , 5.0 ] [0.1, 5.0] [0.1,5.0]、 [ 0.8 , 1.2 ] [0.8, 1.2] [0.8,1.2] 和 [ 0 , π ] [0, \pi] [0,π] 中采样。对于 k = 5 , 10 , 20 k = 5, 10, 20 k=5,10,20 以及不同数量的网络参数的结果如表 10 所示。ALFA 始终优于 MAML,进一步证实了所提出的权重更新规则的有效性和普适性。
表 10:在小样本回归任务中,基于 100 个采样点的 MSE 及其 95% 置信区间。
Model | 2隐藏层,40单元 5 shots | 2隐藏层,40单元 10 shots | 2隐藏层,40单元 20 shots | 3隐藏层,80单元 5 shots | 3隐藏层,80单元 10 shots | 3隐藏层,80单元 20 shots |
---|---|---|---|---|---|---|
MAML | 1.24±0.21 | 0.75±0.15 | 0.49±0.11 | 0.84±0.14 | 0.56±0.09 | 0.33±0.06 |
ALFA+MAML | 0.92±0.19 | 0.62±0.16 | 0.34±0.07 | 0.70±0.15 | 0.51±0.10 | 0.25±0.06 |
4.5 视觉跟踪
视觉跟踪的目标是通过视频序列跟踪特定目标对象。由于存在外观相似的干扰物以及目标外观的变化,跟踪器需要具备适应性和鲁棒性。视觉跟踪与元学习面临相似的挑战,旨在解决事先未知的任务。Meta-Tracker 70 是基于元学习的首批跟踪器之一,其中 CREST 71 和 MDNet 72 被用作主干跟踪器,因此它们的元学习版本被分别命名为 MetaCREST 和 MetaSDNet。Meta-Tracker 使用 MAML 来找到跟踪模型的一组良好参数,从这些参数可以对每个视频序列进行微调,使用给定的初始边界框。
数据集
按照 70 中的原始训练方案,提出的跟踪器使用从 ImageNet 视频检测数据集 73 中选出的 718 个视频序列进行训练,并附加了从视觉对象跟踪(VOT)基准数据集 VOT2013 74、VOT2014 75 和 VOT2015 76 中获得的 58 个序列。为了评估跟踪器的性能,使用 OTB2015 77 数据集中的序列。
结果
如 77 中所述,跟踪器在一次通过评估(OPE)协议下进行评估,这是一个常规评估设置,跟踪器在第一帧被初始化并在整个测试序列中运行。表 11 和图 4 展示了将 ALFA 应用于基线跟踪算法后的定量和定性改进。ALFA 所取得的一致性能改进验证了其在适应新任务时任务自适应内循环优化的有效性和普适性。所有跟踪器均使用 70 提供的源代码作为基础代码,并使用默认超参数进行训练。
表 11: 使用 OPE 对 OTB2015 数据集中的 100 个序列测量的精度和成功率。
Model | Precision | Success rate |
---|---|---|
MetaCREST 70 (reproduced) | 0.7974 | 0.6046 |
MetaCREST + ALFA | 0.8262 | 0.6153 |
------------------ | ------------------------ | ------------------------ |
MetaSDNet 70 (reproduced) | 0.8649 | 0.6394 |
MetaSDNet + ALFA | 0.8931 | 0.6598 |
图 4: OTB2015 数据集中视频序列的定性结果。(a) 黄框表示 MetaSDNet 的输出,红框表示 MetaSDNet+ALFA 的输出。(b) 黄框表示 MetaCREST 的输出,红框表示 MetaCREST+ALFA 的输出。结果表明,ALFA 提高了两种基线跟踪器的跟踪性能。结果显示了 (a) 抖动、歌手 2、小鸟 1、足球和 rubik 序列以及 (b) 滑雪、足球、跳水、龙宝宝和自由人 4 序列中选定帧的结果。
4.6 视频帧插值
视频帧插值是一个回归问题,旨在给定两个连续的输入帧,生成高质量的中间帧。Choi 等人 78, 79 将该问题表述为小样本学习,并证明在测试时适应输入帧是有益的。因此,我们将 ALFA 应用于使用(一级)MAML 的插值模型 78,以展示我们提出的算法在实际回归问题中的有效性。
数据集
我们遵循 78 中的实验设置,并使用相同的数据集进行训练和评估。Vimeo90K-Septuplet(VimeoSeptuplet)数据集 [83] 包含 91,701 个固定分辨率为 448 × 256 的七帧序列。我们使用 VimeoSeptuplet 数据集的训练集对所有模型进行训练,并使用测试集进行验证。为了进一步评估,我们使用 Middlebury 80 的 OTHERS 集和 HD 数据集 81。
结果
我们比较了四种不同的设置:基线模型(Baseline)、再训练模型(Re-trained)、元训练模型(Meta-trained,MAML)和元训练模型(Meta-trained,ALFA+MAML)。基线结果是使用原始视频插值方法的预训练模型获得的,如果可能的话,由作者提供。再训练模型从基线模型开始,使用 VimeoSeptuplet 数据集进行微调。这作为与元训练模型具有相同训练数据集的更强基线。对于元训练模型,元学习算法用于适应测试时的输入。所有元训练模型在测试时的性能报告使用单次内循环更新。表 12 和图 5 从定量和定性角度展示了 ALFA+MAML 在所有模型和所有数据集上的有效性。
表 12: 使用 ALFA 对最近的帧插值模型进行元训练的量化结果。我们在三个数据集上评估了 ALFA+MAML 相对于 MAML 的优势: VimeoSeptuplet 82、Middlebury-OTHERS 80 和 HD 81。性能以 PSNR (dB) / SSIM 度量。值得注意的是,元训练(ALFA+MAML)始终优于基准、再训练或元训练(MAML)。
图 5:近期帧插值算法在 VimeoSeptuplet 82 数据集上的定性结果。请注意,我们的元训练(ALFA+MAML)输出推断运动效果远远优于元训练(MAML)或再训练模型,而且生成的纹理更加逼真。在这里,我们省略了基准结果,因为它通常与再训练结果相似或更差。
5 CONCLUSION
本工作提出了一种在基于梯度的元学习框架中生成任务自适应超参数的方法,以促进更好的泛化性能并加速适应过程(或内循环优化)。我们将该方法命名为 ALFA,所提出的方法使内循环中的学习率和权重衰减超参数能够根据基础学习器的当前学习状态自适应地调整。因此,ALFA 已被证明能够始终如一地提高小样本分类的性能,无论是使用随机初始化还是其他初始化。通过在多个不同问题领域中进行的强有力的实证验证,表明找到一个用于快速适应的良好权重更新规则与找到参数的良好初始化同样重要。
C. Finn, P. Abbeel, and S. Levine, “Model-agnostic meta-learning for fast adaptation of deep networks,” in ICML, 2017. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
S. Baik, S. Hong, and K. M. Lee, “Learning to forget for metalearning,” in CVPR, 2020. ↩︎ ↩︎ ↩︎ ↩︎
S. Baik, J. Oh, S. Hong, and K. M. Lee, “Learning to forget for metalearning via task-and-layer-wise attenuation,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022. ↩︎ ↩︎
E. Grant, C. Finn, S. Levine, T. Darrell, and T. Griffiths, “Recasting gradient-based meta-learning as hierarchical bayes,” in ICLR, 2018. ↩︎ ↩︎
A. A. Rusu, D. Rao, J. Sygnowski, O. Vinyals, R. Pascanu, S. Osindero, and R. Hadsell, “Meta-learning with latent embedding optimization,” in ICLR, 2019. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
R. Vuorio, S.-H. Sun, H. Hu, and J. J. Lim, “Multimodal modelagnostic meta-learning via task-aware modulation,” in NeurIPS, 2019. ↩︎ ↩︎
H. Yao, Y. Wei, J. Huang, and Z. Li, “Hierarchically structured meta-learning,” in ICML, 2019. ↩︎ ↩︎
G. Denevi, C. Ciliberto, R. Grazzi, and M. Pontil, “Learning-to-learn stochastic gradient descent with biased regularization,” in ICML, 2019. ↩︎ ↩︎
M. Khodak, M.-F. F. Balcan, and A. S. Talwalkar, “Adaptive gradient-based meta-learning methods,” in NeurIPS, 2019. ↩︎
A. Raghu, M. Raghu, S. Bengio, and O. Vinyals, “Rapid learning or feature reuse? towards understanding the effectiveness of maml,” in ICLR, 2020. ↩︎ ↩︎ ↩︎
A. Rajeswaran, C. Finn, S. Kakade, and S. Levine, “Meta-learning with implicit gradients,” in NeurIPS, 2019. ↩︎ ↩︎ ↩︎ ↩︎
D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” in ICLR, 2015. ↩︎
M. Andrychowicz, M. Denil, S. Gómez, M. W. Hoffman, D. Pfau, T. Schaul, and N. de Freitas, “Learning to learn by gradient descent by gradient descent,” in NIPS, 2016. ↩︎ ↩︎ ↩︎ ↩︎
O. Wichrowska, N. Maheswaranathan, M. W. Hoffman, S. G. Colmenarejo, M. Denil, N. de Freitas, and J. Sohl-Dickstein, “Learned optimizers that scale and generalize,” in ICML, 2017. ↩︎ ↩︎
S. Baik, M. Choi, J. Choi, H. Kim, and K. M. Lee, “Meta-learning with adaptive hyperparameters,” in NeurIPS, 2020. ↩︎
S. Bengio, Y. Bengio, J. Cloutier, and J. Gecsei, “On the optimization of a synaptic learning rule,” in Preprints Conf. Optimality in Artificial and Biological Neural Networks. Univ. of Texas, 1992, pp. 6–8. ↩︎
S. Hochreiter, A. Younger, and P. Conwell, “Learning to learn using gradient descent,” in ICANN, 2001. ↩︎ ↩︎
J. Schmidhuber, “Evolutionary principles in self-referential learning. on learning now to learn: The meta-meta-meta…-hook,” Diploma Thesis, Technische Universitat Munchen, Germany, 1987. ↩︎
——, “Learning to control fast-weight memories: An alternative to dynamic recurrent networks,” Neural Computation, 1992. ↩︎
S. Thrun and L. Pratt, Learning to learn. Springer Science & Business Media, 2012. ↩︎
G. Koch, R. Zemel, and R. Salakhutdinov, “Siamese neural networks for one-shot image recognition,” in ICMLW, 2015. ↩︎
J. Snell, K. Swersky, and R. Zemel, “Prototypical networks for few-shot learning,” in NIPS, 2017. ↩︎ ↩︎
F. Sung, Y. Yang, L. Zhang, T. Xiang, P. H. Torr, and T. M. Hospedales, “Learning to compare: Relation network for few-shot learning,” in CVPR, 2018. ↩︎ ↩︎
B. N. Oreshkin, P. Rodriguez, and A. Lacoste, “Tadam: Task dependent adaptive metric for improved few-shot learning,” in NeurIPS, 2018. ↩︎ ↩︎ ↩︎
O. Vinyals, C. Blundell, T. Lillicrap, K. Kavukcuoglu, and D. Wierstra, “Matching networks for one shot learning,” in NIPS, 2016. ↩︎ ↩︎ ↩︎ ↩︎
T. Munkhdalai and H. Yu, “Meta networks,” in ICML, 2017. ↩︎
T. Munkhdalai, X. Yuan, S. Mehri, and A. Trischler, “Rapid adaptation with conditionally shifted neurons,” in ICML, 2018. ↩︎
S. Ravi and H. Larochelle, “Optimization as a model for few-shot learning,” in ICLR, 2017. ↩︎ ↩︎ ↩︎ ↩︎
A. Santoro, S. Bartunov, M. Botvinick, D. Wierstra, and T. Lillicrap, “Meta-learning with memory-augmented neural networks,” in ICML, 2016. ↩︎
N. Mishra, M. Rohaninejad, X. Chen, and P. Abbeel, “A simple neural attentive meta-learner,” in ICLR, 2018. ↩︎
A. Nichol, J. Achiam, and J. Schulman, “On first-order metalearning algorithms,” arXiv preprint arXiv:1803.02999, 2018. ↩︎
A. Antoniou, H. Edwards, and A. Storkey, “How to train your maml,” in ICLR, 2019. ↩︎ ↩︎ ↩︎
C. Finn, K. Xu, and S. Levine, “Probabilistic model-agnostic metalearning,” in NeurIPS, 2018. ↩︎
S. Flennerhag, A. A. Rusu, R. Pascanu, F. Visin, H. Yin, and R. Hadsell, “Meta-learning with warped gradient descent,” in ICLR, 2020. ↩︎ ↩︎
M. A. Jamal and G.-J. Qi, “Task agnostic meta-learning for few-shot learning,” in CVPR, 2019. ↩︎
X. Jiang, M. Havaei, F. Varno, G. Chartrand, N. Chapados, and S. Matwin, “Learning to learn with conditional class dependencies,” in ICLR, 2019. ↩︎
E. Park and J. B. Oliva, “Meta-curvature,” in NeurIPS, 2019. ↩︎ ↩︎
E. Triantafillou, T. Zhu, V. Dumoulin, P. Lamblin, K. Xu, R. Goroshin, C. Gelada, K. Swersky, P.-A. Manzagol, and H. Larochelle, “Metadataset: A dataset of datasets for learning to learn from few examples,” in ICLR, 2020. ↩︎ ↩︎ ↩︎ ↩︎
M. Yin, G. Tucker, M. Zhou, S. Levine, and C. Finn, “Meta-learning without memorization,” in ICLR, 2020. ↩︎
L. M. Zintgraf, K. Shiarlis, V. Kurin, K. Hofmann, and S. Whiteson, “Fast context adaptation via meta-learning,” in ICML, 2019. ↩︎
Y. Liu, B. Schiele, and Q. Sun, “An ensemble of epoch-wise empirical bayes for few-shot learning,” in ECCV, 2020. ↩︎
K. Lee, S. Maji, A. Ravichandran, and S. Soatto, “Meta-learning with differentiable convex optimization,” in CVPR, 2019. ↩︎
S. X. Hu, P. G. Moreno, Y. Xiao, X. Shen, G. Obozinski, N. Lawrence, and A. Damianou, “Empirical bayes transductive meta-learning with synthetic gradients,” in ICLR, 2020. ↩︎ ↩︎
K. Lv, S. Jiang, and J. Li, “Learning gradient descent: Better generalization and longer horizons,” in ICML, 2017. ↩︎ ↩︎
L. Metz, N. Maheswaranathan, C. D. Freeman, B. Poole, and J. Sohl-Dickstein, “Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves,” arXiv preprint arXiv:2009.11243, 2020. ↩︎
L. Metz, N. Maheswaranathan, J. Nixon, C. D. Freeman, and J. Sohl-Dickstein, “Understanding and correcting pathologies in the training of learned optimizers,” in ICML, 2019. ↩︎ ↩︎
K. Li and J. Malik, “Learning to optimize,” in ICLR, 2017. ↩︎ ↩︎
C. Daniel, J. Taylor, and S. Nowozin, “Learning step size controllers for robust neural network training,” in AAAI, 2016. ↩︎ ↩︎
Z. Li, F. Zhou, F. Chen, and H. Li, “Meta-sgd: Learning to learn quickly for few shot learning,” arXiv preprint arXiv:1707.09835, 2017. ↩︎ ↩︎ ↩︎ ↩︎
Y. Lee and S. Choi, “Gradient-based meta-learning with learned layerwise metric and subspace,” in ICML, 2018. ↩︎
D. Maclaurin, D. Duvenaud, and R. P. Adams, “Understanding and correcting pathologies in the training of learned optimizers,” in ICML, 2015. ↩︎
L. Franceschi, M. Donini, P. Frasconi, and M. Pontil, “Forward and reverse gradient-based hyperparameter optimization,” in ICML, 2017. ↩︎
L. Franceschi, P. Frasconi, S. Salzo, R. Grazzi, and M. Pontil, “Bilevel programming for hyperparameter optimization and meta-learning,” in ICML, 2018. ↩︎
C. B. Do, C.-S. Foo, and A. Y. Ng, “Efficient multiple hyperparameter learning for log-linear models,” in NIPS, 2007. ↩︎
L. Metz, N. Maheswaranathan, B. Cheung, and J. Sohl-Dickstein, “Meta-learning update rules for unsupervised representation learning,” in ICLR, 2019. ↩︎
H. B. Lee, H. Lee, D. Na, S. Kim, M. Park, E. Yang, and S. J. Hwang, “Learning to balance: Bayesian meta-learning for imbalanced and out-of-distribution tasks,” in ICLR, 2020. ↩︎
M. Ren, E. Triantafillou, S. Ravi, J. Snell, K. Swersky, J. B. Tenenbaum, H. Larochelle, and R. S. Zemel, “Meta-learning for semi-supervised few-shot classification,” in ICLR, 2018. ↩︎
L. Bertinetto, J. F. Henriques, P. Torr, and A. Vedaldi, “Meta-learning with differentiable closed-form solvers,” in ICLR, 2019. ↩︎
C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, “The caltech-ucsd birds-200-2011 dataset,” Caltech, Tech. Rep., 2011. ↩︎ ↩︎
S. Baik, J. Choi, H. Kim, D. Cho, J. Min, and K. M. Lee, “Metalearning with task-adaptive loss function for few-shot learning,” ICCV, 2021. ↩︎ ↩︎ ↩︎
Z. Yue, H. Zhang, Q. Sun, and X.-S. Hua, “Interventional few-shot learning,” in NeurIPS, 2020. ↩︎
M. Boudiaf, I. Ziko, J. Rony, J. Dolz, P. Piantanida, and I. Ben Ayed, “Transductive information maximization for few-shot learning,” in NeurIPS, 2020. ↩︎ ↩︎
W.-Y. Chen, Y.-C. Liu, Z. Kira, Y.-C. Wang, and J.-B. Huang, “A closer look at few-shot classification,” in ICLR, 2019. ↩︎ ↩︎
Y. Tian, Y. Wang, D. Krishnan, J. B. Tenenbaum, and P. Isola, “Rethinking few-shot image classification: a good embedding is all you need?” ECCV, 2020. ↩︎
C. Doersch, A. Gupta, and A. Zisserman, “Crosstransformers: Spatially-aware few-shot transfer,” in NeurIPS, 2020. ↩︎
J. Requeima, J. Gordon, J. Bronskill, S. Nowozin, and R. E. Turner, “Fast and flexible multi-task classification using conditional neural adaptive processes,” in NeurIPS, 2019. ↩︎
P. Bateni, R. Goyal, V. Masrani, F. Wood, and L. Sigal, “Improved few-shot visual classification,” in CVPR, 2020. ↩︎
C. H. Kao, W.-C. Chiu, and P.-Y. Chen, “Maml is a noisy contrastive learner in classification,” in ICLR, 2022. ↩︎
H.-J. Ye and W.-L. Chao, “How to train your maml to excel in few-shot classification,” in ICLR, 2022. ↩︎
E. Park and A. C. Berg, “Meta-tracker: Fast and robust online adaptation for visual object trackers,” in ECCV, 2018. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Y. Song, C. Ma, L. Gong, J. Zhang, R. W. H. Lau, and M.-H. Yang, “Crest: Convolutional residual learning for visual tracking,” in ICCV, 2017. ↩︎
H. Nam and B. Han, “Learning multi-domain convolutional neural networks for visual tracking,” in CVPR, 2016. ↩︎
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet Large Scale Visual Recognition Challenge,” International Journal of Computer Vision (IJCV), vol. 115, no. 3, pp. 211–252, 2015. ↩︎
M. Kristan, R. Pflugfelder, A. Leonardis, J. Matas, F. Porikli, L. ˇCehovin Zajc, G. Nebehay, G. Fernandez, and T. V. et al., “The visual object tracking vot2013 challenge results,” in ICCV Workshop, 2013. ↩︎
M. Kristan, R. Pflugfelder, A. Leonardis, J. Matas, L. ˇCehovin Zajc, G. Nebehay, T. Vojir, G. Fernandez, and A. L. et al., “The visual object tracking vot2014 challenge results,” in ECCV Workshop, 2014. ↩︎
M. Kristan, J. Matas, A. Leonardis, M. Felsberg, L. ˇCehovin Zajc, G. Fernandez, T. Vojir, G. H ̈ager, and G. N. et al., “The visual object tracking vot2015 challenge results,” in ICCV Workshop, 2015. ↩︎
Y. Wu, J. Lim, and M.-H. Yang, “Object tracking benchmark,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015. ↩︎ ↩︎
M. Choi, J. Choi, S. Baik, T. H. Kim, and K. M. Lee, “Scene-adaptive video frame interpolation via meta-learning,” in CVPR, 2020. ↩︎ ↩︎ ↩︎
——, “Test-time adaptation for video frame interpolation via meta-learning,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022. ↩︎
S. Baker, D. Scharstein, J. P. Lewis, S. Roth, M. J. Black, and R. Szeliski, “A database and evaluation methodology for optical flow,” IJCV, vol. 92, no. 1, p. 1–31, 2010. ↩︎ ↩︎
W. Bao, W.-S. Lai, X. Zhang, Z. Gao, and M.-H. Yang, “Memcnet: Motion estimation and motion compensation driven neural network for video interpolation and enhancement,” arXiv preprint arXiv:1810.08768, 2018. ↩︎ ↩︎
T. Xue, B. Chen, J. Wu, D. Wei, and W. T. Freeman, “Video enhancement with task-oriented flow,” in CVPR, 2018. ↩︎ ↩︎