论文翻译：A Survey on In-context Learning

[Submitted on 31 Dec 2022 (v1), last revised 18 Jun 2024 (this version, v4)]
A Survey on In-context Learning
https://arxiv.org/pdf/2301.00234

关于上下文学习的研究

文章目录

关于上下文学习的研究
摘要
1 引言
2 定义和公式化
3 模型训练
- 3.1 预训练
- 3.2 预热
4 提示设计
- 4.1 示范组织
- - 4.1.1 示范选择
  - 4.1.2 示范重新格式化
  - 4.1.3 示范排序
- 4.2 指令格式化
- 4.3 评分函数
5 分析
- 5.1 影响因素
- - 5.1.1 预训练阶段
  - 5.1.2 推理阶段
- 5.2 学习机制
- - 5.2.1 功能模块
  - 5.2.2 理论解释
6 应用
7 挑战和未来方向
8 结论
限制

关于上下文学习的研究

摘要

随着大型语言模型（LLMs）能力的增强，上下文学习（ICL）已成为自然语言处理（NLP）的新范式，其中LLMs基于少数示例增强的上下文进行预测。探索ICL以评估和推断LLMs的能力已成为一个显著趋势。在本文中，我们旨在调查和总结ICL的进展和挑战。我们首先提出ICL的正式定义，并阐明其与相关研究的相关性。然后，我们组织和讨论先进技术，包括训练策略、提示设计策略和相关分析。此外，我们探索了ICL的各种应用场景，如数据工程和知识更新。最后，我们讨论了ICL的挑战，并为进一步研究提出潜在方向。我们希望我们的工作能鼓励更多关于揭示ICL工作原理和改进ICL的研究。

1 引言

随着模型规模和数据规模的扩大（Brown et al., 2020; Chowdhery et al., 2023; OpenAI, 2023; Touvron et al., 2023a, b），大型语言模型（LLMs）展示了上下文学习（ICL）能力，即从上下文中的少数示例中学习。许多研究表明，LLMs可以通过ICL执行一系列复杂任务，如解决数学推理问题（Wei et al., 2022c）。这些强大的能力已被广泛验证为大型语言模型的新能力（Wei et al., 2022b）。

上下文学习的关键思想是从类比中学习。图1给出了一个示例，描述了语言模型如何通过ICL做出决策。首先，ICL需要一些示例来形成一个提示上下文。这些示例通常用自然语言模板编写。然后，ICL将查询问题和提示上下文片段连接起来形成输入，然后输入到语言模型中进行预测。与需要使用反向梯度更新模型参数的训练阶段的监督学习不同，ICL不执行参数更新。模型被期望学习示范中隐藏的模式，并据此做出正确的预测。

在这里插入图片描述

图1：上下文学习的说明。ICL需要一个包含几个用自然语言模板编写的示例的提示上下文。以这个提示和查询作为输入，大型语言模型负责进行预测。
在这里插入图片描述
图2：上下文学习的分类。

作为一种新范式，ICL具有多个吸引人的优势。首先，由于示例是用自然语言编写的，它提供了一个可解释的接口来与LLMs通信（Brown et al., 2020）。这种范式通过改变示例和模板，使将人类知识整合到LLMs中变得更加容易（Liu et al., 2022; Lu et al., 2022; Wei et al., 2022c; Wu et al., 2023b）。其次，上下文学习类似于人类通过类比学习的决策过程（Winston, 1980）。第三，与监督训练相比，ICL是一个无需训练的学习框架。这不仅可以大大减少适应新任务的模型的计算成本，而且可以使语言模型即服务（Sun et al., 2022）成为可能，并可以轻松应用于大规模现实世界任务。

尽管前景光明，ICL中也存在一些有趣的问题和引人入胜的特性，需要进一步调查。尽管一系列普通的GPT模型显示出出色的ICL能力，但一些研究发现，通过预训练期间的适应，这种能力可以显著提高（Min et al., 2022b; Li et al., 2024c）。此外，ICL的性能对特定设置敏感，包括提示模板、示例的选择和顺序以及其他因素（Wang et al., 2023e; Liu et al., 2024b）。此外，优化示例的简洁性和提高ICL的计算效率是正在进行研究的关键领域（Liu et al., 2024a）。此外，尽管有初步解释（Dai et al., 2023a; Jiang, 2023），ICL的潜在工作机制仍然不清楚，需要进一步调查。

随着ICL研究的迅速增长，我们的调查旨在使社区对当前进展保持敏感。在接下来的部分中，我们将深入讨论相关研究，并在附录A中总结关键发现。我们强调挑战和潜在方向，并希望我们的工作为对此领域感兴趣的初学者提供一个有用的路线图，并为未来研究提供启示。

2 定义和公式化

遵循Brown et al. (2020)，我们在这里提供上下文学习的正式定义：

上下文学习是一种范式，允许语言模型仅通过几个示例的形式来学习任务。

正式地，给定一个查询输入文本 ( x ) 和一组候选答案 ( Y = {y_1, \ldots, y_m} )，预训练的语言模型 ( \mathcal{M} ) 采用最大分数的候选答案作为预测，1 条件是示范集 ( C )。( C ) 包含一个可选的任务指令 ( I ) 和 ( k ) 个示范示例，因此 ( C = {I, s((x_1, y_1)), \ldots, s((x_k, y_k))} ) 或 ( C = {s’((x_1, y_1, I)), \ldots, s’((x_k, y_k, I))} )，其中 ( s’((x_i, y_i, I)) ) 是根据任务用自然语言编写的示例。候选答案 ( y_j ) 的可能性来自整个输入序列上的评分函数 ( f )：
在这里插入图片描述

在这里插入图片描述

最终预测标签 ( \hat{y} ) 是具有最高概率的候选答案：

根据定义，我们可以看到ICL与相关概念的不同之处如下：
(1) 提示学习：提示可以是离散模板或软参数，鼓励模型预测所需的输出。ICL可以被视为提示调整的一个子类，其中示例是提示的一部分。Liu et al. (2023c) 对提示学习进行了彻底的调查，但他们的研究中没有包括ICL。
(2) 少样本学习：少样本学习是一种通用的机器学习方法，涉及调整模型参数以使用有限数量的监督示例执行任务 Wang and Yao (2019)。相比之下，ICL不需要参数更新，而是直接在预训练的LLMs上执行。

3 模型训练

尽管LLMs直接展示了有希望的ICL能力，但许多研究表明，这些ICL能力可以通过推理前的专门训练进一步增强 Chen et al. (2022); Gu et al. (2023); Shi et al. (2024)。

3.1 预训练

提高LLMs ICL能力的一个直接方向是通过预训练或持续预训练。例如，Gu et al. (2023) 和 Shi et al. (2024) 提出通过聚合相关上下文重新组织预训练语料库，使模型学会跨先前示范进行推理。不同地，Li et al. (2024c) 引入了一种元蒸馏预训练过程，允许LLMs使用蒸馏示范向量进行推理，从而在不牺牲有效性的情况下提高ICL效率。
在这里插入图片描述

图3：通过两个不同阶段——预训练和预热——增强ICL能力的模型训练方法的说明。

3.2 预热

另一种增强ICL能力的方法是在预训练和ICL推理之间添加一个持续训练阶段，我们简称为模型预热。预热是ICL的可选过程，通过修改或添加参数在推理前调整LLMs。

由于大多数预训练数据并非为ICL量身定制 (Chen et al., 2022)，研究人员引入了各种预热策略来弥合预训练和ICL推理之间的差距。Min et al. (2022b) 和 Wang et al. (2022b) 提出在多个示例的广泛任务上继续微调LLMs，这增强了ICL能力。为了鼓励模型从上下文中学习输入-标签映射，Wei et al. (2023a) 提出了符号调整，用任意符号（例如，“foo/bar”）替换自然语言标签（例如，“正面/负面情感”）。Chen et al. (2022) 提出了一种自监督方法，将原始文本与下游任务中的ICL格式对齐。此外，多项研究表明指令具有潜在价值 Mishra et al. (2021); Wei et al. (2022a)。在超过60个通过自然语言指令模板表述的数据集上调整137B LaMDA-PT Thoppilan et al. (2022)，FLAN Wei et al. (2022a) 提高了LLMs遵循指令的能力，从而提高了零样本和少样本ICL性能。Chung et al. (2022) 和 Wang et al. (2022b) 提出进一步扩大指令调整，使用超过1000+任务指令。

4 提示设计

在这里插入图片描述

表1：代表性示范设计方法的总结。

在这一部分，我们关注推理期间ICL的原则，包括示范组织（§4.1）和指令格式化（§4.2）。

4.1 示范组织

许多研究表明，ICL的性能强烈依赖于示范表面，包括示范示例的选择、格式化和排序 (Zhao et al., 2021; Lu et al., 2022)。在这一小节中，我们调查示范组织策略，并将它们归类为三类，如表1所示。

4.1.1 示范选择

示范选择旨在回答一个基本问题：哪些样本是ICL的好示例？我们将相关研究归类为两种方法：基于预定义度量的无监督方法和监督方法。

无监督方法
选择ICL示例的一种直接方法是根据它们与输入实例的相似性选择最近邻 Liu et al. (2022); Tanwar et al. (2023); Qin et al. (2023)。距离度量，如基于句子嵌入的L2距离或余弦相似度，通常用于此目的。例如，Liu et al. (2022) 提出了KATE，第一个基于 kNN 的无监督检索器，用于选择上下文示例。类似地，可以检索 kNN 跨语言示范，以加强多语言ICL中的源-目标语言对齐 (Tanwar et al., 2023)。Su et al. (2023) 提出了结合图和置信度分数来选择多样化和代表性示例。除了距离度量，互信息 Sorensen et al. (2022) 和困惑度 Gonen et al. (2023) 已被证明对于没有标记示例或特定LLMs的提示选择具有价值。此外，使用LLMs的输出分数作为无监督度量在示范选择中显示出有效性 (Wu et al., 2023b; Nguyen and Wong, 2023; Li and Qiu, 2023)。特别是，Wu et al. (2023b) 根据给定 ( x ) 和 ( C ) 压缩标签 ( y ) 的数据传输的码长选择了 ( k ) NN示例的最佳子集排列。Li and Qiu (2023) 使用信息分数，即验证集中所有 ( (x, y) ) 对的 ( P(y|x_i, y_i, x) \times P(y|x) ) 的平均值，具有多样性正则化。

监督方法
尽管现成的检索器为广泛的NLP任务提供了便捷的服务，但由于缺乏任务特定的监督，它们是启发式的且次优的。为了解决这个问题，已经开发了许多监督方法 Rubin et al. (2022); Ye et al. (2023); Wang et al. (2023e); Zhang et al. (2022a)。EPR Rubin et al. (2022) 引入了一个两阶段方法来训练一个密集检索器用于示范选择。对于特定的输入，它首先使用无监督方法（例如，BM25）来召回类似的示例作为候选，然后使用这些数据构建一个监督密集检索器。在EPR之后，Li et al. (2023d) 采用了一个统一的示范检索器来跨不同任务选择示范。与之前检索单个示范的工作不同，Ye et al. (2023) 提出了检索整个示范集以模拟示例之间的相互关系。此外，Mavromatis et al. (2023) 引入了AdaICL，这是一种模型自适应方法，它使用LLM来预测未标记的数据集，为每个实例生成一个不确定性分数。

基于提示调整，Wang et al. (2023e) 将LLMs视为可以从少数示范中推断概念 ( \theta ) 并基于这些概念生成标记的主题模型。他们用与任务相关的概念标记表示潜在概念，这些概念被学习以最大化 ( P(y|x, \theta) )。示范的选择基于它们推断概念变量的可能性，使用 ( P(\theta|x, y) )。此外，Zhang et al. (2022a) 引入了强化学习用于示例选择。他们将示范选择公式化为一个马尔可夫决策过程 Bellman (1957) 并通过Q学习选择示范。动作是选择一个示例，奖励被定义为标记验证集的准确性。
在这里插入图片描述

表2：示范选择方法的公平比较。CQA和News分别是常识问答和AG新闻的缩写。最佳结果已加粗。我们在topk (Liu et al., 2022)、votek (Su et al., 2023)、mdl (Wu et al., 2023b)上的实验表明，topk平均选择最有效的示例。
为了更直观地比较几种无监督方法的性能，我们选择topk (Liu et al., 2022)、votek (Su et al., 2023)、mdl (Wu et al., 2023b)进行实验。结果如表2所示。实验的详细信息可以在附录B中找到。

4.1.2 示范重新格式化

除了直接从训练数据中选择示例，另一研究趋势涉及利用LLMs重新格式化现有示范的表示 Kim et al. (2022); Yang et al. (2023a); Hao et al. (2022b); Yang et al. (2023b); Liu et al. (2024a); Li et al. (2024a)。例如，Kim et al. (2022) 提出直接从LLMs生成示范以减少对外部示范数据的依赖。结构化提示 (Hao et al., 2022b) 提议用特殊的定位嵌入分别编码示范示例，然后使用重新调整的注意力机制提供给测试示例。与这些方法不同，其他方法专注于修改示范的潜在表示 (Liu et al., 2024a; Li et al., 2024a)。具体来说，Liu et al. (2024a) 开发了从LLMs中示范示例的潜在嵌入派生的上下文向量 (ICVs)。这些ICVs在推理期间用于调整LLM的潜在状态，从而增强模型更有效遵循示范的能力。

4.1.3 示范排序

对选定的示范示例进行排序也是示范组织的一个重要方面。Lu et al. (2022) 已证明顺序敏感性是一个普遍存在的问题，对各种模型始终存在。为了处理这个问题，以前的研究提出了几种无需训练的方法来排序示范示例。特别是，Liu et al. (2022) 根据它们与输入的接近度排列示例，将最接近的示例定位为最右边的示范。Lu et al. (2022) 引入了全局和局部熵度量，发现这些度量与ICL性能之间存在正相关。因此，他们利用熵度量来确定最优的示范排序。此外，ICCL (Liu et al., 2024b) 建议从简单到复杂对示范进行排序，从而在推理过程中逐步增加示范示例的复杂性。

4.2 指令格式化

格式化示范的一种常见方法是将示例 ( (x_1, y_1), \ldots, (x_k, y_k) ) 与模板 ( \mathcal{T} ) 直接串联。然而，在需要复杂推理的任务（例如，数学文字问题和常识推理）中，仅凭 ( k ) 个示范很难学习从 ( x_i ) 到 ( y_i ) 的映射。尽管在提示中已经研究了模板工程 (Liu et al., 2023c)，但一些研究人员旨在通过用指令 ( I ) 描述任务来为ICL设计更好的示范格式。Honovich et al. (2023) 发现，给定几个示范示例，LLMs可以自己生成任务指令。考虑到LLMs的生成能力，Zhou et al. (2023c) 提出了一个自动提示工程师，用于自动指令生成和选择。为了进一步提高自动生成指令的质量，一些策略提出了使用LLMs从自己的生成中引导 (Wang et al., 2023f; Chen et al., 2024)。此外，思维链 (CoT) Wei et al. (2022c) 在输入和输出之间引入中间推理步骤，以增强问题解决和理解。最近的进步还强调了在模型中增强逐步推理的过程 (Zhang et al., 2023c; Wang et al., 2022a; Zhou et al., 2023a)。
在这里插入图片描述

4.3 评分函数

在这里插入图片描述

表3：不同评分函数的总结。覆盖率指的是任务覆盖率。
评分函数决定了如何将语言模型的预测转换为特定答案可能性的估计。直接方法使用模型词汇表中表示候选答案的标记的条件概率 (Brown et al., 2020)。选择概率最高的答案作为最终答案，但这种方法通过要求答案标记位于输入序列的末端来限制模板设计。困惑度 (PPL) 是另一种常用的度量，它计算整个输入序列 ( S_j = { C, s(x, y_j, I) } ) 的句子困惑度，包括来自示范示例的标记 ( C )、输入查询 ( x ) 和候选标签 ( y_j )。PPL评估句子的概率，消除了标记位置限制，但需要额外的计算时间。Min et al. (2022a) 提出使用信道模型 (Channel) 反向计算条件概率，估计给定标签的输入查询的可能性。这种方法要求语言模型生成输入中的每个标记，可能在不平衡的训练数据下提高性能。我们在表3中总结了这三种评分函数。
在这里插入图片描述

5 分析

为了理解ICL，最近的研究表明试图调查什么影响ICL性能 Shin et al. (2022); Yoo et al. (2022); Kossen et al. (2023) 以及为什么ICL有效 Dai et al. (2023a); Irie et al. (2022)。在这一部分，我们详细阐述了影响因素 (§5.1) 和学习机制 (§5.2)，如图4所示。
在这里插入图片描述

图4：与ICL性能相关性较强的因素总结，以及解释为什么ICL有效的不同视角。

5.1 影响因素

我们讨论了相关研究，这些研究涉及什么影响ICL性能，包括预训练阶段和推理阶段的因素。

5.1.1 预训练阶段

我们首先介绍影响预训练阶段的因素。预训练语料库的多样性显著影响ICL性能 Shin et al. (2022); Yadlowsky et al. (2023); Raventós et al. (2023)。特别是，Shin et al. (2022) 发现源域比语料库大小更重要，这表明结合多个语料库可能导致ICL能力的产生。同样，Raventós et al. (2023) 通过实证确定了任务多样性阈值，超过这个阈值，LLMs在未见任务中表现出强大的ICL能力。另一研究线索调查了数据分布对ICL的影响 Chan et al. (2022); Wies et al. (2023)。例如，Chan et al. (2022) 证明当训练数据表现出特定的分布属性时，例如突发性，即项目以簇的形式出现而不是均匀分布在时间上时，ICL能力就会出现。

除了这些工作，一些研究还调查了模型架构和训练过程对ICL性能的影响 Wei et al. (2022b); Brown et al. (2020); Ding et al. (2024)。Wei et al. (2022b) 调查了许多大规模模型在多项任务上的新能力。他们建议，当预训练模型达到大量的预训练步骤或模型参数时，它会获得一些新出现的ICL能力。Ding et al. (2024) 指出，在推理期间，上下文样本应该相互关注，这表明当前的因果LLMs可能导致次优的ICL性能。

5.1.2 推理阶段

在推理期间，示范示例的多个属性也影响ICL性能。Min et al. (2022c) 证明了输入-标签设置，如配对格式、标签空间的暴露和输入分布，对ICL性能有重要贡献。然而，与Min et al. (2022c) 的结论相反，即输入-标签映射对ICL影响不大，后续研究表明准确的映射显著影响ICL性能 Yoo et al. (2022); Pan et al. (2023a); Tang et al. (2023a)。Wei et al. (2023b) 进一步指出，颠倒或语义无关的输入-标签映射也可以被学习。

从示范构建的角度来看，最近的文献关注示范的多样性和简单性 An et al. (2023)，样本的顺序 Lu et al. (2022); Zhang et al. (2022b); Liu et al. (2023b)，以及示范与查询之间的相似性 Liu et al. (2022)。例如，Liu et al. (2022) 发现，嵌入更接近查询样本的示范样本通常比那些嵌入更遥远的样本表现更好。值得注意的是，尽管努力完善示范以优化性能，但在ICL推理期间仍然存在明显的特性偏差 Si et al. (2023)。克服强烈的先验偏差，并确保模型对所有上下文信息给予同等重视，仍然是挑战 Kossen et al. (2023)。

5.2 学习机制

从学习机制的角度来看，我们深入研究了为什么ICL有效。

5.2.1 功能模块

ICL能力与Transformers内特定功能模块密切相关。作为核心组件之一，注意力模块是ICL机制研究的焦点 (Olsson et al., 2022; Bietti et al., 2023; Dai et al., 2023a; Irie et al., 2022; Li et al., 2023c; Gao et al., 2023; Zhang et al., 2023b)。特别是，Olsson et al. (2022) 识别了特定的注意力头，称为“归纳头”，它们可以复制以前的模式以进行下一个标记的预测，从而逐步发展ICL能力。此外，Wang et al. (2023b) 关注了Transformers中的信息流，并发现在ICL过程中，示范标签词充当锚点，聚合并分发关键信息以进行最终预测。

5.2.2 理论解释

在这小节中，我们从不同视角介绍ICL的理论解释。
贝叶斯视角
在贝叶斯框架中，ICL被解释为隐式贝叶斯推断，模型通过识别示例中的共享潜在概念来执行ICL (Xie et al., 2022; Wies et al., 2023; Ahuja et al., 2023; Jiang, 2023; Wang et al., 2023e)。其他视角表明，LLMs通过注意力机制编码贝叶斯模型平均算法 (Zhang et al., 2023b)。随着上下文示例数量的增加，隐式贝叶斯推断变得类似于核回归 (Han et al., 2023a)。

梯度下降视角
梯度下降为理解ICL提供了另一个有价值的视角。Dai et al. (2023a) 确定了Transformer注意力和梯度下降之间的对偶形式，发现基于GPT的ICL从多个角度表现出与显式微调类似的行为。其他研究试图在简化的回归设置中建立ICL和梯度下降之间的联系 (von Oswald et al., 2023; Ahn et al., 2023; Mahankali et al., 2023; Li et al., 2023c)。例如，von Oswald et al. (2023) 表明，具有手动构造参数的线性仅注意力Transformer与通过梯度下降学习到的模型密切相关。Li et al. (2023c) 发现，仅自注意力Transformer表现出与通过梯度下降训练的模型的相似性。然而，这些研究中使用的简化设置导致了关于这些联系在现实世界环境中直接适用性的辩论 (Shen et al., 2024)。Fu et al. (2023) 认为，Transformers在线性回归中执行ICL使用的是高阶优化技术而不是梯度下降。

其他视角
除了将ICL与单一算法联系起来，研究人员还从包括能力解耦、算法学习和信息论在内的多种角度分析了ICL。Pan et al. (2023b) 将ICL能力解耦为任务识别能力和任务学习能力，每种能力在不同条件下表现。另一种典型理论将ICL抽象为算法学习问题 (Akyürek et al., 2023; Garg et al., 2022; Li et al., 2023e; Bai et al., 2023b)，其中Transformers动态选择适合不同ICL实例的算法，如梯度下降和岭回归。此外，Hahn and Goyal (2023) 利用信息论在语言学激励的假设下展示了ICL的错误界限，解释了下一个标记预测如何带来ICL能力。

这些分析性研究已经迈出了解释ICL的重要一步。然而，它们大多数集中在简单任务和小模型上。扩展对广泛任务和大型模型的分析可能是下一步要考虑的。

6 应用

鉴于其用户友好的界面和轻量级的提示方法，ICL在传统NLP任务上有广泛的应用 Kim et al. (2022); Min et al. (2022b); Zhu et al. (2023b)。特别是，通过使用明确指导推理过程的示例，ICL在需要复杂推理的任务上表现出显著的效果 Wei et al. (2022c); Li et al. (2023b); Zhou et al. (2022) 和组合泛化 Zhou et al. (2023a)。

我们探索了ICL的一些新兴和流行的应用，包括数据工程、模型增强和知识更新。

数据工程：与传统方法如人工注释和嘈杂的自动注释不同，ICL以较低的成本生成相对高质量的数据，从而提高性能。Wang et al. (2021); Khorashadizadeh et al. (2023); Ding et al. (2023)。
模型增强：ICL的上下文灵活性在模型增强方面显示出前景。它可以通过将基础文档添加到输入中来增强检索增强方法 Ram et al. (2023)。此外，用于检索的ICL在引导模型朝向更安全的输出方面显示出潜力 Panda et al. (2023); Meade et al. (2023)。
知识更新：LLMs通常包含过时或错误的知识 Dong et al. (2023)。ICL已证明通过精心设计的示例修正此类知识是有效的，与基于梯度的方法相比，成功率更高 De Cao et al. (2021)。

如上所述，ICL在传统和新兴的NLP应用上都带来了显著的好处。ICL在NLP的巨大成功激发了研究人员探索其在文本之外的各种模态中的潜力（在附录D中详细说明），包括视觉 Bar et al. (2022); Wang et al. (2023c)、视觉-语言 Tsimpoukelli et al. (2021); Alayrac et al. (2022)，以及语音应用 Wang et al. (2023a); Zhang et al. (2023d)。

7 挑战和未来方向

在这一部分，我们回顾现有的挑战并讨论ICL的未来方向。

效率和可扩展性
ICL中使用示例引入了两个挑战：(1) 随着示例数量的增加，计算成本更高（效率），以及 (2) 由于LLMs的最大输入长度，可学习的样本更少（可扩展性）。先前的研究试图通过将冗长的示例蒸馏成紧凑的向量 Li et al. (2024d, c) 或加快LLM推理时间 Liu et al. (2023d) 来缓解这些问题。然而，这些方法通常涉及性能的权衡，或需要访问模型参数，这对于像ChatGPT和Claude这样的闭源模型是不切实际的 Zhou et al. (2023b)。因此，提高ICL的可扩展性和效率，以应对更多的示例，仍然是一个重大挑战。

泛化
ICL严重依赖于从注释示例中精选的高质量示例，这些示例在低资源语言和任务中往往稀缺。这种稀缺性对ICL的泛化能力构成了挑战 He et al. (2024)。鉴于注释的高资源数据和低资源数据的可用性存在巨大差异，利用高资源数据解决低资源任务的潜力非常吸引人 Chatterjee et al. (2024); Tanwar et al. (2023)。

长上下文ICL
在上下文扩展的LLMs的最新进展推动了对使用越来越多示例的ICL影响的研究 Agarwal et al. (2024); Bertsch et al. (2024)。然而，研究人员发现，增加示例数量并不一定能提高性能，甚至可能是有害的。这些性能下降表明需要进一步调查。此外，Li et al. (2024b) 开发了LongICLBench，包括多样化的极端标签分类任务，揭示了LLMs在理解扩展示例方面的进一步弱点。