Leveraging Inter-rater Agreement for Classification in the Presence of Noisy Labels

摘要

在实际环境中，分类数据集是通过通常由人类完成的标记过程获得的。标签可能很嘈杂，因为它们是通过聚合由多个（可能是不一致的）注释器分配给同一样本的不同单个标签而获得的。在假设标签所受的潜在噪声分布未知的情况下，可以测量这些数据集上的参与者间一致性
本文方法

展示了如何利用注释器间统计来估计标签所受的噪声分布
引入使用噪声分布的估计来从噪声数据集中学习的方法
在经验风险最小化框架中建立依赖于估计量的泛化界限

相关工作

分类任务中，目标是获得最低的分类错误概率

0-1之间的损失函数给定数据集上犯了多少错误，并且经常用于分类器的评估，然而，它很少用于优化过程，因为它是不可微的和不连续的，因此一般使用hinge loss,squared error loss, cross-entropy损失函数
对称损失函数对标记噪声是鲁棒的，对称损失函数是所有类别上的风险之和等于每个任意示例的常数的函数，包括：0-1损失函数，softmax，均方差MAE，即使MAE是噪声容忍的，而分类交叉熵（CCE）不是，当用于在具有挑战性的领域中训练DNN时，MAE也会表现不佳。他们还提出了一个损失函数，可以看作是MAE和CCE的推广。其他几个不严格满足对称条件的损失函数也被提出在训练深度神经网络时对标签噪声具有鲁棒性
两种在类条件随机标签噪声存在的情况下修改代理损失的方法：第一种方法引入了一种新的损失，它是给定代理损失的无偏估计量，而第二种方法则引入了标签相关损失。

Labels aggregation

在构建用于监督学习的数据集时，数据通常不是由单个注释器标记的，而是要求多个不完美的注释器为文档分配标签。通常，在应用学习模型之前，将单独的标签聚合为一个标签。

在我们的工作中，我们建议利用注释器之间的一致性度量来显式计算数据集的噪声。最近，一些作品重新审视了聚合标签的选择。作者探讨了如何使用相关性判断分布而不是单值相关性标签来训练LETOR模型。他们将LETOR模型的输出解释为概率值或分布，并定义不同的基于KL散度的损失函数来训练模型。
他们提出的损失可以用于训练任何依赖于基于梯度的学习的排名模型（特别是他们专注于基于变换器的神经LETOR模型和基于决策树的GBM模型）。然而，作者没有直接估计注释中的噪声率，也没有研究从这些噪声标签中学习如何影响用他们介绍的方法训练的模型的泛化误差。作者分析了标签聚合和非聚合方法在许多流行损失函数的经验风险最小化背景下的性能，包括那些专门为噪声标签学习问题设计的损失函数。
他们得出的结论是，当噪声率高或标签器/注释的数量不足时，标签分离比标签聚合更可取。利用多个人工注释的可用性来构建软标签，并得出结论，这提高了对过时分布测试数据集的泛化性能和对对抗性攻击的鲁棒性。专注于从单个注释器中有效地引出软标签

Noise rate estimation

已经提出了许多方法来估计噪声转移矩阵（即，正确标签被改变为不正确标签的概率）。通常，这些方法使用少量锚点（属于概率为1的特定类别的样本）。特别是，提出了一种基于锚点的噪声估计方法，旨在提供一种“端到端”的噪声估计和学习方法。由于真实数据中缺乏锚点，一些工作专注于检测噪声数据中锚点的方法。作者建议引入一个中间类，以避免直接估计噪声类的后验性。

其他人提供了一种可以在没有锚点的情况下推断转换矩阵的解决方案。事实上，他们使用具有噪声数据的最高类后验概率的实例作为锚点。我们的工作与上述使用锚点的工作不同，因为我们不需要假设锚点的存在，也不需要有一个验证集来学习噪声率，而且我们只使用噪声数据来训练我们的模型，此外，我们也不打算在噪声数据中检测锚点。此外，这些工作中的大多数都没有研究所提出的模型的泛化性质，同时我们也解决了这个问题，并找到了依赖于估计的噪声转移矩阵的界