TSB - AD 解读 — 迈向可靠、透明的 TSAD 任务

一文章动机

二 TSAD 领域内的两类缺陷

三数据集的构建

四实验结果及结论

项目宣传链接：TSB-AD

代码链接： TheDatumOrg/TSB-AD: TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark

原作者解读：NeurIPS 2024 | 时序异常检测基准 TSB-AD - 知乎

TSB - AD 与其他TSAD基准的全面对比：

一文章动机

1. 长期以来，由于使用含缺陷的基准数据集、存在偏见的评估方法、不一致的基准实践，TSAD 领域面临诸多困扰；

2. Wu & Keogh 发起对 TSAD 数据集含缺陷的讨论：triviality, anomaly density, mislabeling, and
run-to-failure bias（异常标注琐碎、异常密度、标签错误、运行失败偏差）；

3. UCR 数据集虽近期收到较多推崇，但仍存在重大缺陷：① 它忽视了某些时序异常区域；② 它通过 “人为引入” 时序异常；

4. “everyone wants to do the model work instead of the data work”, resulting in limited new efforts to produce a large-scale, high-quality dataset.（典中典的问题）

5. 存在偏见的评估方法（尤其指：“点调整” 后的指标）：随机分数、噪音输入、“嘈杂” 输入会造成“进步错觉”：（*此处补充 SimAD 的示意图进行说明，不属于原文内容）

6. “模型预处理” 及 “模型评测方式” 的不一致，也会造成不合理的 TSAD 模型质量评估；

7. 指标推荐：VUS - PR、VUS - ROC 等；

二 TSAD 领域内的两类缺陷

① 基准数据集的缺陷：

(a) 漏标、误标：数据集标注者被许可访问并接触 “额外的、未批露的数据”，因此 “不显著” 的时序异常标记是合理的；然而数据集内存在 “相似” 时序被赋予 “不同” 标签，则不合理；TSB - AD 对其进行修正；

(b) 偏差现象：Yahoo 数据集通常在数据末端标注异常，使结果不合理地倾向将末端数据点预测为异常的算法；UCR 数据集仅标注最显著的异常现象，忽略对潜在异常的标注，此外，单变量时序不符合真实世界场景；

(c) 可行性、实用性：为 “分类” 任务设计的数据集被不恰当用于 “异常检测”，仅仅简单地将少数类重新分类为 “异常”；然而，“少数类” 的占比超出了 “异常” 的占比，不切实际的异常比率违反 “异常不应频繁发生” 的基本原则，与异常检测器的设计原则相悖；

② 评估指标的缺陷：

(a) AUC - ROC 不适配针对 “不平衡分类任务” 的模型评估，AUC - PR 更优；

(b) 基于点的一系列评估指标，对 “靠前或滞后（lag）” 检测到异常的行为过分敏感，惩罚力度过大，不够合理；

(c) 点调整（PA）假设检测到异常段内的任何点都被视为检测到该段内的所有点。然而，该指标倾向于支持 “有噪声” 的预测，随机分数也有机会预测真实异常序列中的点，性能与SOTA相当。随机生成的预测在点调整下甚至优于SOTA方法；异常平均长度增加时，点调整后的F分数接近1。

三数据集的构建

四实验结果及结论

1. 各类模型在 "TSB - AD - U"（单变量）及 "TSB - AD - M"（多变量）数据集上的整体实验结果：

2. 对各类“模型评测指标” 的评估实验：

3. 部分有价值的结论：

1. 统计方法表现出稳健的性能，而神经网络方法并未表现出通常被认为的优势。然而，神经网络和基础模型在检测点异常以及处理多变量场景时仍展现了较大的潜力；
2. 简单的架构（如：CNN 和 LSTM）通常优于更复杂的设计（如：高级 Transformer 架构）；
3. 基础模型在检测基于点的异常方面表现出色，但在处理序列异常时表现较弱，主要原因在于其预测机制仅基于有限的回溯窗口逐步估算新的值。当面对长序列异常时，受限的时间上下文往往导致性能下降和噪声较大的得分。此外，使用有缺陷的点调整技术（偏向这些噪声得分）进一步加剧了问题，导致进展的假象；
4. 时间序列基础模型的表现展现出极大潜力：它们在微调后不仅能取得良好表现，还在零样本能力上优于大多数现有的统计方法和神经网络方法。然而，基础模型的主要担忧是由于预训练数据规模庞大，可能导致数据污染，因此在实际部署时需谨慎；
5. 将大型语言模型（LLM）应用于时间序列异常检测的努力结果并不令人满意，表明该领域仍存在显著的研究空白；
6. 在表现最佳的方法中，Sub-PCA 和 KShapeAD 表现出色，尽管它们多年来一直被忽视为基本基线，且未在先前的广泛评估研究中被发现。CNN 和 OmniAnomaly 在多变量场景中的强劲表现 — 与之前的基准结果相反，当时 KMeansAD 被认为更优 — 表明多变量时间序列中的复杂场景需要更高的建模能力，通常超出统计方法的范围。