TSB - AD 解读 — 迈向可靠、透明的 TSAD 任务

server/2025/3/18 11:22:59/

目录

一  文章动机

二  TSAD 领域内的两类缺陷

三  数据集的构建

四  实验结果及结论


项目宣传链接:TSB-AD

代码链接: TheDatumOrg/TSB-AD: TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark

原作者解读:NeurIPS 2024 | 时序异常检测基准 TSB-AD - 知乎 

TSB - AD 与其他TSAD基准的全面对比:

一  文章动机

1. 长期以来,由于使用含缺陷的基准数据集、存在偏见的评估方法、不一致的基准实践,TSAD 领域面临诸多困扰;

2. Wu & Keogh 发起对 TSAD 数据集含缺陷的讨论:triviality, anomaly density, mislabeling, and
run-to-failure bias(异常标注琐碎、异常密度、标签错误、运行失败偏差);

3. UCR 数据集虽近期收到较多推崇,但仍存在重大缺陷:① 它忽视了某些时序异常区域;② 它通过 “人为引入” 时序异常;

4.  “everyone wants to do the model work instead of the data work”, resulting in limited new efforts to produce a large-scale, high-quality dataset.(典中典的问题)

5. 存在偏见的评估方法(尤其指:“点调整” 后的指标):随机分数、噪音输入、“嘈杂” 输入会造成“进步错觉”:(*此处补充 SimAD 的示意图进行说明,不属于原文内容)

6. “模型预处理” 及 “模型评测方式” 的不一致,也会造成不合理的 TSAD 模型质量评估;

7. 指标推荐:VUS - PR、VUS - ROC 等;

二  TSAD 领域内的两类缺陷

① 基准数据集的缺陷:

(a) 漏标、误标:数据集标注者被许可访问并接触 “额外的、未批露的数据”,因此 “不显著” 的时序异常标记是合理的;然而数据集内存在 “相似” 时序被赋予 “不同” 标签,则不合理;TSB - AD 对其进行修正;

(b) 偏差现象:Yahoo 数据集通常在数据末端标注异常,使结果不合理地倾向将末端数据点预测为异常的算法;UCR 数据集仅标注最显著的异常现象,忽略对潜在异常的标注,此外,单变量时序不符合真实世界场景;

(c) 可行性、实用性:为 “分类” 任务设计的数据集被不恰当用于 “异常检测”,仅仅简单地将少数类重新分类为 “异常”;然而,“少数类” 的占比超出了 “异常” 的占比,不切实际的异常比率违反 “异常不应频繁发生” 的基本原则,与异常检测器的设计原则相悖;

② 评估指标的缺陷:

(a) AUC - ROC 不适配针对 “不平衡分类任务” 的模型评估,AUC - PR 更优;

(b) 基于点的一系列评估指标,对 “靠前或滞后(lag)” 检测到异常的行为过分敏感,惩罚力度过大,不够合理;

(c) 点调整(PA)假设检测到异常段内的任何点都被视为检测到该段内的所有点。然而,该指标倾向于支持 “有噪声” 的预测,随机分数也有机会预测真实异常序列中的点,性能与SOTA相当。随机生成的预测在点调整下甚至优于SOTA方法;异常平均长度增加时,点调整后的F分数接近1。

三  数据集的构建

四  实验结果及结论

1. 各类模型在 "TSB - AD - U"(单变量)及 "TSB - AD - M"(多变量)数据集上的整体实验结果:

2. 对 各类“模型评测指标”  的评估实验:

3. 部分有价值的结论: 

1. 统计方法表现出稳健的性能,而神经网络方法并未表现出通常被认为的优势。然而,神经网络和基础模型在检测点异常以及处理多变量场景时仍展现了较大的潜力;
2. 简单的架构(如:CNN 和 LSTM)通常优于更复杂的设计(如:高级 Transformer 架构);
3. 基础模型在检测基于点的异常方面表现出色,但在处理序列异常时表现较弱,主要原因在于其预测机制仅基于有限的回溯窗口逐步估算新的值。当面对长序列异常时,受限的时间上下文往往导致性能下降和噪声较大的得分。此外,使用有缺陷的点调整技术(偏向这些噪声得分)进一步加剧了问题,导致进展的假象;
4. 时间序列基础模型的表现展现出极大潜力:它们在微调后不仅能取得良好表现,还在零样本能力上优于大多数现有的统计方法和神经网络方法。然而,基础模型的主要担忧是由于预训练数据规模庞大,可能导致数据污染,因此在实际部署时需谨慎;
5. 将大型语言模型(LLM)应用于时间序列异常检测的努力结果并不令人满意,表明该领域仍存在显著的研究空白;
6. 在表现最佳的方法中,Sub-PCA 和 KShapeAD 表现出色,尽管它们多年来一直被忽视为基本基线,且未在先前的广泛评估研究中被发现。CNN 和 OmniAnomaly 在多变量场景中的强劲表现 — 与之前的基准结果相反,当时 KMeansAD 被认为更优 — 表明多变量时间序列中的复杂场景需要更高的建模能力,通常超出统计方法的范围。


http://www.ppmy.cn/server/175941.html

相关文章

【Java】高频面试题

1. B树和B树的区别 结构差异: B树:所有节点都存储数据,非叶子节点也包含键值和数据指针。B树:只有叶子节点存储数据,非叶子节点仅作为索引(键值指针)。叶子节点通过链表连接。 查询效率&#x…

光伏储能:未来能源的黄金搭档

光伏储能正在重塑全球能源格局。随着技术进步和成本下降,这一组合已成为清洁能源领域最具潜力的解决方案。 光伏发电受天气影响大,发电不稳定。储能系统的加入完美解决了这一难题。白天储存的太阳能,可以在夜晚或阴天时稳定输出,…

测试工作内容

测试工作内容 1、阅读需求文档2、测试计划3、测试用例4、测试执行5、测试报告6、回归测试 1、阅读需求文档 系统需求可以明白何为正确2、测试计划 根据需求文档里的模块划分每一项工作 开始时间 结束时间排期---测试负责人【测试组长、测试经理、项目经理】3、测试用例 根据分…

01-1 音视频知识学习(音频)

音频常见名词采样频率:每秒钟采样的点的个数。 常用的采样频率有:22000(22kHz):无线广播。 44100(44.1kHz):CD音质。 48000(48kHz): 数字电视,DVD。 96000(96kHz):蓝光,高清DVD。 192000(192kHz):蓝光,高清DVD。采样精度(采样深度):每个“样本点”的大小…

SAP -ABAP:SAP 业务能力培养体系(结构化学习路径)

Ⅰ. 知识筑基阶段 1.1 SAP生态系统全景认知 ✅ 核心产品线架构 产品类型代表方案适用场景传统ERPECC 6.0中大型企业本地化部署智能ERPS/4HANA实时业务与数字化转型云解决方案SuccessFactors/AribaHR/采购云化行业解决方案IS-Retail/IS-Auto垂直领域深度适配 ✅ 系统交互基础…

【第15届蓝桥杯】软件赛CB组省赛

个人主页:Guiat 归属专栏:算法竞赛真题题解 文章目录 A. 握手问题(填空题)B. 小球反弹(填空题)C. 好数D. R格式E. 宝石组合F. 数字接龙G. 爬山H. 拔河 正文 总共8道题。 A. 握手问题(填空题&…

计算机网络-1-1计算机网络体系结构

第一章计算机网络体系结构 绪论 《计算机网络》学什么?——数据如何通过网络正确、可靠地从A传送到B 【考纲内容】 (一)计算机网络概述 计算机网络的概念、组成与功能;计算机网络的分类; 计算机网络的性能指标 (二)计算机网…

11 Collection集合、Map集合:分类、功能、遍历、底层原理,Stream流:获取、中间方法、终结方法 (黑马Java视频笔记)

文章目录 集合1. 认识集合2. Collection单列集合特点3. Collection单列集合的常用功能4. Collection的遍历方式1)迭代器遍历 Iterator2)增强for循环(for...each遍历)3)Lambda表达式:forEach(&am…