【KDD2024】大数据基础工程技术集群异常检测论文入选

news/2024/9/18 14:54:31/ 标签: 大数据, 论文, 数据挖掘, 异常检测算法, 阿里云

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》数据挖掘领域顶会ACM SIGKDD2024接收,该论文从集群整体作业执行情况分布入手,旨在解决集群整体作业运行变慢的异常检测问题。论文创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题,并使用基于神经网络最优运输模块,实现精准定向检测集群整体作业运行时间分布变慢的异常。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,被CCF(中国计算机学会)列为A类会议,KDD也是首个引入大数据、数据科学、预测分析、众包等概念的会议。KDD2024将于8.25-8.29, 在西班牙巴塞罗那举行。此次入选意味着阿里云提出的集群级别作业变慢异常检测框架获得了国际学者的认可,也是一次产学研结合的成功实践。

针对大规模云计算平台集群作业运行变慢的异常检测问题,存在以下挑战:

(1)从个体作业入手监测集群是否存在显著变慢问题,会受到虚拟环境不确定性对个体执行速度的干扰,对个体进行检测、形成定性结论再集合到整体的方式无法准确反映整体作业执行状况。

(2)对每个作业进行监测,与对整体分布进行监测相比,需要花费更多计算存储资源。

(3)训练数据中并不能总是保证所有数据都是正常的,往往也会夹杂无标签的异常数据,这与无监督异常检测的假设相悖。

论文首次从集群整体作业执行情况分布入手,检测集群整体作业分布变慢的问题。创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题。并使用基于神经网络最优运输模块,定向检测集群整体作业分布变慢的问题。论文从新的视角分析集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

目前对应算法已经在阿里云云原生大数据计算服务MaxCompute集群异常监控场景中进行灰度。可以有效地帮助运维人员对集群运行健康状况进行评估,提前发现可能的风险隐患。

论文信息

论文名字:Cluster-Wide Task Slowdown Detection in Cloud System

论文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

论文pdf链接:https://arxiv.org/abs/2408.04236

● 部分参考文献:

【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.

【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.

【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.

【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.

【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.


http://www.ppmy.cn/news/1517158.html

相关文章

服务器被渗透的表现及检测方法

本文将详细介绍服务器遭受渗透攻击后的常见症状,并提供一些实用的检测方法。我们还将通过具体的案例和代码示例来帮助读者更好地理解和检测服务器的安全状况。 1. 引言 服务器渗透是指攻击者未经授权访问服务器资源的过程。一旦服务器被成功渗透,可能会…

pgsql导入导出数据

1、pg_dump 进行数据库导出 导出数据库表结构和数据 pg_dump -U postgres -h localhost -d mydatabase -f /path/to/backup.sql-U 用户名-h 主机地址-d 要导出的数据库-f 导出的sql文件 2、pg_dumpall 备份所有数据库 pg_dumpall -U postgres -h localhost -f /path/to/all…

java框架基础--反射

前言 本文将详细讲述反射的基本概念以及反射底层代码的部分实现 反射 就是程序在运行状态时,对于任何一个类,都在仅知道类名的状况下,动态获取该类中的所有属性和方法(包括私有),可以动态地通过该类的对象调用类的属性和方法的机制称为反射机制 是将java中的类映射成一个个对象…

MAVEN 3.9.1安装

WIN系统MAVEN 3.9.1安装 1. 下载 下载官网地址:Index of /dist/maven/maven-3 (apache.org) 百度网盘: 通过网盘分享的文件:apache-maven-3.9.1-bin.zip 链接: https://pan.baidu.com/s/1VKmxrU5Hg6mbEUc43wjQUw 提取码: aua6 –来自百度网…

Linux 常用命令 - lsblk 【查看磁盘(块设备)使用情况】

简介 lsblk 源自于 “list block devices” 的缩写。这个命令用于列出系统中的所有块设备(block devices),比如硬盘、光驱等。它展示块设备的层次结构、大小和挂载点等信息,非常有助于系统管理员理解系统存储结构。 使用方式 l…

Spring:浅谈对SpringBean的认识

一、SpringBean的生命周期 1、实例化bean对象:通过反射的方式进行对象的创建,此时的创建只是在堆空间中申请空间,属性都是默认值。 2、设置对象属性:给对象中的属性进行值的设置工作。 3、检查Aware相关接口并设置相关依赖&#x…

C的温故而知新:位操作(C Primer Plus第十五章)

第十五章:位操作 这一章的篇幅不是很长,但既然能单独作为一章来讲的话,应该蛮重要的,但是我貌似没有总结出多少需要注意、加强记忆的东西,可见在JAVA的日常开发过程中基本不太遇见有关位操作的内容,所以我…

Apache Doris 使用 CBO 和 RBO 结合的优化策略

Apache Doris 在查询优化方面通过结合 RBO 和 CBO,实现了对简单和复杂查询的高效优化。RBO 负责处理常量折叠、子查询改写和谓词下推等基础优化操作,而 CBO 则在 Join Reorder 等复杂场景中发挥作用。这种结合策略使得 Apache Doris 能够在面对各种查询场景时,既能保证优化过…

4170条中医综合真题中医真题ACCESS\EXCEL数据库

今天这份数据库与《4820道西#医综合真#题西#医真题ACCESS数据库》结构相同,包含4千多道真题。这个数据库包含3个表,一个是分类表(SECTION_BEAN),一个是题库主表(QUESTION_INFO_BEAN)&#xff0c…

Queues

概述 RabbitMQ 是一个消息中间件: 它接收、存储并转发消息数据。本教程将带你通过一系列步骤来设置和使用 RabbitMQ。 环境准备 1. 安装 RabbitMQ - [下载](https://www.rabbitmq.com/download.html)并安装RabbitMQ服务器。 - 启动RabbitMQ服务器。 - 通过浏览器访问 htt…

全方位解析红鲸音视频会议SDK助力系统功能集成

在数字化转型的浪潮中,企业对于高效沟通与协作的需求日益迫切。随着远程办公、在线教育、在线医疗等场景的兴起,音视频会议功能已成为众多企业平台不可或缺的一部分。然而,对于许多企业而言,如何将这一功能无缝集成到现有系统或平…

只用一个 HTML 元素可以写出多少形状?——不规则图形篇

上一篇章的末尾(伪元素篇),我们送上了气泡框和笑脸两个好玩的案例。这两个案例其实就是使用伪元素实现的不规则图形的两个预热案例。 相信经过这两个案例的预热,聪明的您已经发现,通过适当且合理的拆分,就…

【Android 设备上的所有相关 WiFi 命令和使用方法】

请注意,这些命令的可用性可能会因设备型号和 Android 版本的不同而有所变化。 1. adb shell cmd wifi 命令 1.1 查看 WiFi 状态 命令:adb shell cmd wifi status功能: 查看 WiFi 的当前状态,如是否开启、连接的网络等。示例:adb shell cmd wifi status1.2 执行 WiFi 扫描 命…

王立铭脑科学50讲:34、两性,脑功能有没有性别差异

王立铭脑科学50讲:34、两性,脑功能有没有性别差异 自己的学习笔记。 1、从脑科学角度出发,1在认知能力上,两性在认知能力上,差别是微乎其微的。 有这个一个思想实验,假设刚开始两性有差异,经…

【人工智能 | 机器学习 | 理论篇】决策树(decision tree)

文章目录 1. 基本流程2. 划分选择2.1 信息增益2.2 增益率2.3 基尼系数 3. 剪枝处理3.1 预剪枝3.2 后剪枝 4. 连续与缺失值4.1 连续值处理4.2 缺失值处理 5. 多变量决策树 1. 基本流程 二分类任务决策树流程: 决策树:包含 1个根结点、若干个内部结点、若…

大数据技术之Flume应用案例(2)

目录 监控端口数据官方案例 步骤 1: 准备环境 步骤 2: 配置 Flume Agent 步骤 3: 启动 Flume Agent 步骤 4: 发送数据到 Flume 步骤 5: 查看 HDFS 中的数据 注意事项 示例说明 实时监控单个追加文件案例 需求分析 实现步骤 (1)确保环境变量配…

WMI (Windows Management Instrumentation)类集合

WMI (Windows Management Instrumentation) 是一个强大的系统管理工具,包含大量的类,用于检索和操作系统信息。WMI 类的数量庞大,涵盖从操作系统到硬件设备的各种信息。 WMI 类通常以 Win32_ 或 CIM_ 前缀开头。Win32_ 类主要用于Windows系统…

AI绘画工具 Stable Diffusion【插画转绘】:建筑 | 风景| 人像照片的插画转绘制作教程,照片秒变插画风格图片!

大家好,我是画画的小强 关于Stable Diffusion 的插画转绘,今天给大家分享一种制作方法。我们先看一下效果图。 一. 图片转插画的制作方法 本期教程我们将使用AI绘画工具Stable Diffusion,关于SD的安装和入门使用可以看看我的往期入门教程…

uniapp u--input实现select下拉列表 input点击事件

背景&#xff1a; 技术框架&#xff1a; uniapp框架(vue2语法)uView组件库。 通过form表单实现数据列表的“查询”功能。注意&#xff1a; 1、<u--form>内部嵌套<u-form-item>&#xff0c;<u-form-item>内部嵌套<u--input>表单组件。 2、H5浏览器端&am…

HTTP 414错误问题

问题描述&#xff1a; 在一次前端编辑报表完成&#xff0c;打开审核人选择弹出框的时候&#xff0c;layer直接报414错误。 问题分析&#xff1a; HTTP 414是HTTP协议中的一个状态码&#xff0c;表示请求的URI&#xff08;Uniform Resource Identifier&#xff09;过长&#…