文献阅读(51)—— Transformer 用于中国空气质量检测

news/2024/11/17 1:41:53/

文献阅读(51)—— Transformer 用于中国空气质量检测

文章目录

  • 文献阅读(51)—— Transformer 用于中国空气质量检测
    • 先验知识/知识拓展
    • 文章结构
    • 背景
    • 文章方法
      • 1. Dartboard Spatial MSA(DS-MSA)
      • 2. CT-MSA
      • 3. 自上而下的随机阶段
    • 文章结果
      • 1. 数据集
      • 2. baseline的比较
      • 3. 消融实验
        • (1)DS-MSA的性能
        • (2)CT-MSA的性能
        • (3)隐变量的性能
        • (4)位置编码的性能
    • Contributions
    • 总结
    • 可借鉴点/学习点?

AirFormer: Predicting Nationwide Air Quality in China with Transformers
在这里插入图片描述
在这里插入图片描述
这一篇还放在arxiv,但是看到下面的aaai让我很心动。一起康康吧~

先验知识/知识拓展

  • 多头自注意力机制(MSA)
  • 变分自编码器(VAE)

文章结构

  • abstract
  • introduction
  • preliminary
  • methodology★
  • experiments
  • related works
  • conclusion and future

背景

  • 国家为检测全国空气质量,在多地建立站点,这些站点会逐个小时反馈现在的空气质量(包括各种气体排放量)
  • 在过去很多年,对空气质量预测进行长期建立的研究,从经典的色散模型到数据驱动的模型
  • 但是因为计算量问题,大量研究都集中在一个站点或者是一个城市的部分站点

提出问题:

  • 使用全国所有站点的空间污染指数预测中国大陆的空气质量。这样精细的涵盖很多范围的预测,不但为公众提供了更多有用的信息,而且包含了更多有利于模型训练的样本数据。但是如此之多数据传统Transformer的效率会对建模产生困难。
  • 空气质量读数在本质上是不确定的,由于:不准确或确实的观察结果,以及一些不可预测的因素:汽车尾气、政策和工业排放。

因为空气污染会有域的影响,所以作者提出AirFormer,有利的结合区域信息建模取得更好的可解释性。 其中主要涉及两个阶段:

  • stage1:deterministic stage
    在此阶段,提出了两种新的MSA有效的捕获空间和时间的依赖性(解决Q1)
  • stage2:stochastic stage
    在此阶段,使用VAE的思想探索在Transformer中的隐变量。这些隐变量是从上一阶段中学习到的概率分布中采样得到的,从而捕获输入数据的不确定性。(解决Q2)

核心目的:使用之前时间的所有站点数据预测未来某时间的空气质量指数


文章方法

AirFormer Framework
在这里插入图片描述

  • Bottom-up deterministic stage

    • DS-MSA:学习具有线性复杂度的空间交互作用
    • CT-MSA:捕获每个位置的时间依赖性
  • Top-down stochastic stage

    • generation 是使用之前步骤的先验概率去预测下一个步
    • inference 是用于估计后验概率

1. Dartboard Spatial MSA(DS-MSA)

在这里插入图片描述
整体设计
一个地方的空气质量,除了当地的排放外,还会收到相邻地方的影响。提出了DS-MSA去捕获同一时间某地方与其他区域的联系。DS-MSA有更大的感受野但是却只有线性的计算复杂度。DS-MSA以上一个block得到的隐变量H作为输入,首先对其进行LayerNorm将其经过Linear层生成该站点的query矩阵,并将周围环境投影到Dartboard中得到key和value,以该方法减少计算复杂度。最后执行MSA学习空间依赖性,利用MLP输出结果H1。
详细设计

  • 对于每个站点,都会有一个相应的映射矩阵A(M*N),其中M表示区域数量,N表示站点总个数。A矩阵中的值a[i,j]表示第j个站点属于i区域的可能性,A矩阵中一行值的和0(类似AVG)
  • 对于每个站点区域的划分,是以当前站点为中心的同心圆,如下面例子中一共有3*8+1=25个区域(25<<1000+,极大地降低计算复杂度)
  • 假设进入dartboard映射的输入是P矩阵(NC),通过A矩阵,可以得到每个站点的区域表示R[i] = A[i]P(MC),最终的区域表示是R = [R1,R2,R3…Rn](NM*C),N个站点的区域表示concat得到。
  • 之后使用得到的query和根据R经过linear得到的key和value进入MSA捕获空间关联。
    在这里插入图片描述
  • B是一个可学习的相对位置编码用于增加位置信息。我们可以引入风俗风向等外部信息作为辅助。

DS-MSA模块考虑了空气污染分散的领域知识,由于将区域的个数从N个站点降低到M个region,计算复杂度降低,使用dartboard映射不会再MSA中引入额外的可学习变量,固模型是轻量级的。

2. CT-MSA

在这里插入图片描述
整体设计
一个地方的空气变化不但会受到周围地区的影响,还会受到之前空气排量的影响。如果直接使用MSA学习时间依赖会产生平方级的成本,因此使用CT-MSA代替标准MSA
详细设计

  • 鉴于时间越接近当前时间相关性越强,因此作者使用非重叠的窗口,在窗口内执行MSA捕获时间步长之间的局部交互作用。为了尽量不丧失MSA的感受野,作者从上到下逐渐增加了窗口的大小。
  • 时间因果关系:由于当前时间的空气质量不以其未来为条件,所以遵循WaveNet在MSA中引入因果关系,确保模型不会违反输入数据的时间顺序。这种顺序关系可以在mask attention map中的区域实现。
  • 为了在MSA中实现位置敏感性,在CT-MSA的输入中增加了绝对位置编码。

3. 自上而下的随机阶段

在这里插入图片描述
整体设计
在使用自下而上的两个MSA获得确定性以后,作者使用自上而下阶段对潜在随机变量学习空气质量数据中的不确定性
详细设计

  • 生成阶段(generation):在过去所有的步骤中预测下一步
  • 推理阶段(inference):推断模型被应用于近似给定当前和先前步骤的 Z 的后验分布。也就是说,推断模型的作用是根据当前和之前的数据,来预测未知变量 Z 的概率分布。这种方法可以帮助我们更准确地推断出 Z 的值,从而得到更可靠的结果。
    在这里插入图片描述

这个部分我没读懂,因为我对VAE的原理真的只懂浅显,数学渣渣搞不定这么多公式,我哭。所以我找来了我的好朋友ChatGPT帮我理解,它是这样解释的:

  • 在AirFormer模型中,Top-Down Stochastic Stage是用于预测未来空气质量指数的一个重要步骤。这个步骤主要利用随机性来增强模型的表现力和稳健性
  • 具体地说,Top-Down Stochastic Stage包括两个子步骤:Top-Down Sampling和Stochastic Prediction
  • 在Top-Down Sampling阶段,模型会以历史观测数据和先前生成的空气质量指数值作为输入,并使用Decoder来生成一组可能的未来时刻的候选空气质量序列。每个候选序列都是从“起始”标记开始生成的,直到达到预定的预测时间窗口为止。
  • 在Stochastic Prediction阶段,模型会对所有候选空气质量指数序列进行评估,并选择其中最能符合真实未来空气质量指数的序列作为最终的预测结果。这个评估过程基于一个分数函数,它将历史时刻的观测数据、先前生成的空气质量指数值以及每个候选序列的概率分布情况结合起来计算得出。
  • 需要注意的是,在Top-Down Stochastic Stage中,每个候选空气质量指数序列都是通过随机采样生成的。这种随机性的引入可以使模型更好地处理未知和噪声数据,从而提高模型的泛化能力和鲁棒性。同时,使用多个候选序列并对它们进行评估,也可以增强模型的表现力和预测准确性。

文章结果

1. 数据集

在这里插入图片描述

2. baseline的比较

评估指标选择:MAE和RMSE

  • 传统方法
  • STGNN变体
  • 基于注意力机制的模型
  • 空气质量预测模型
    在这里插入图片描述
    这验证了空气污染的领域知识不仅有助于我们设计更多解释的模型,而且提高了预测的精度。

3. 消融实验

(1)DS-MSA的性能

对比了没有DS-MSA,标准的MSA,MSA(50km),DS-MSA(50-200),DS-MSA(50),DS-MSA(50-200-500)。灰色行表示最终的模型,加粗为最好,横线表示性能第二好的。
在这里插入图片描述
此外为了验证DS-MSA的性能,对以西直门为中心的50-200的dartboard进行研究,当没有风的时候,权重被分散,如果有来自东风或者西南风,注意力的权重会集中在相应的方向上,这说明DS-MSA不但有效,而且对于模型的可解释性也更强。(咱就是说真牛!)
在这里插入图片描述

(2)CT-MSA的性能

对比了没有CT-MSA,WaveNet取代CT-MSA,标准的MSA。首先可以看到所有具有时间模块变体的模型性能都比没有CT-MSA的性能好,这一现象说明根据时间建模的必要性,此外,两个使用锁头注意力机制的模型性能比WaveNet的性能好,说明了MSA在空气质量预测的优越性。此外,将英国关系和局部窗口集成到MSA可以持续提高性能!(看到这里我表示respect!)
在这里插入图片描述

(3)隐变量的性能

在这里插入图片描述
因为气体扩散的随机性,捕获空气质量数据中的不确定性可以有效的提高性能,增强模型的鲁棒性。

(4)位置编码的性能

由于MSA是排列不变的,作者将位置编码集成到DS-MSA和CT-MSA中,用来考虑顺序信息。
在这里插入图片描述

Contributions

  1. 考虑到附近区域的空间对该区域的相关性要大于遥远区域的相关性,设计了DS-MSA有效捕获位置空间关系
  2. 设计了因果时间模块CT-MSA学习时间依赖性,确保每一个步骤的输出只来自前面的步骤。引入局部性来提高效率
  3. 使用VAE模型的思想,增强了具有隐变量的transformer,以此捕获空气质量数据的不确定性
  4. 是第一次共同预测数千个地点的空间质量的工作,比现有的SOTA误差低4-8个百分点。

总结

无论是实验内容还是写作方面,这篇文章都是值得精读的,反复看了三遍,但是我觉得还需要再看。真的别人发顶会,投好期刊不是没有道理的。虽然说预测的性能不想一般分类和分割模型那般优秀,但是这种不确定性因素很强的bg,能做到这么详尽真的不多见了,很久没有读到过这么有营养的文章了,respect!

可借鉴点/学习点?

都给我去看!


http://www.ppmy.cn/news/60059.html

相关文章

利用python查找指定目录下大于300M的文件

直接上代码&#xff0c;欢迎小伙伴们交流 import os def getBigFile(path, filesize): # 遍历指定目录及其子目录 for dirpath, dirnames, filenames in os.walk(path): for filename in filenames: target_file os.path.join(dirpath, filename…

HashSet和HashMap内部结构分析

首先明确一点&#xff1a;HashSet的底层就是HashMap HashSet与HashMap的不同点&#xff1a; HashMap存储的是键值对&#xff08;也就是key-value&#xff09;&#xff0c;即在调用HashMap的put方法时传入的两个值&#xff0c;而HashSet其实也是存储的键值对&#xff0c;但是键…

GreatSQL社区首款开源工具亮相丨数据校验修复工具gt-checksum开源啦!

背景介绍功能特性gt-checksum使用 3.1 标准使用案例 3.2 直接在命令行模式下使用 3.3 使用极简配置文件案例项目信息 经过两年多的努力&#xff0c;GreatSQL社区首款数据校验工具——gt-checksum近期正式开源啦~ gt-checksum 作为GreatSQL社区新增的成员&#xff0c;是一款静态…

JQuery实现自定义滚动条

在页面中虽然可以通过CSS修改滚动条的样式,但是部分属性是无法自己修改和设置的&#xff0c;而且不同浏览器存在兼容问题&#xff0c;因此通过JS来实现滚动条在自定义滚动条的环境下也是有必要的。 接下来&#xff0c;我们来实现上图两种情况下滚动条的实现。 一、页面搭建 1.…

Redis高级——批处理优化

2、批处理优化 2.1、Pipeline 2.1.1、我们的客户端与redis服务器是这样交互的 单个命令的执行流程 N条命令的执行流程 redis处理指令是很快的&#xff0c;主要花费的时候在于网络传输。于是乎很容易想到将多条指令批量的传输给redis 2.1.2、MSet Redis提供了很多Mxxx这样的…

跟着我学 AI丨让计算机看懂世界

计算机视觉是一种利用计算机和数学算法来处理、分析和识别数字影像的技术。这项技术在近年来得到了快速发展&#xff0c;应用范围也越来越广泛&#xff0c;它已经成为了人工智能领域中的重要分支之一。 技术原理 计算机视觉技术主要涉及图像处理、模式识别和机器学习等方面的技…

Java8中DateTimeFormatter真的是线程安全的吗?

文章目录 [toc] 1.背景2.解决办法2.1办法一&#xff1a;换姿势或者升级JDK的版本2.1办法二&#xff1a;更换文件名称字生成策略 Java8中DateTimeFormatter真的是线程安全的吗&#xff1f; 答案是否定的 1.背景 由于之前写了一个旷世的ocr的服务,接入了旷世的FaceID的人脸比对…

RN系统精讲-----基础了解

原生基础 安装SDK与Tools preference > appearance > systemSetting > Android sdk 如何连接设备&#xff0c;以及开发中的常用的adb命令 USB连接设备 adb devices 查看连接设备 wifi网络连接设备 adb connect ip&#xff08;手机自己的ip地址&#xff0c;可以通过…