论文笔记:GEO-BLEU: Similarity Measure for Geospatial Sequences

server/2024/11/15 0:29:28/

22 sigspatial

1 intro

  • 提出了一种空间轨迹相似性度量的方法
  • 比较了两种传统相似度度量的不足
    • DTW
      • 基本特征是它完全对齐序列以进行测量,而不考虑它们之间共享的局部特征
      • 这适用于完全对齐的序列,但不适用于逐步对齐没有太多意义的序列
    • BLEU
      • 适用于不完全对齐的序列
      • 将序列中的地点视为单词,它们的连续组合视为地理空间𝑛-gram,应用这种方法基于局部特征评估地理空间轨迹的相似性
      • 然而,它也有另一个缺点:地理空间 𝑛-grams 需要完全相同才能被视为“匹配”,而非常接近但稍有偏移的不会对结果产生贡献。
        • 换句话说,空间接近性是相似性的一个潜在重要属性,在使用BLEU时未被考虑

——>论文基于 BLEU,提出了GEO-BLEU

2 GEO-BLEU

  • 首先,引入地理空间 n-gram 的概念
    • 将序列中的地点视为点,通过相似度得分 s(gi,gj)衡量两点的接近程度。
    • 通过衡量点之间的欧几里得距离 d(gk,wk)并将其标准化来实现
        • 其中 d(⋅,⋅)是两个位置之间的欧几里得距离,而 β是一个系数,用于调整比例
        • 两个 n-gram 完全匹配时,相似度变为最高(即距离为零时)
        • 随着两个 n-gram 之间的距离增加,相似度趋于零
  • 接下来,我们考虑如何在候选序列和参考序列中匹配 n-gram
    • 在BLEU中,匹配是通过 Count_matched(n-gram) 来进行的
      • 如果相同的 n-gram 在参考句子中“未使用”,就给出1,并从后续匹配的池中消除那个“已使用”的n-gram 实例,否则给出0
    • 对于融入邻近性概念的GEO-BLEU,让候选序列中的一个 n-gram 与参考序列中最近的未使用的 n-gram 形成一对
    • 贪婪地优化这样的配对集,使得相似度分数之和接近最大值
  • 假设优化后的配对集为 P={(gc1,gr1),…,(gcL,grL)}
    • L 是候选序列和参考序列长度中较短的一个,gck 是候选序列中的 n-gram,grk 是参考序列中的
    • 定义基于 n-gram 的相似度 qn如下
      • 匹配的这些n-gram之间的欧氏距离
  • ——>按照BLEU中提出的惩罚得分,提出的相似性度量 GEO-BLEU 定义为:

2.1 特性

  • 为了展示 GEO-BLEU 的特性以及它与 DTW 的不同,我们应用这两种方法评估两个简单序列,这些序列在几乎完全对齐的情况下具有半径为 10 公里的圆上的点
    • 原始序列经过几何变换(如顺时针和逆时针旋转、缩放等),然后计算两个序列之间的得分。
    • 在大多数情况下,GEO-BLEU 能够提供高度相似性得分【因为重叠的n-gram很多】,而在参考序列和候选序列有明显的几何差异时,DTW 提供了较低的得分

http://www.ppmy.cn/server/106841.html

相关文章

Java使用Easy Excel对Excel进行操作

Easy Excel使用教程API&#xff1a; 读Excel | Easy Excel 官网 使用代码示例&#xff1a; 需要自行创建一个Maven项目&#xff0c;然后pom文件中需要的依赖如下&#xff1a; <dependencies><!-- easyExcel 表格依赖 --><dependency><groupId>com.a…

[从0开始AIGC][LLM]:LLM中Encoder-Only or Decoder-Only?为什么主流LLM是Decoder-Only?

LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only&#xff1f; 文章目录 LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only&#xff1f;1. 什么是Encoder-only、Decoder-Only2. 为什么当前主流的LLM都是Decoder-only的架构低秩问题 …

62. 不同路径 -dp6

. - 力扣&#xff08;LeetCode&#xff09;. - 备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/unique-paths/ 输入&#xff1a;m 3, n 2 输出&#xff1a;3 解释&a…

7. Java 中 HashMap 的扩容机制是怎样的?

​​​​​​HashMap 是基于哈希表的数据结构&#xff0c;其容量是动态调整的。当存储的元素数量增加时&#xff0c;为了保持较好的性能&#xff0c;HashMap 需要进行扩容。HashMap 的扩容机制是为了减少哈希碰撞&#xff0c;提高查询效率。 1. 初始容量和负载因子 初始容量&a…

WSL-ubuntu下载安装配置cudnn

下载 安装cuDnn的话需要和CUDA版本对应&#xff0c;可参考官网&#xff1a; cuDNN Archive | NVIDIA Developer 我的cuda是11.8 这个cuDNN8.9.7_Linux直接下载&#xff1a; https://developer.nvidia.com/downloads/compute/cudnn/secure/8.9.7/local_installers/11.x/cudn…

Python学习笔记(十)

""" 演示对文件的读取 """ import time # 打开文件 # fopen(name,mode,encoding) # name:是要打开的目标文件名的字符串&#xff08;可以包含文件所在的具体路径&#xff09; # mode:设置打开文件的模式&#xff08;访问模式&#xff09;&#x…

JVM的内存模型和垃圾回收

JVM内存区域 内存模型图&#xff1a; 堆 线程共享。所有的对象实例以及数组都要在堆上分配。回收器主要管理的对象。 它的目的是存放对象实例。同时它也是GC所管理的主要区域&#xff0c;因此常被称为GC堆&#xff0c;又由于现在收集器常使用分代算法&#xff0c;Java堆中还…

【docker compose 部署和 go 热部署工具fresh】

文章目录 docker-compose.yml 文件配置得很全面&#xff0c;以下是一些注释安装 fresh配置 fresh注意事项 docker-compose.yml 文件配置得很全面&#xff0c;以下是一些注释 version: 3 services:# MySQL 服务geekai-mysql:image: registry.cn-shenzhen.aliyuncs.com/geekmast…