【论文阅读】Segment Anything Model for Road Network Graph Extraction

news/2024/12/22 0:14:26/

论文阅读】Segment Anything Model for Road Network Graph Extraction (CVPRW 2024)

Paper链接:https://openaccess.thecvf.com/content/CVPR2024W/SG2RL/html/Hetang_Segment_Anything_Model_for_Road_Network_Graph_Extraction_CVPRW_2024_paper.html

文章目录

  • 论文阅读】Segment Anything Model for Road Network Graph Extraction (CVPRW 2024)
    • 1. 摘要
    • 2. 方法
      • 2.1 整体结构
      • 2.2 Image Encoder
      • 2.3 Mask Decoder
      • 2.4 Topology Decoder
      • 2.5 Label Generation

1. 摘要

简单来说,本工作将矢量道路线提取的部分流程视为分割任务,利用SAM预训练模型的强大分割能力,实现了SOTA精度和极高的推理速度。

2. 方法

在这里插入图片描述

2.1 整体结构

SAM-Road整体由三个部分构成:

  1. Image Encoder:预训练SAM Image Encoder
  2. Geometry Decoder:即图中的Mask Decoder,由4层转置卷积构成,输出分割概率图
  3. Topology Decoder:由Transformer实现拓扑结构中的Message Passing

2.2 Image Encoder

采用最小版本,即ViT-B。训练时采用0.1倍的基础学习率来微调。

2.3 Mask Decoder

为了提升整体以及交叉点的提取精度,Mask Decoder同时输出两个通道数为1的masks,形状为(H_img, W_img, 2)。

  1. mask_0用于提取graph vertices。首先,道路由连续的mask表示,因此,每个像素点均有可能是graph vertex。为了获取sparse vertices,本工作设计了一种用于抑制多余vertices的NMS算法。

    NMS of Vertices算法
    1. 根据threshold预处理,消除分数低的像素。
    2. 以d_v为抑制距离(类似目标检测NMS中的IoU),半径内保留分数最高的vertex。
    

    这一步可能出现road vertices分数大于附近intersections的情况,从而出现误消除intersections的情况。

  2. mask_1用于提取intersections。使用同样的NMS算法。

两个masks经处理后,对二者进行join,并将intersections设置较高的分数,再次应用NMS得到最终的graph vertices。

2.4 Topology Decoder

Topology Decoder由3层多头注意力组成,用于将“离散”的vertices连接成拓扑结构。
在这里插入图片描述
本方法目的是寻找每个顶点的一阶邻居,并将此视为二分类任务。步骤如下:

  1. 选择一个source vertex;

  2. R n b r R_{nbr} Rnbr范围内选择至多 N n b r N_{nbr} Nnbr个target vertex,构成多个vertex pairs;

    注意,source vertex与每个target vertex都是一阶邻居关系

  3. 对所有选中的顶点计算特征(根据坐标,通过在特征图上进行Bilinear Sample得到顶点特征,即Figure 2中的Source Feat和Target Feat);

  4. 对所有vertex pairs计算offset,得到 d k d_{k} dk

  5. 拼接Source Feat,Target Feat和 d k d_k dk,得到形状为 ( N n b r , 2 D f e a t + 2 ) (N_{nbr}, 2D_{feat}+2) (Nnbr,2Dfeat+2)的向量,并proj到 ( N n b r , D f e a t ) (N_{nbr}, D_{feat}) (Nnbr,Dfeat)作为query;

  6. 经3层多头注意力后,将query输入线性层得到分类logits,表示vertex pairs相连的概率。

2.5 Label Generation

  • Mask Labels

    1. 使用宽度为3个像素的mask代表道路线段;
    2. 使用半径为3个像素的mask代表intersections;
  • Topology Labels

    • 以教师强制方式训练Topology Decoder

      1. 均匀采样gt mask得到模拟概率图,在此基础上应用NMS Vertices等算法;
      2. 使用高斯分布对gt vertices坐标进行随机扰动;

http://www.ppmy.cn/news/1537148.html

相关文章

关系运算(2)

关系代数 上一篇博客已经讲了基本关系代数运算的内容,今天来讲附加关系代数运算。 附加关系代数运算 交运算∩ 查询计算机系年龄大于等于18的学生的信息 跟并集∪一样都是需要先进行选择运算然后再进行二元的交集运算。 其实交运算也可以用差运算来表示&#xff…

国际 Android WPS Office v18.13 解锁版

WPS Office 移动版,设计不断优化,性能再次提升!融入Google Android最新设计标准,Material Design设计风格,完美支持沉浸式!简化文档操作,全新移动办公力作。全新界面更清晰舒适,功能…

27.数据结构与算法-图的遍历(DFS,BFS)

遍历定义与遍历实质 图的特点 图的常用遍历方法 深度优先搜索-DFS 邻接矩阵表示的无向图深度遍历实现 DFS算法效率分析 非连通图的遍历 广度优先搜索遍历-BFS 邻接表表示的无向图广度遍历实现 BFS算法效率分析 非连通图的广度遍历 DFS和BFS算法效率比较

罗永浩力荐格行随身WiFi,背后原因竟是...你绝对想不到!

一、罗永浩的“严选”哲学 虽然罗永浩做的是直播带货,但是他的形象与其他头部主播之间有着明显的不同。那些头部主播,都可以统称为“电商主播”,他们与那些淘宝店、京东店里直播的商家本质是一样的,只有流量和名气大小不同罢了。…

单目三d重建学习笔记2024

从单目视频生成动态多物体场景 已经开源: https://github.com/dreamscene4d/dreamscene4d 2021年: 浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统 https://github.com/zju3dv/NeuralRecon https://github.com/zju3dv/Neura…

OpenCSG传神社区月度功能更新

9月社区ReleaseNote 在9月的社区更新中,我们继续秉持开放与创新的精神,推出了一系列新功能和技术升级。这些更新不仅扩展了社区的技术支持范围,还为用户提供了更多资源,助力其在人工智能、大数据处理和推理加速等领域的创新。通过…

计算机网络:物理层 —— 物理层下的传输媒体

文章目录 传输媒体导向性媒体同轴电缆双绞线光纤光纤分类中心波长光纤规格光纤的优缺点 非导向性媒体ISM 频段无线电波微波激光红外线可见光 传输媒体 传输媒体是计算机网络设备之间的物理通路,也称为传输介质或传输媒介,并不包含在计算机网络体系结构中…

前端公共资源CDN存储库大全

具体请前往:前端公共资源CDN存储库大全-持续更新