论文阅读:MultiUI 利用网页UI进行丰富文本的视觉理解

news/2024/11/2 15:22:23/

《HARNESSING WEBPAGE UIS FOR TEXT-RICH VISUAL UNDERSTANDING》
利用网页UI进行丰富文本的视觉理解

总结

  • grounding和QA部分的数据集占比较大、同时消融实验显示其作用相对较大,并且grounding部分作用和效果呈现scaling正相关
  • 提供了很多web数据处理成多模态训练集的prompt、思路等、提供了开源代码:https://neulab.github.io/MultiUI/

1、前言

  • 1M URLs
  • 2个平台
  • 3种能力:视觉理解和推理、文本识别、定位

在这里插入图片描述

  • 基于充分结构化的网页来合成多模态指令数据集

在这里插入图片描述

2、数据集构建

  • 数据集通过4步构造

在这里插入图片描述

  • 9个任务的具体设计【重点】

在这里插入图片描述

数据分布

  • grounding数据占 3M/7.3M ~ 41%,mobile的grounding占mobile数据的 47.8%
  • 其次占比最多的是 WebQA、ImgQA

在这里插入图片描述

  • Grounding和action的一些数据示例

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3、实验设置

  • 模型结构

在这里插入图片描述

  • 训练策略:两阶段训练

在这里插入图片描述

  • Benchmark

在这里插入图片描述

4、实验结果分析

  • GUI相关任务的实验结果
    • 没有把Seeclick模型在SSpot上的结果放出来(mobile-0.657);

在这里插入图片描述

  • GUI grounding的能力和数据集大小存在正相关关系
    在这里插入图片描述
  • 消融实验说明了 加入grounding数据集对于screenspot评测集的必要性

在这里插入图片描述

  • 两阶段训练效果更优、提升2点左右

在这里插入图片描述


http://www.ppmy.cn/news/1543898.html

相关文章

[Control-Chaos] Heart Broken(心脏破裂) IOT逆向+BOF+故事交互解密

Heart Broken https://github.com/MartinxMax/Control-Chaos 故事背景 2025年1月6日 / 下午5:04 [阴天 / 大雨]: [电话响起] 一条消息到达手机… Ethan:John!我有麻烦了!我有事情要告诉你…我们8点在我们常去的地方见面吧&#…

Flink系列之:学习理解通过状态快照实现容错

Flink系列之:学习理解通过状态快照实现容错 状态后端检查点存储状态快照状态快照如何工作?确保精确一次(exactly once)端到端精确一次 状态后端 由 Flink 管理的 keyed state 是一种分片的键/值存储,每个 keyed state…

scrapy爬取名人名言

爬取名人名言:http://quotes.toscrape.com/ 1 创建爬虫项目,在终端中输入: scrapy startproject quotes2 创建之后,在spiders文件夹下面创建爬虫文件quotes.py,内容如下: import scrapy from scrapy.spi…

Webserver(2.6)信号

目录 信号的概念信号相关的函数killraiseabortalarm1s钟电脑能数多少个数? setitimer过3s以后,每隔2s定时一次 信号捕捉函数signalsigaction 信号集sigprocmask编写一个程序,把所有的常规信号未决状态打印到屏幕 sigchld信号 信号的概念 比如…

【Rust练习】18.特征 Trait

练习题来自:https://practice-zh.course.rs/generics-traits/traits.html 1 // 完成两个 impl 语句块 // 不要修改 main 中的代码 trait Hello {fn say_hi(&self) -> String {String::from("hi")}fn say_something(&self) -> String; }str…

2023数学分析【南昌大学】

计算 求极限 lim ⁡ n → ∞ ( 1 n 2 + 1 2 + 1 n 2 + 2 2 + ⋯ + 1 n 2 + n 2 ) \mathop{\lim }\limits_{n \to \infty } \left( \frac{1}{{\sqrt {n^2 + 1^2} }} + \frac{1}{{\sqrt {n^2 + 2^2} }} + \cdots + \frac{1}{{\sqrt {n^2 + n^2} }} \right) n→∞lim​(n2+12 ​1…

2022 NOIP 题解

建造军营 这道题之前做过一次,我们来转换一下这道题的题意,题中给到了边、点我们可以想到强连通分量,进而想到tarjan算法。通过所给样例及题意,我们可以将原题目转化为以下内容: 给定一张图,选择一些点和边&#xff…

redis分布式锁在项目中的应用总结

项目应用 应用1 redis分布式锁实现两个操作的原子性 需求:实现一人一单业务逻辑时(如果能走到这个逻辑,代表库存是充足的),我们需要 先查询订单 如果订单不存在即没有买过则创建订单 这两个步骤我们要保证是原子…