《HARNESSING WEBPAGE UIS FOR TEXT-RICH VISUAL UNDERSTANDING》
利用网页UI进行丰富文本的视觉理解
总结
- grounding和QA部分的数据集占比较大、同时消融实验显示其作用相对较大,并且grounding部分作用和效果呈现scaling正相关
- 提供了很多web数据处理成多模态训练集的prompt、思路等、提供了开源代码:https://neulab.github.io/MultiUI/
1、前言
- 1M URLs
- 2个平台
- 3种能力:视觉理解和推理、文本识别、定位
- 基于充分结构化的网页来合成多模态指令数据集
2、数据集构建
- 数据集通过4步构造
- 9个任务的具体设计【重点】
数据分布
- grounding数据占 3M/7.3M ~ 41%,mobile的grounding占mobile数据的 47.8%
- 其次占比最多的是 WebQA、ImgQA
- Grounding和action的一些数据示例
3、实验设置
- 模型结构
- 训练策略:两阶段训练
- Benchmark
4、实验结果分析
- GUI相关任务的实验结果
- 没有把Seeclick模型在SSpot上的结果放出来(mobile-0.657);
- GUI grounding的能力和数据集大小存在正相关关系
- 消融实验说明了 加入grounding数据集对于screenspot评测集的必要性
- 两阶段训练效果更优、提升2点左右