摘要
近年来,大型多模态模型(LMMs)的发展,特别是 GPT-4V(ision) 和 Gemini,迅速扩展了多模态模型的能力边界,不再局限于传统任务如图像描述和视觉问答。在本研究中,我们探讨了 LMMs(如 GPT-4V)作为通用网页代理的潜力,这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了 SEEACT,这是一种通用网页代理,利用 LMMs 的视觉理解能力,实现网页上的操作。
我们在最新的 MIND2WEB 基准测试上进行了评估。除了对缓存网站的标准离线评估外,我们还开发了一种工具,支持在线评估,即在实时网站上运行网页代理。我们的研究表明,GPT-4V 展现了作为网页代理的巨大潜力——在人工将其文本计划转化为网站上的实际操作的情况下,它能够成功完成实时网站上的 51.1% 任务。这一表现显著优于文本仅限的 LLMs(如 GPT-4)或针对网页代理特别微调的小型模型(如 FLAN-T5 和 BLIP-2)。
然而,基础对接(grounding)仍然是一个主要挑战。现有的 LMM 对接策略(如 set-of-mark 提示)对网页代理并不有效。本研究中开发的最佳对接策略结合了 HTML 结构和视觉信息。然而,与理想的对接(oracle grounding)相比仍存在显著差距,这表明仍有很大的改进空间。所有代码、数据和评估工具均可在以下网址获取:
https://github.com/OSU-NLP-Group/SeeAct。
1. 引言
大型多模态模型(LMMs;Li 等, 2023;Alayrac 等, 2022;Liu 等, 2023b),尤其是最近的 GPT-4V(ision)(OpenAI, 2023)和 Gemini(Anil 等, 2023),在标准的视觉-语言理解与推理基准测试中展现出了卓越的能力(Kazemzadeh 等, 2014;Goyal 等, 2016;Hendrycks 等, 2020;Saikh 等, 2022;Lu 等, 2022;Zhong 等, 2023;Yue 等, 2023)。虽然网页内容一直是 LMMs 的主要训练数据来源,但网页本身这一部分却在很大程度上被忽视——每个网站都经过视觉设计,以便于人类用户轻松浏览。
这为 LMMs 提出了新的挑战,同时也带来了新的机遇。一方面,网站的渲染截图可能包含数千个元素及其复杂的关联,远比大多数现有基准测试中的图像更复杂,而后者通常集中在对象或场景层面。另一方面,如果 LMMs 能够准确理解网站内容,将为网页上的众多应用打开新的大门。
在本研究中,我们旨在探讨 LMMs 作为通用网页代理的潜力(Deng 等, 2023)。根据 MIND2WEB(Deng 等, 2023)的定义,通用网页代理应能够遵循自然语言指令,在任意真实世界的网站上完成任务(例如图 1 所示)。
这些任务可能非常多样化和复杂,一个任务可能需要在多个动态渲染的网页上执行 10 多个操作。现有研究(Deng 等, 2023;Liu 等, 2023d)主要使用大型语言模型(LLMs),如 GPT-4(OpenAI, 2023),处理原始的 HTML 输入。然而,与渲染后的网站视觉内容相比,HTML 代码更加冗杂,并且信息密度较低。例如,图 1 中的网页截图包含 423 个 HTML 元素,如果使用 GPT-2 标记器处理,将需要 186,490 个文本标记,而 GPT-4V 的视觉标记器仅需 1,445 个视觉标记。此外,HTML 仅能提供不完整的信息,并可能遗漏嵌入图像等关键语义信息。
为此,我们提出了 SEEACT,一种利用 LMMs 能力进行网页视觉理解和操作的通用网页代理。我们将重点研究当前最先进的 LMM,即 GPT-4V,并与较小的 LMMs(如 BLIP-2(Li 等, 2023)和 LLaVA-1.5(Liu 等, 2023a;c))进行比较。我们发现,GPT-4V 在视觉理解渲染后的网页方面表现出很强的能力,能够为各种网站和任务生成正确的文本计划。然而,对接(grounding) 仍然是一个重大挑战,即将文本计划准确转换为网站上的具体操作。这包括选择正确的 HTML 元素进行交互,以及选择正确的操作(例如,点击、输入或选择)。
我们提出了多种 grounding 方法,包括在网页图像上叠加边界框和索引标签,类似于在对象或场景为中心的图像上表现良好的 set-of-mark 提示(Yang 等, 2023a)。然而,我们发现,在具有丰富语义和空间关系的复杂网页截图上,GPT-4V 容易产生严重的幻觉(hallucination)。最有效的 grounding 策略是利用 HTML 元素与其视觉呈现之间的已知对应关系,这一点使得网页与自然图像不同。
我们在 MIND2WEB 数据集(Deng 等, 2023)上评估了 SEEACT,并将其与文本仅 LLMs(如 GPT-4(OpenAI, 2023))以及较小的模型(FLAN-T5(Chung 等, 2022)、BLIP-2(Li 等, 2023)、LLaVA-1.5(Liu 等, 2023a;c)和 CogAgent(Hong 等, 2023))进行比较。除了标准的离线评估(使用缓存网站),我们还开发了一种新的工具,以便在实时网站上运行网页代理,从而进行在线评估。
我们的主要研究发现如下:
-
SEEACT 结合 GPT-4V 作为通用网页代理具有强大的潜力(如果提供理想的 grounding)。 在在线评估中,它能够成功完成 51.1% 的网站任务,远超现有方法,如 GPT-4(13.3%)或 FLAN-T5(8.9%)。这表明 GPT-4V 等 LMMs 在网页代理方面具有巨大潜力。
-
然而,grounding 仍然是主要挑战。 目前最优的 grounding 策略与理想对接(oracle grounding)仍存在 20-30% 的差距。在各种 grounding 策略中,最佳方案结合了 HTML 文本和视觉内容,较图像注释策略(Yang 等, 2023a)表现提升高达 10%。
-
在上下文学习(in-context learning)方面,LLMs 和 LMMs 对于未见过的网站具有更好的泛化能力, 而针对训练时见过的网站,监督微调(supervised fine-tuning)仍然具有优势。
-
在线与离线评估之间存在显著差异, 因为同一任务可能存在多个可行的解决方案。在线评估更能反映模型的实际性能。
2. SeeAct
在本节中,我们首先介绍网页代理问题的公式化描述,然后介绍基于大型多模态模型(LMMs)的通用网页代理 SEEACT。具体而言,针对一个网页任务(例如,在汽车租赁网站上“租用最便宜的卡车”),我们研究 LMMs 作为通用网页代理所需的两个核心能力:
- 动作生成(Action Generation): 在每一步生成动作描述(例如,“将光标移动到‘Find Your Truck’按钮并点击”),以完成任务。
- 元素对接(Element Grounding): 在当前网页步骤中识别正确的 HTML 元素(例如,“[button] Find Your Truck”)。
2.1 问题公式化
给定一个网站 SSS(如汽车租赁网站)和一个任务 TTT(如“租用最便宜的卡车”),网页代理应生成一系列可执行的动作序列 A=[a1,a2,…,an]A = [a_1, a_2, \dots, a_n]A=[a1,a2,…,an] 来完成任务。具体来说,在时间步 ttt,代理需要基于当前环境观测 sts_tst、之前的动作 {a1,a2,…,at−1}\{a_1, a_2, \dots, a_{t-1}\}{a1,a2,…,at−1} 以及任务 TTT,生成动作 ata_tat:
at=π(st,T,{a1,a2,…,at−1})a_t = \pi(s_t, T, \{a_1, a_2, \dots, a_{t-1}\})at=π(st,T,{a1,a2,…,at−1})
环境观测 sts_tst 由 HTML 文档 hth_tht 和网页截图 iti_tit 组成。
- 纯文本 LLM 只能基于 HTML 文档进行操作。
- 多模态 LMM 既可以基于 HTML 文档,也可以基于网页截图进行操作。
在每次操作后,网站状态将被更新:
st+1=S(at)={ht+1,it+1}s_{t+1} = S(a_t) = \{h_{t+1}, i_{t+1}\}st+1=S(at)={ht+1,it+1}
为了简化,后续的公式中将省略时间步 ttt 的表示。
一个动作 aaa 对应于由网站环境提供的浏览器事件。因此,我们将动作定义为网页事件的三元组 (e,o,v)(e, o, v)(e,o,v):
- e∈Ee \in Ee∈E:目标网页元素,例如图 2 中的 “Find Your Truck” 按钮。
- o∈Oo \in Oo∈O:执行的操作类型,例如点击、输入等。
- vvv:执行某些操作所需的额外信息(如输入日期 "12/10/2023")。
然而,基于 LLM 或 LMM 的代理通常无法直接生成上述三元组 (e,o,v)(e, o, v)(e,o,v),而是生成描述这些变量的文本动作 a~\tilde{a}a~,包括 (e~,o~,v~)(\tilde{e}, \tilde{o}, \tilde{v})(e~,o~,v~)。
这一过程称为 动作生成(Action Generation)。要与网页环境进行交互,还需将 a~\tilde{a}a~ 转换为可执行的动作 aaa,这一过程称为 动作对接(Action Grounding)。
2.2 动作生成(Action Generation)
我们明确指示 GPT-4V 模拟人类浏览网页的方式,分析任务、网页以及先前的操作。模型需要基于其分析和推理能力,生成动作描述 a~\tilde{a}a~。在该过程中,我们使用网页截图 iii 作为视觉上下文,而不利用 HTML 文档 hhh 进行动作生成。
2.3 动作对接(Action Grounding)
尽管 GPT-4V 能够用自然语言识别和描述完成给定任务所需的下一步操作,但将动作描述 a~\tilde{a}a~ 转化为可执行的动作 aaa 仍然具有挑战性。
- 通过字符串解析,可以合理地从动作描述中提取操作类型 ooo 和值 vvv。
- 关键挑战 在于从生成的 e~\tilde{e}e~ 中识别目标元素 eee,即 元素对接(Element Grounding)。
为了解决此挑战,我们探索了三种不同的信息类型进行 grounding,如图 2 所示:
-
基于元素属性的对接(Grounding via Element Attributes):
- 通过提示模型生成尽可能详细的目标元素属性,以便更精确地匹配 HTML 元素。
- 例如,模型不仅要描述元素 eee,还需指定其类型和文本内容,如“Find Your Truck”按钮,并标注为“BUTTON”类型。
- 之后,使用启发式搜索在 DOM 元素中定位匹配项,如果找到唯一匹配项,则自动选择;如果有多个匹配项,则提示模型进行最终选择。
-
基于文本选择的对接(Grounding via Textual Choices):
- 该方法通过提供网页元素的文本表示作为候选选项来帮助 grounding。
- 例如,MindAct(Deng 等, 2023)使用一个排名模型,筛选出前 kkk 个候选元素 (e1,e2,…,ek)(e_1, e_2, \dots, e_k)(e1,e2,…,ek),每个候选项被表示为多项选择题的选项,如图 2 所示。
- 在生成动作描述 a~\tilde{a}a~ 后,模型被进一步要求从候选选项中选择目标元素,并提供“无匹配”选项。
-
基于图像标注的对接(Grounding via Image Annotation):
- 由于文本表示有时不足以区分相似或相同的网页元素(如附录 G 所示),因此我们提出使用边界框和索引标签覆盖每个候选元素。
- 该方法为候选元素 eee 创建一个边界框,并在边界框旁标注标签,以避免标注重叠。
- 模型需生成与目标元素对应的标签,从而准确识别正确的网页元素。
理想动作对接(Oracle Action Grounding)
理想情况下,动作描述 a~\tilde{a}a~ 应包含所有必要的详细信息,以便精确识别动作三元组 (e,o,v)(e, o, v)(e,o,v)。为了评估动作生成的性能,我们采用一种理想对接方法(oracle grounding),即在动作描述中明确提及的变量均可被正确识别。
在实际评估中,我们通过人工标注方式来近似此 oracle 方法,人工标注人员会帮助确认模型所生成的目标动作。
3. 实验
3.1 数据集
我们在 MIND2WEB(Deng 等, 2023)数据集上评估了我们的方法。该数据集包含超过 2000 个具有标注操作的复杂网页任务,涉及 137 个网站,覆盖 31 个低级域(low-level domains),并被归类为 12 个高级域(high-level domains)。数据集支持三种主要操作:点击(Click)、输入(Type)和选择(Select),同时将“悬停(Hover)”和“回车(Press Enter)”操作整合到点击操作中,以避免歧义。
测试集的目标是衡量网页代理在不同任务、网站和领域中的泛化能力,具体包括以下三种设置:
- 跨任务(Cross-Task): 评估代理在训练数据中未见过的任务,但仍在已知的域和网站中执行。
- 跨网站(Cross-Website): 评估代理在每个顶级域中新网站上的任务,测试 10 个新网站。
- 跨领域(Cross-Domain): 评估代理在训练数据中未包含的两个顶级域上的任务表现。
我们将数据集中每个 HTML 文档与其对应的网页截图图像进行对齐,这些数据经过人工验证,以确保元素的可见性和正确的渲染,以进行动作预测。经过清理后的数据版本称为 Multimodal Mind2Web,相关统计数据见表 1。
3.2 方法
SEEACT 方法:
在“基于图像标注”和“基于文本选择”对接策略中,我们首先使用 MindAct(Deng 等, 2023)提出的 DeBERTa-base 交叉编码器,对网页元素进行排名,选出前 50 个最相关元素,以便与文本仅基准进行公平比较。然后,我们将这些元素分成 17 个选项的组,供模型推理。在“基于元素属性”对接策略中,不提供候选元素,直接依靠模型进行推断。
我们在 GPT-4V API 上测试了所有三种 grounding 方法,并将表现最佳的 grounding 方法应用于 Gemini Pro Vision(Anil 等, 2023)和 LLaVA-1.5(Liu 等, 2023a;c)。
MindAct 方法:
为了与 SEEACT 进行比较,我们还实现了基于文本 LLM 和 BLIP-2(Li 等, 2023)的方法,遵循 MindAct 提出的两阶段策略(Deng 等, 2023)。具体来说,首先使用排名器选出前 50 个元素,然后将动作生成问题表述为多项选择题,其中候选元素作为选项,如果目标元素不存在,则包含“无”选项。在推理过程中,元素被分成 5 个一组进行迭代优化,直到做出最终选择或所有选项被丢弃。
我们评估了以下方法:
- 监督微调(SFT): 采用 FLAN-T5(Chung 等, 2022)和 BLIP-2-T5。
- 上下文学习(ICL): 采用 GPT-3.5 和 GPT-4。
像素级对接(Pixel-Level Grounding):
LMMs 可以通过在包含对象坐标的扩展数据集上训练,来生成目标元素在图像中的坐标,特别是在开源模型(Hong 等, 2023;Cheng 等, 2024;You 等, 2023)中表现较好。我们选择 CogAgent(Hong 等, 2023)作为该实验的代表模型,并采用 ICL 方法。
各个方法的详细信息见附录 A。
3.3 离线评估
我们采用 MIND2WEB 数据集中的评估指标,包括:
- 元素准确率(Ele. Acc): 比较预测的元素与真实元素的匹配度。
- 操作 F1 分数(Op. F1): 计算预测的操作(包括动作和输入值)的 token 级 F1 分数。
- 步骤成功率(Step SR): 衡量每一步动作的成功率,只有当所选元素和操作均正确时,该步骤才被视为成功。
我们对以上指标进行任务级宏平均。此外,还测量任务成功率(Success Rate, SR),该指标要求任务的所有步骤均正确才算成功。由于离线评估不允许模型进行探索和错误修正,因此我们主要关注前三个指标。然而,我们还对实时网站进行在线评估,以更好地衡量整体任务成功率,详细内容见下文。
3.4 在线评估
我们开发了一个新的在线评估工具,使用 Playwright 来评估网页代理在实时网站上的表现(与离线评估中的缓存网站不同)。
我们的工具可以高效地将浏览器中的多模态输入传输到代理,并将预测的动作三元组 (e,o,v)(e, o, v)(e,o,v) 转换为浏览器事件进行执行。
为了遵守道德标准,实验仅限于非登录任务,以确保符合用户协议。此外,在在线评估过程中,我们密切监控代理行为,以防止其执行任何可能产生负面影响的操作,例如下单或修改用户个人信息。
4. 结果与分析
4.1. 离线评估结果
GPT-4V 结合理想对接方法可以成为通用网页代理。
在提供有效的动作对接(grounding)方法的情况下,GPT-4V 具有成为通用网页代理的潜力。具体而言,如第 2.3 节所述,我们通过人工标注为 GPT-4V 提供了理想的动作对接方法(SEEACTOracle),在三个测试集上的步骤成功率分别达到了 61.9%、65.0% 和 62.1%。如表 2 所示,该方法在所有测试集上显著优于其他模型,尤其是在**跨任务(Cross-Task)设置下,其步骤成功率比第二好的方法高出 8.4%。在跨网站(Cross-Website)和跨领域(Cross-Domain)**设置下,SEEACTOracle 分别领先 23.9% 和 23.2%,表明其泛化能力优于监督微调方法。这一发现在在线评估(表 4)中得到了进一步验证。
元素对接方法的比较。
然而,理想对接方法与我们提出的三种对接方法之间仍存在显著差距(见表 3),这表明对接(尤其是元素对接)仍然是主要的瓶颈。
- 基于文本选择的对接(SEEACTChoice) 在所有测试场景和指标上表现最佳,接近监督微调,并显著优于仅使用文本的 LLMs。
- 基于图像标注的对接(SEEACTAnnotation) 提供了一种直观的方法,并在以对象或场景为中心的图像任务中表现良好(Yang 等, 2023a)。然而,在处理具有丰富语义和空间关系的网页截图时,GPT-4V 经常出现严重的幻觉(hallucination),即生成的元素描述虽然正确,但无法准确映射到图像中的边界框和索引标签,导致较低的元素准确率。
- 基于元素属性的对接(SEEACTAttribute) 由于依赖启发式的元素定位策略(基于文本和局部特征),在不包含文本的网页元素上表现较差。
LMMs 与 LLMs 比较。
使用 GPT-4V 的 SEEACTChoice 方法在三个测试集上,在所有指标上都显著优于仅使用文本的 GPT-4。
- 在步骤成功率上,SEEACTChoice 分别比 GPT-4 高出 6.8%、5.7% 和 12.3%。
- 令人惊讶的是,微调的 BLIP-2-T5 在表现上并未明显优于 FLAN-T5,尽管其具有额外的视觉输入。这可能是由于以下原因:
- 作为图像编码器的 CLIP 模型在理解网页截图细节方面能力有限。
- BLIP-2-T5 采用的是未专门针对网页截图优化的现成 CLIP 模型。
- 训练集中的某些示例可能存在截图渲染失败或不准确的标注问题。
监督微调(SFT)与上下文学习(ICL)。
我们比较了 SFT 和 ICL 方法,以探索在不同场景下开发网页代理的最优策略。
- ICL(使用 SEEACT) 在所有测试场景中表现稳定,尤其适用于缺乏标注数据或需要对新领域和网站进行泛化的场景。
- 随着对接方法的改进,ICL 方法可能进一步提高性能。
- 相比之下,SFT 方法在已知网站上的任务表现更好。由于网页代理的标注成本较高,ICL 提供了更具吸引力的解决方案。然而,如果目标仅限于某个特定网站的高性能代理,SFT 仍然是一个有竞争力的选择。
4.2. 在线评估结果
在在线评估中,我们让网页代理与人工标注员配对,人工标注员负责监控代理的操作,确保其不会更改真实世界的状态,并判断任务是否成功完成。为公平比较,我们将在线评估与离线评估进行对比,并重新编写时间敏感的任务(如更新航班预订日期)以确保测试时的有效性。最终,我们在来自三个测试集的 90 个任务子集上进行了在线评估。
表 4 显示,在在线评估中,整个任务成功率远高于离线评估(Offline0 设置)。这表明离线评估可能低估了模型的整体任务成功率,因为同一任务可能存在多个可行的执行计划,而离线评估仅评估其中之一。
在所有测试设置中,SEEACTChoice(结合 GPT-4V)比 GPT-4 和 FLAN-T5-XL 的整体任务成功率高出 20% 以上。使用理想对接方法(SEEACTOracle)可进一步将任务成功率提高到 51.1%。虽然 GPT-4 在离线评估中表现逊于 FLAN-T5-XL(表 2),但在在线评估中,它的整体任务成功率仍然高出 FLAN-T5-XL 4.4%。
4.3. 分析
按任务难度分析在线成功率。
我们根据人工标注员在标注过程中执行的动作数量来估算任务难度。图 3 显示,整体任务成功率与任务所需操作数量呈负相关,即任务越复杂,成功率越低。SEEACTOracle 在所有难度级别上均优于其他方法,尤其在长任务上,SEEACTOracle 与 SEEACTChoice 之间的差距扩大。这表明对接错误会在后续步骤中累积,并进一步凸显 GPT-4V 在对接方面的挑战。
基于图像标注的对接错误分析。
我们随机抽取 100 个预测正确但对接失败的示例,发现主要错误类型包括:
- 生成虚假的边界框和标签;
- 未能正确链接边界框与相应的标签。
54% 的错误是由于 GPT-4V 产生视觉幻觉,错误地假设目标元素存在,而实际上并无相应边界框;46% 的错误来自模型在识别图像中相对位置的局限性。
4.4. 案例研究
GPT-4V 在多个方面表现出色,包括:
- 世界知识(World Knowledge): 在需要背景知识的任务中,GPT-4V 比微调的小型模型表现更优,例如能够正确识别洛斯卡波斯机场的 IATA 代码 SJD,而小模型通常在知识密集型任务中表现较差。
- 网站世界模型(World Model for Websites): GPT-4V 具备预测网站状态变化的能力,例如预测点击按钮后的页面跳转,并基于这种认知进行未来行动的推测性规划。
- 错误修正能力(Error Correction Awareness): GPT-4V 能识别并纠正错误,例如检测到手机号格式错误并生成相应的修复动作说明。
5. 相关工作
网页代理(WebAgent)
许多研究致力于改进依赖 HTML 文档的网页代理(Deng 等, 2023;Gur 等, 2023;Kim 等, 2023;Sridhar 等, 2023)。然而,原始 HTML 文档通常庞大,直接将其输入到大型语言模型(LLMs)中通常是不切实际的,或者成本过高。
MindAct(Deng 等, 2023)采用小型语言模型对 HTML 元素进行排名,并选择最相关的元素作为上下文输入。WebAgent(Gur 等, 2023)通过对 HTML 文档进行摘要,并将指令分解为多个子指令,提出了一种增强的规划策略。
另一个研究方向是为网页代理引入视觉信息(Shaw 等, 2023;Furuta 等, 2023;Hong 等, 2023):
- Pix2Act(Shaw 等, 2023)利用 Pix2Struct(Lee 等, 2022)将网页截图解析为简化的 HTML,以完成基于图形用户界面的任务。
- WebGUM(Furuta 等, 2023)和 CogAgent(Hong 等, 2023)通过预训练大量网页截图-HTML 数据,提高模型在网页导航任务(如 MIND2WEB)中的决策能力。
尽管上述工作取得了进展,但现有模型在泛化到各种网页环境方面仍面临挑战。因此,SEEACT 探索了最新发布的更强大的多模态模型(LMMs),如 GPT-4V 和 Gemini,并通过全面的在线和离线评估,展示它们作为通用网页代理的潜力。在一项并行研究中(Yan 等, 2023),GPT-4V 在移动 UI 理解方面表现出色,而移动网站的复杂性通常低于桌面端网页。
大型多模态模型(Large Multimodal Models, LMMs)
GPT-4V(OpenAI, 2023)和 Gemini(Anil 等, 2023)代表了 LMMs 的重要进展。多个研究(Akter 等, 2023;OpenAI, 2023;Yang 等, 2023c;Zhang 等, 2023)强调了这些模型在视觉和语言推理能力方面的先进性和多功能性。它们在一系列基准测试(Kazemzadeh 等, 2014;Goyal 等, 2016;Zhong 等, 2023)上的出色表现也进一步证明了其在视觉-语言理解和推理方面的能力。
尽管开源模型与 GPT-4V 之间仍存在性能差距,但它们在可控性和易于针对特定应用进行微调方面具有优势。例如,CogAgent(Hong 等, 2023)在 HTML 和网页截图数据集上进行了微调,以增强网页理解能力,并通过图像编码器改进高分辨率图像的细节处理。Ferret(You 等, 2023)针对视觉引用和对接进行了微调,以提高模型在图像区域识别方面的能力。
视觉对接(Visual Grounding)
尽管 LMMs 在视觉-语言理解方面取得了显著进展,但在细粒度视觉对接方面仍面临挑战。
- 研究人员提出了多种**视觉提示(visual prompting)**方法,以增强 GPT-4V 处理图像细节的对接能力(Shtedritski 等, 2023;Yang 等, 2023b)。
- SoM(Set-of-Mark)(Yang 等, 2023a)方法通过将图像分割成具有语义意义的区域,并叠加数字、字母、掩码或边界框等视觉标记来提升对接效果。
- Kosmos-2(Peng 等, 2023)通过文本位置标记来表示边界框的位置。
- BuboGPT(Zhao 等, 2023)提取图像中的实体并找到相应的掩码。
- Shikra(Chen 等, 2023)通过在输入和输出中应用空间坐标作为文本标记,处理图像的细节引用和对接。
- Ferret(You 等, 2023)结合离散坐标和连续特征,并使用空间感知的视觉采样器来处理不同形状的空间特征。
6. 结论
在本研究中,我们开发了 SEEACT,这是一种通用网页代理,利用 GPT-4V 等大型多模态模型的能力,集成视觉理解和网页操作。我们的研究表明,LMMs 在网页代理任务中具有巨大潜力,在提供理想对接方法的情况下,成功率可达 50%。GPT-4V 还展现出诸如错误修正和推测性规划等强大功能。
然而,细粒度视觉对接仍然是一个主要挑战。本文中探索的最有效对接策略与理想对接仍存在 20-25% 的性能差距。未来研究应充分利用网页的独特特性,例如 HTML 和视觉元素之间的已知对应关系,以改进对接过程并减少 LMMs 的幻觉。此外,在线和离线评估之间存在显著差异,强调了在线评估对于准确评估模型能力的重要性。离线评估往往低估了模型的实际能力,因为同一任务可能存在多种可行的执行方案,而离线评估仅关注其中之一。
7. 影响声明
通用网页代理有潜力自动化日常网页任务、提升用户体验,并促进网页的可访问性。然而,它们在实际部署过程中也带来了一些安全问题,这些问题需要引起高度关注,例如:
- 访问用户的个人资料可能引发隐私问题。
- 执行诸如金融交易或提交申请表单等敏感操作,可能带来风险。
在在线评估过程中,我们注意到这些网页代理可能会生成有害操作,因此在执行之前,人工标注员对所有操作进行了安全验证。未来的研究需进一步评估和缓解这些风险,以确保网页代理不会执行有害操作。
该研究的代码将仅供研究用途,并遵循 OPEN-RAIL 许可证,旨在通过语言技术提高网页的可访问性。我们坚决反对任何滥用该数据或技术的行为。