[阅读笔记25][WebArena]A Realistic Web Environment for Building Autonomous Agents

这篇论文提出了WebArena这个环境与测试基准，在24年1月发表。

之前的agent都是在一些简化过的合成环境中测试的，这会导致与现实场景脱节。这篇论文构建了一个高度逼真、可复现的环境。该环境涉及四个领域：电子商务、论坛讨论、软件开发和内容管理。基于环境又引入了一组基准任务，用来评估任务完成的正确性，这些任务可以模拟人类在互联网上的日常行为。另外该基准被证明是具有挑战性的，GPT-4成功率仅14.41%，人类成功率为78.24%。

WebArena的观察空间主要有三类，网页的原始HTML、网页截图和可访问性树。下图是三种不同类型的观察表示。

动作空间也是主要分为三类，第一类是元素相关的操作，例如单击、悬停、键入以及组合键。第二类是标签页相关的操作，例如打开关闭或者切换标签页。第三类是url导航相关操作，例如前进后退或者访问某个url。右图为三类动作的具体描述。

作者基于四个Web环境提出了新的评测基准，这个基准包括812个以自然语言描述的指令。这些指令是通过241个模板生成的。相当于每个模板生成了3.3个指令。
这些指令可以分为三类，第一类是信息查找类任务，第二类是网站导航类，第三类是具体操作类任务，涉及增删改网页内容或者一些设置。右图对这三类任务举了一些例子。

生成了812个指令后，由精通网页任务的专业人员进行标注，拿到标注之后需要确定每类指令如何进行评估。具体可以参照下面的表，对于第一类指令信息查找类的，根据具体指令不同又分为三类，第一种就是答案必须精确匹配的，第二种是答案必须包含某些字段的，第三种是答案可以模糊匹配的，这里使用GPT-4来判断两个答案语义上是否相同。
对于第二类和第三类指令，需要借助程序来判断。具体而言，导航类任务先获取当前页面的url，然后通过比对url来判断是否导航到要求页面。操作类任务根据不同操作也有不同的评估方法，这里是发帖子操作。

最后是作者使用各种LLM作为agent来完成任务，SR表示成功率，SRac是能完成的任务成功率，SRua是不可能完成的任务识别率。另外可以观察到，添加了思维链提示后普遍都能获得更高的成功率，而添加UA Hint后对于不可能任务识别率更高了，但是GPT-4对能完成的任务成功率会下降。这主要是由于GPT-4将一些可行的任务错误识别为不可能任务了。
最终最好的LLM也才只有14.41%的成功率，人类也只有78.24%的成功率，这些结果强调了在WebArena这个现实环境下完成任务的挑战性。

左图是对比之前已有的一些基准，WebArena是在可交互的现实环境下实现的，并且包含了多样的人类在日常生活中可能遇到的任务，另外还设计了评估指标来评估任务执行的功能正确性。
右图是在探讨同一个模板生成的不同指令是否具有相似的难度。可以看到大部分模板只有20%多的成功率，也就是说即使是同一个模板所生成的指令也具有不同的难度。

[阅读笔记25][WebArena]A Realistic Web Environment for Building Autonomous Agents

相关文章

【前端面试常问】Promise与Async/Await

11.事件处理

jmeter-while控制器用法

Android 一键唤醒应用

ROS2 王牌升级：Fast-DDS 性能直接碾压 zeroMQ 「下」

2024团体程序设计天梯赛L1-101 别再来这么多猫娘了！

力扣练习题（2024/4/21）

VUE - pdfmake的中文字库支持