OS-Genesis:基于逆向任务合成的 GUI 代理轨迹自动化生成

embedded/2025/2/22 2:44:06/

引言

近年来,图形用户界面GUI)代理(GUI Agents) 在软件自动化、辅助测试和 AI 驱动的任务执行中扮演着越来越重要的角色。然而,当前的 GUI 代理训练仍然面临 高质量数据稀缺 的核心挑战。现有的方法主要依赖:

  • 人工标注数据:人工设计任务,并手动记录交互数据,成本高昂,且扩展性差。

  • 基于预定义任务的合成数据:预设 GUI 任务,并利用规则或模型生成轨迹数据,但存在数据多样性不足、泛化性差的问题。

核心问题

  1. 如何高效构建高质量的 GUI 代理训练数据

  2. 如何减少对人工标注和任务预定义的依赖?

  3. 如何提高 GUI 代理在复杂交互任务中的泛化能力?

OS-Genesis 的贡献

OS-Genesis 提出了一种无监督的 GUI 轨迹数据自动合成框架,其核心思想是:

  • 让代理在 GUI 环境中 主动探索,收集交互数据;

  • 通过 逆向任务合成(RTS 推导任务轨迹,而非依赖人工任务定义;

  • 通过 轨迹奖励模型(TRM) 评估并优化数据质量;

  • 实验表明,OS-Genesis 大幅提升了 GUI 代理的任务完成率,并在 Mobile 和 Web 场景中优于现有方法。

1. OS-Genesis 的系统架构

OS-Genesis 由三个核心模块组成:

1. 探索与数据采集(Exploration & Data Collection)

  • 代理在 GUI 界面中执行交互操作(点击、滚动、输入等)。

  • 记录 GUI 状态变化(pre-stateactionpost-state)。

  • 形成 GUI 交互三元组:⟨S_pre, action, S_post⟩。

2. 逆向任务合成(Reverse Task Synthesis, RTS)

  • 低阶任务(Low-level Instruction)生成:基于 GUI 状态变化生成具体的操作描述,如 “点击设置按钮”。

  • 高阶任务(High-level Instruction)推导:整合多个低阶任务,构建完整的 GUI 任务目标,如 “修改应用设置”。

3. 轨迹构建与奖励模型(Trajectory Construction & Reward Model)

  • 代理执行生成的高阶任务,形成完整轨迹。

  • 轨迹奖励模型(TRM)计算任务完成度(Completion)和逻辑一致性(Coherence)。

  • 低质量轨迹被筛除,仅保留高质量轨迹用于训练。

2. 逆向任务合成(RTS):从交互到任务

2.1 动作记录与 GUI 状态捕捉

在无任务预定义的情况下,OS-Genesis 采用 主动交互 方式,在 GUI 界面中执行以下基本动作:

  • 点击(CLICK)

  • 输入文本(TYPE)

  • 滚动(SCROLL)

  • 切换窗口(SWITCH WINDOW)

每次操作都记录 GUI 界面的 前状态(S_pre)后状态(S_post),并形成三元组 ⟨S_pre, action, S_post⟩。

示例

S_pre: 显示 "设置" 按钮 action: CLICK "设置" S_post: 显示 "设置界面"

2.2 低阶任务生成(Low-level Instruction)

OS-Genesis 利用 GPT-4o 或其他大模型(如 Qwen2-VL-7B)对 ⟨S_pre, action, S_post⟩ 进行转换,生成低阶任务指令,如:

点击 "设置" 以打开设置界面。

低阶任务的生成规则:

  1. 任务必须描述 GUI 状态的变化(如 “展开菜单”)。

  2. 任务必须是可执行的原子操作(不能省略关键步骤)。

  3. 任务描述需基于用户视角(如 “选择‘WiFi 设置’” 而非 “进入 SettingsActivity”)。

2.3 高阶任务生成(High-level Instruction)

在获得多个低阶任务后,OS-Genesis 进一步 合成高阶任务,如:

在设置界面中,启用 WiFi 并连接到 "Home-WiFi"。

示例

低阶任务:

1. 点击 "设置" 按钮。

2. 进入 "WiFi 设置" 。

3. 选择 "Home-WiFi" 并输入密码。

合成为:

高阶任务:

"在设置界面连接到 WiFi 网络"。

3. 轨迹构建与奖励模型(TRM)

生成的高阶任务用于 GUI 代理训练,但并非所有轨迹都适合训练,因此 OS-Genesis 设计了 轨迹奖励模型(TRM) 进行筛选。

3.1 轨迹奖励计算

TRM 主要基于两大指标:

  1. 任务完成度(Completion):轨迹是否完整地执行了所有步骤?

  2. 逻辑一致性(Coherence):轨迹的步骤是否符合 GUI 交互逻辑?

评分示例:

轨迹 Completion (0-1) Coherence (0-1) 总分

“打开 WiFi 设置并连接” 0.95 0.90 0.93

“点击 WiFi 但未输入密码” 0.60 0.85 0.72

“随意点击界面” 0.10 0.30 0.20

只有高评分轨迹会被用于训练 GUI 代理,以确保数据质量。

4. 实验与评估

4.1 任务成功率

OS-Genesis 在 AndroidWorld(Mobile)和 WebArena(Web)上进行评估:

  • AndroidWorld:任务成功率从 9.82% 提高至 17.41%(比基线方法翻倍)。

  • WebArena:任务成功率从 7.05% 提高至 10.79%

4.2 泛化能力

OS-Genesis 训练的 GUI 代理在 未见过的应用 中仍然能高效执行任务,证明其泛化能力优于传统方法。

未来展望

OS-Genesis 作为 GUI 代理轨迹数据生成的新方法,在未来可以:

  1. 扩展到更复杂的 GUI 交互环境(如跨平台 GUI 操作)。

  2. 优化 TRM 奖励模型,提升轨迹数据筛选的智能性。

  3. 结合强化学习,提升 GUI 代理的自适应任务执行能力。

总结

OS-Genesis 提供了一种 高效、无监督、泛化能力强 的 GUI 代理训练方案。通过 逆向任务合成(RTS)轨迹奖励模型(TRM),OS-Genesis 解决了 GUI 代理训练数据稀缺的问题,并在多个实验环境中优于现有方法,为构建更智能的自动化 GUI 代理提供了重要技术支撑。

原文链接:[2412.19723] OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis


http://www.ppmy.cn/embedded/164213.html

相关文章

设计模式教程:责任链模式(Chain of Responsibility Pattern)

责任链模式(Chain of Responsibility Pattern)是一种常用的设计模式,它属于行为型模式,主要解决的是多个对象处理一个请求时,如何解耦请求的发送者和接收者,以及如何将请求的处理职责分配给不同的对象。 1…

Python----数据结构(栈:列表栈,链栈。初始化,入栈,出栈,获取栈长度,判断是否为空,访问栈顶元素)

一、栈 1.1、概念 栈(stack):又名堆栈,它是一种运算受限的线性表,是一种容器,可存入数据元素、访 问元素、删除元素,它的特点在于只能允许在容器的一端(成为栈顶top),进…

银河麒麟系统安装mysql5.7【亲测可行】

一、安装环境 cpu:I5-10代; 主板:华硕; OS:银河麒麟V10(SP1)未激活 架构:Linux 5.10.0-9-generic x86_64 GNU/Linux mysql版本:mysql-5.7.34-linux-glibc2.12-x86_64.ta…

时间序列预测实战:指数平滑法详解与MATLAB实现

摘要 本文系统讲解指数平滑法的核心理论与实战应用,涵盖一次、二次、三次及差分指数平滑技术。通过电器销售额预测、发电量趋势分析等案例,详细解析加权系数选择、初始值设定与误差修正机制,并提供完整的MATLAB实现代码。结合预测误差评估与…

如何在本地和服务器新建mysql用户和密码

文章目录 一. MySQL安装和卸载二. 新建mysql用户,测试连接2.1 服务器中语法操作2.2 宝塔面板中安装 三. 注意 一. MySQL安装和卸载 MySQL安装 点开下面的链接:https://dev.mysql.com/downloads/mysql/ 安装msi安装包即可。下载新版本的mysql前应该先卸…

【Linux】【网络】frp 如何准确将 客户端B 请求转发给 服务器A 的

【Linux】【网络】frp 如何准确将 客户端B 请求转发给 服务器A 的 先来看一下上个文章的配置 1配置部分 1.1frp 配置 frp一直在监听7000这个端口上是否有请求到达 [common] bind_port 7000 # 云服务器监听的端口1.2 服务器A配置 [common] server_addr frp_ip; # 云服…

java基础语知识(8)

类之间的关系 在类之间,最常见的关系有: 依赖(“uses-a”);聚合(“has-a”);继承(“is-a”)。 依赖:一种使用关系,即一个类的实现需要另一个类的协助&#x…

Weboffice在线Word权限控制:限制编辑,只读、修订、禁止复制等

在现代企业办公中,文档编辑是一项常见且重要的任务。尤其是在线办公环境中,员工需要在网页中打开和编辑文档,但如何确保这些文档只能进行预览而无法被编辑或复制,成为许多企业面临的一个痛点。尤其是在处理涉密文档时,…