引言
近年来,图形用户界面(GUI)代理(GUI Agents) 在软件自动化、辅助测试和 AI 驱动的任务执行中扮演着越来越重要的角色。然而,当前的 GUI 代理训练仍然面临 高质量数据稀缺 的核心挑战。现有的方法主要依赖:
-
人工标注数据:人工设计任务,并手动记录交互数据,成本高昂,且扩展性差。
-
基于预定义任务的合成数据:预设 GUI 任务,并利用规则或模型生成轨迹数据,但存在数据多样性不足、泛化性差的问题。
核心问题
-
如何高效构建高质量的 GUI 代理训练数据?
-
如何减少对人工标注和任务预定义的依赖?
-
如何提高 GUI 代理在复杂交互任务中的泛化能力?
OS-Genesis 的贡献
OS-Genesis 提出了一种无监督的 GUI 轨迹数据自动合成框架,其核心思想是:
-
让代理在 GUI 环境中 主动探索,收集交互数据;
-
通过 逆向任务合成(RTS) 推导任务轨迹,而非依赖人工任务定义;
-
通过 轨迹奖励模型(TRM) 评估并优化数据质量;
-
实验表明,OS-Genesis 大幅提升了 GUI 代理的任务完成率,并在 Mobile 和 Web 场景中优于现有方法。
1. OS-Genesis 的系统架构
OS-Genesis 由三个核心模块组成:
1. 探索与数据采集(Exploration & Data Collection)
-
代理在 GUI 界面中执行交互操作(点击、滚动、输入等)。
-
记录 GUI 状态变化(pre-state、action、post-state)。
-
形成 GUI 交互三元组:⟨S_pre, action, S_post⟩。
2. 逆向任务合成(Reverse Task Synthesis, RTS)
-
低阶任务(Low-level Instruction)生成:基于 GUI 状态变化生成具体的操作描述,如 “点击设置按钮”。
-
高阶任务(High-level Instruction)推导:整合多个低阶任务,构建完整的 GUI 任务目标,如 “修改应用设置”。
3. 轨迹构建与奖励模型(Trajectory Construction & Reward Model)
-
代理执行生成的高阶任务,形成完整轨迹。
-
轨迹奖励模型(TRM)计算任务完成度(Completion)和逻辑一致性(Coherence)。
-
低质量轨迹被筛除,仅保留高质量轨迹用于训练。
2. 逆向任务合成(RTS):从交互到任务
2.1 动作记录与 GUI 状态捕捉
在无任务预定义的情况下,OS-Genesis 采用 主动交互 方式,在 GUI 界面中执行以下基本动作:
-
点击(CLICK)
-
输入文本(TYPE)
-
滚动(SCROLL)
-
切换窗口(SWITCH WINDOW)
每次操作都记录 GUI 界面的 前状态(S_pre) 和 后状态(S_post),并形成三元组 ⟨S_pre, action, S_post⟩。
示例
S_pre: 显示 "设置" 按钮 action: CLICK "设置" S_post: 显示 "设置界面"
2.2 低阶任务生成(Low-level Instruction)
OS-Genesis 利用 GPT-4o 或其他大模型(如 Qwen2-VL-7B)对 ⟨S_pre, action, S_post⟩ 进行转换,生成低阶任务指令,如:
点击 "设置" 以打开设置界面。
低阶任务的生成规则:
-
任务必须描述 GUI 状态的变化(如 “展开菜单”)。
-
任务必须是可执行的原子操作(不能省略关键步骤)。
-
任务描述需基于用户视角(如 “选择‘WiFi 设置’” 而非 “进入 SettingsActivity”)。
2.3 高阶任务生成(High-level Instruction)
在获得多个低阶任务后,OS-Genesis 进一步 合成高阶任务,如:
在设置界面中,启用 WiFi 并连接到 "Home-WiFi"。
示例
低阶任务:
1. 点击 "设置" 按钮。
2. 进入 "WiFi 设置" 。
3. 选择 "Home-WiFi" 并输入密码。
合成为:
高阶任务:
"在设置界面连接到 WiFi 网络"。
3. 轨迹构建与奖励模型(TRM)
生成的高阶任务用于 GUI 代理训练,但并非所有轨迹都适合训练,因此 OS-Genesis 设计了 轨迹奖励模型(TRM) 进行筛选。
3.1 轨迹奖励计算
TRM 主要基于两大指标:
-
任务完成度(Completion):轨迹是否完整地执行了所有步骤?
-
逻辑一致性(Coherence):轨迹的步骤是否符合 GUI 交互逻辑?
评分示例:
轨迹 Completion (0-1) Coherence (0-1) 总分
“打开 WiFi 设置并连接” 0.95 0.90 0.93
“点击 WiFi 但未输入密码” 0.60 0.85 0.72
“随意点击界面” 0.10 0.30 0.20
只有高评分轨迹会被用于训练 GUI 代理,以确保数据质量。
4. 实验与评估
4.1 任务成功率
OS-Genesis 在 AndroidWorld(Mobile)和 WebArena(Web)上进行评估:
-
AndroidWorld:任务成功率从 9.82% 提高至 17.41%(比基线方法翻倍)。
-
WebArena:任务成功率从 7.05% 提高至 10.79%。
4.2 泛化能力
OS-Genesis 训练的 GUI 代理在 未见过的应用 中仍然能高效执行任务,证明其泛化能力优于传统方法。
未来展望
OS-Genesis 作为 GUI 代理轨迹数据生成的新方法,在未来可以:
-
扩展到更复杂的 GUI 交互环境(如跨平台 GUI 操作)。
-
优化 TRM 奖励模型,提升轨迹数据筛选的智能性。
-
结合强化学习,提升 GUI 代理的自适应任务执行能力。
总结
OS-Genesis 提供了一种 高效、无监督、泛化能力强 的 GUI 代理训练方案。通过 逆向任务合成(RTS) 和 轨迹奖励模型(TRM),OS-Genesis 解决了 GUI 代理训练数据稀缺的问题,并在多个实验环境中优于现有方法,为构建更智能的自动化 GUI 代理提供了重要技术支撑。
原文链接:[2412.19723] OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis