OS-Genesis：基于逆向任务合成的 GUI 代理轨迹自动化生成

引言

近年来，图形用户界面（GUI）代理（GUI Agents） 在软件自动化、辅助测试和 AI 驱动的任务执行中扮演着越来越重要的角色。然而，当前的 GUI 代理训练仍然面临 高质量数据稀缺 的核心挑战。现有的方法主要依赖：

人工标注数据：人工设计任务，并手动记录交互数据，成本高昂，且扩展性差。
基于预定义任务的合成数据：预设 GUI 任务，并利用规则或模型生成轨迹数据，但存在数据多样性不足、泛化性差的问题。

核心问题

如何高效构建高质量的 GUI 代理训练数据？
如何减少对人工标注和任务预定义的依赖？
如何提高 GUI 代理在复杂交互任务中的泛化能力？

OS-Genesis 的贡献

OS-Genesis 提出了一种无监督的 GUI 轨迹数据自动合成框架，其核心思想是：

让代理在 GUI 环境中 主动探索，收集交互数据；
通过 逆向任务合成（RTS）推导任务轨迹，而非依赖人工任务定义；
通过 轨迹奖励模型（TRM） 评估并优化数据质量；
实验表明，OS-Genesis 大幅提升了 GUI 代理的任务完成率，并在 Mobile 和 Web 场景中优于现有方法。

1. OS-Genesis 的系统架构

OS-Genesis 由三个核心模块组成：

1. 探索与数据采集（Exploration & Data Collection）

代理在 GUI 界面中执行交互操作（点击、滚动、输入等）。
记录 GUI 状态变化（pre-state、action、post-state）。
形成 GUI 交互三元组：⟨S_pre, action, S_post⟩。

2. 逆向任务合成（Reverse Task Synthesis, RTS）

低阶任务（Low-level Instruction）生成：基于 GUI 状态变化生成具体的操作描述，如 “点击设置按钮”。
高阶任务（High-level Instruction）推导：整合多个低阶任务，构建完整的 GUI 任务目标，如 “修改应用设置”。

3. 轨迹构建与奖励模型（Trajectory Construction & Reward Model）

代理执行生成的高阶任务，形成完整轨迹。
轨迹奖励模型（TRM）计算任务完成度（Completion）和逻辑一致性（Coherence）。
低质量轨迹被筛除，仅保留高质量轨迹用于训练。

2. 逆向任务合成（RTS）：从交互到任务

2.1 动作记录与 GUI 状态捕捉

在无任务预定义的情况下，OS-Genesis 采用 主动交互 方式，在 GUI 界面中执行以下基本动作：

点击（CLICK）
输入文本（TYPE）
滚动（SCROLL）
切换窗口（SWITCH WINDOW）

每次操作都记录 GUI 界面的 前状态（S_pre） 和 后状态（S_post），并形成三元组 ⟨S_pre, action, S_post⟩。

示例

S_pre: 显示 "设置" 按钮 action: CLICK "设置" S_post: 显示 "设置界面"

2.2 低阶任务生成（Low-level Instruction）

OS-Genesis 利用 GPT-4o 或其他大模型（如 Qwen2-VL-7B）对 ⟨S_pre, action, S_post⟩ 进行转换，生成低阶任务指令，如：

点击 "设置" 以打开设置界面。

低阶任务的生成规则：

任务必须描述 GUI 状态的变化（如 “展开菜单”）。
任务必须是可执行的原子操作（不能省略关键步骤）。
任务描述需基于用户视角（如 “选择‘WiFi 设置’” 而非 “进入 SettingsActivity”）。

2.3 高阶任务生成（High-level Instruction）

在获得多个低阶任务后，OS-Genesis 进一步 合成高阶任务，如：

在设置界面中，启用 WiFi 并连接到 "Home-WiFi"。

示例

低阶任务：

1. 点击 "设置" 按钮。

2. 进入 "WiFi 设置" 。

3. 选择 "Home-WiFi" 并输入密码。

合成为：

高阶任务：

"在设置界面连接到 WiFi 网络"。

3. 轨迹构建与奖励模型（TRM）

生成的高阶任务用于 GUI 代理训练，但并非所有轨迹都适合训练，因此 OS-Genesis 设计了 轨迹奖励模型（TRM） 进行筛选。

3.1 轨迹奖励计算

TRM 主要基于两大指标：

任务完成度（Completion）：轨迹是否完整地执行了所有步骤？
逻辑一致性（Coherence）：轨迹的步骤是否符合 GUI 交互逻辑？

评分示例：

轨迹 Completion (0-1) Coherence (0-1) 总分

“打开 WiFi 设置并连接” 0.95 0.90 0.93

“点击 WiFi 但未输入密码” 0.60 0.85 0.72

“随意点击界面” 0.10 0.30 0.20

只有高评分轨迹会被用于训练 GUI 代理，以确保数据质量。

4. 实验与评估

4.1 任务成功率

OS-Genesis 在 AndroidWorld（Mobile）和 WebArena（Web）上进行评估：

AndroidWorld：任务成功率从 9.82% 提高至 17.41%（比基线方法翻倍）。
WebArena：任务成功率从 7.05% 提高至 10.79%。

4.2 泛化能力

OS-Genesis 训练的 GUI 代理在 未见过的应用 中仍然能高效执行任务，证明其泛化能力优于传统方法。

未来展望

OS-Genesis 作为 GUI 代理轨迹数据生成的新方法，在未来可以：

扩展到更复杂的 GUI 交互环境（如跨平台 GUI 操作）。
优化 TRM 奖励模型，提升轨迹数据筛选的智能性。
结合强化学习，提升 GUI 代理的自适应任务执行能力。

总结

OS-Genesis 提供了一种 高效、无监督、泛化能力强 的 GUI 代理训练方案。通过 逆向任务合成（RTS） 和 轨迹奖励模型（TRM），OS-Genesis 解决了 GUI 代理训练数据稀缺的问题，并在多个实验环境中优于现有方法，为构建更智能的自动化 GUI 代理提供了重要技术支撑。

原文链接：[2412.19723] OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis