DroidBot-GPT: GPT-powered UI Automation for Android论文学习

devtools/2024/9/23 22:12:02/

本文介绍了DroidBot GPT,这是一种利用类似GPT的大型语言模型(LLM)自动化与Android移动应用程序交互的工具。给定所需任务的自然语言描述,DroidBot GPT可以自动生成并执行导航应用程序以完成任务的操作。它的工作原理是将应用程序GUI状态信息和智能手机屏幕上的可用操作转换为自然语言提示,并要求LLM选择操作。

除此之外,我们介绍如何自动生成自然语言来描述移动应用程序中的任务、状态和动作。通过建立LLM,我们能够为这些任务确定适当的行动顺序。我们认为,这项技术为在决策和机器人过程自动化中使用大型语言模型提供了一个有趣的机会。

可以看到本文章没有使用多模态模型,只把截图转化为了文字告诉GPT。

流程图如图所示

这里讲一下把UI界面转化为文本的一些细节:

给定一个图形用户界面,我们首先提取所有用户可见的元素并检查它们的属性。对于每个元素,我们生成一个提示“a view<name>that can…”,后面是图3所示的所有属性提示。

然后,我们将所有元素与前面的文本“当前状态具有以下UI视图和相应的操作,操作id在括号中”相结合。我们可以使用上述规则将UI树转换为自然语言句子。

这么做是为了避免文本过长。假如使用嵌套结构标准的表示UI元素的话,文本过长。

除了GUI描述和动作空间外,提示还应包括历史动作序列,以避免重复。因此,提示由任务、具有它们提供的动作选项的GUI元素、动作历史以及输出应该是单选还是要键入的句子的要求组成。

但是,这篇文章的工作也会被无文字描述的UI元素,模糊的UI关系和动作等东西gank。个人认为这归根结底是因为它没有直接使用截图,还是以纯文本的形式在描述UI,这样会损失大量信息,有很多东西干脆就表示不了,以后不可能使用这种方法了。


http://www.ppmy.cn/devtools/113099.html

相关文章

甘特图介绍

甘特图&#xff08;Gantt chart&#xff09;是一种常用于项目管理和计划安排的图表类型&#xff0c;它以图形的方式展示项目的任务、活动或工作流的时间线。甘特图得名于它的发明者亨利劳伦斯甘特&#xff08;Henry Laurence Gantt&#xff09;&#xff0c;他在20世纪初开发了这…

在线查看 Android 系统源代码 Git repositories on android

在线查看 Android 系统源代码 Git repositories on android 1. Git repositories on android1.1. Android Make Build System1.2. Android Open Source Project Code Review References 1. Git repositories on android https://android.googlesource.com/ 1.1. Android Make …

jmeter 录制APP脚本

一、手机 1、修改网络 代理选择手动→填写服务器主机名&#xff08;电脑IP&#xff0c;如&#xff1a;192.1xx.x.xx&#xff09;→服务器端口&#xff08;任意未被占用端口&#xff0c;如&#xff1a;8888&#xff09; 2、安装证书 手机浏览器访问服务器主机名:服务器端口&a…

17、电科院FTU检测标准学习笔记-录波性能

作者简介&#xff1a; 本人从事电力系统多年&#xff0c;岗位包含研发&#xff0c;测试&#xff0c;工程等&#xff0c;具有丰富的经验 在配电自动化验收测试以及电科院测试中&#xff0c;本人全程参与&#xff0c;积累了不少现场的经验 ———————————————————…

java技术栈介绍

Java技术栈是一个庞大而丰富的生态系统&#xff0c;它包含了从基础语言特性到高级框架、库和工具的整个集合。这个技术栈为开发者提供了构建各种类型应用&#xff08;包括企业级应用、Web应用、移动应用、大数据应用等&#xff09;所需的全部组件。以下是对Java技术栈的一个更详…

【LoRA】浅谈大模型微调之LoRA技术

在当今的信息时代中&#xff0c;大型语言模型扮演着至关重要的角色&#xff0c;它们在自然语言处理任务中展现出强大的能力。LoRA&#xff0c;英文全称Low-Rank Adaptation of Large Language Models&#xff0c;是一种用于微调大型语言模型的低秩适应技术&#xff0c;由微软的…

Siri因ChatGPT-4o升级:我们的个人信息还安全吗?

随着人工智能技术的不断进步&#xff0c;智能语音助手如Siri、Alexa、Google Assistant等已成为我们生活的一部分。这些助手通过自然语言处理(NLP)技术与用户互动&#xff0c;提供更加个性化的服务。 近期&#xff0c;ChatGPT-4o的引入为Siri带来了全新的功能和体验&#xff0c…

如何使用ssm实现流浪动物救助站+vue

TOC ssm593流浪动物救助站vue 绪论 课题背景 身处网络时代&#xff0c;随着网络系统体系发展的不断成熟和完善&#xff0c;人们的生活也随之发生了很大的变化。目前&#xff0c;人们在追求较高物质生活的同时&#xff0c;也在想着如何使自身的精神内涵得到提升&#xff0c;…