LLM之Agent(十四)| 字节开源ComputerUse纯视觉驱动GUI 智能体模型 UI-TARS

news/2025/3/31 0:05:59/

       Agent TARS 是字节跳动于 2025 年 3 月开源的多模态 AI 智能体,它能够像人类一样操作电脑、手机和网页,完成各种复杂任务。以下是其详细介绍:

一、简介

        Agent TARS 是一款开源的多模态 AI 智能体,能够基于视觉理解网页内容,并与浏览器、命令行和文件系统无缝集成,实现复杂任务的规划与执行。它旨在为用户提供高效、便捷的自动化体验,具有多模态交互能力、强大的任务规划与执行功能,以及高度的可扩展性和灵活性。

主要功能

  • 代理工作流:利用复杂的 agent 框架来创建 agent flow,帮助你完成任务的规划和执行 ,平滑地编排搜索 、 浏览 、 探索链接等任务,同时通过 Event Stream 与 UI 连接,并合成信息以产生最终输出;

  • 全工具支持(浏览器、CLI、文件等):利用复杂的代理框架来执行复杂的浏览器任务,例如 Deep Research 和其他 Operator 功能。还可以利用模型上下文协议 (MCP) 与各种工具无缝集成,包括搜索 、 文件编辑 、CLI 和编码;

  • 实时工件展示:为了增强用户对 AI 流程和结果的参与度,Agent TARS 应用程序提供了一个直观的流式用户界面,展示了浏览器和文档等多模式工件;

  • 浏览器操作:支持自动化网络交互,自行浏览网页执行任务;

  • 数据处理:实时数据分析,处理和分析数据;

  • 命令行支持:支持系统级操作,与命令行工具集成;

  • 文件系统操作:支持文件管理和输入/输出操作;

  • 代码生成与解释:智能代码合成,自动生成代码,并能解释和优化代码逻辑;

技术原理

  • 多模态感知与推理:Agent TARS 能够结合文字、图像、交互历史等多种模态信息,实时理解动态变化的界面,像人类大脑一样无缝协同工作;

  • 端到端任务执行:将感知、推理、动作执行等能力集成在一个模型内,能够直接接收自然语言指令和屏幕截图,输出鼠标点击、键盘输入等操作;

  • 自我学习与优化:具备自我学习和优化的能力,通过持续交互从错误中学习,越用越聪明;

应用场景

  • 网页自动化:自动浏览网页,提取信息,用于市场研究、新闻聚合或学术搜索;

  • 任务管理:规划和执行复杂任务,适用于项目管理、个人助理和自动化工作流;

  • 代码辅助:生成和优化代码,帮助软件开发、代码学习和教育;

  • 数据分析:实时处理数据,用于金融分析、市场趋势和数据可视化;

  • 人机协作:支持实时协作和知识共享,便于团队合作和教育辅助;

优势与创新

  • 纯视觉感知:像人类一样“看”懂界面,无需依赖 API 或解析底层代码,天然跨平台且抗界面变动;

  • 多模态推理:将多种能力集成在一个模型内,能够结合多种模态信息,实时理解动态变化的界面;

  • 自我进化能力:通过持续交互从错误中学习,越用越聪明;

  • 开源与免费商用:采用开源模式,并且免费商用(Apache 2.0 许可),促进技术的传播和创新;

        Agent TARS 凭借其强大的技术实力和创新特性,正在引领 AI 智能体技术的发展潮流,为个人用户和企业提供了高效、便捷的智能化解决方案。

二、使用

目前,Agent TARS 仅支持 macOS,其他平台的支持正在开发中!

下载地址:https://github.com/bytedance/UI-TARS-desktop/releases?q=Agent+Tars&expanded=true#/

当然,也可以使用Homebrew命令来安装桌面版

brew install --cask agent-tars

     在开始之前,需要设置一些必要的配置,可以点击左下角的按钮打开设置页面:

setting-icon.png

        然后,可以设置模型配置和搜索配置。对于模型配置,可以设置模型提供方和 对应的API Key:

model-config.png

对于 Azure OpenAI,需要设置更多参数,包括 apiVersion、deploymentName 和 endpoint。

搜索与AI Models配置类似,配置界面如下:

search-settings.png

之后,就可以开始quick start了

     可以在输入框中输入一个问题,然后按 Enter 键发送您的问题。示例如下:

first-journey.jpeg

       还支持 Human In the Loop,这意味着用户可以通过输入框与工作过程中的智能体进行交互。如果想改变当前 Agent 的工作方向,可以在顶部位置的特殊输入框里插入你的想法,然后按 Enter 发送你的想法。示例如下:

human-in-the-loop.jpeg

三、分享功能

可以通过顶部菜单上的共享按钮与他人共享您的线程。

有两种模式可以共享您的线程:

  • 本地 Html:Agent TARS 会将用户的线程捆绑成一个 html 文件,使用该文件与他人共享;

  • 远程服务器 URL:Agent TARS 将生成一个 url 供您与他人共享您的线程,Agent TARS 会将 html 包上传到远程服务器。

3.1 本地模式

local-share

3.2 远程模式

      对于远程共享模式,用户需要在共享模式中设置远程服务器 url:

remote-share

       然后,Agent TARS 将向远程服务器发布上传 html 包的请求,然后您可以与他人共享 URL。具体请求信息如下:

Method: POST

Body: 

file: the html bundle file(type: multipart/form-data)

Response: 

data: { url: string }

参考文献:

[1] 论文:https://github.com/bytedance/UI-TARS

[2] 桌面版:https://github.com/bytedance/UI-TARS-desktop

[3] 浏览器版:https://github.com/web-infra-dev/midscene

[4] 发布Blog:https://agent-tars.com/2025/03/18/announcing-agent-tars-app#/

[5] 示例演示:https://agent-tars.com/showcase#/

[6] GUI模型部署教程:https://bytedance.sg.larkoffice.com/docx/TCcudYwyIox5vyxiSDLlgIsTgWf#/

[7] UI TARS SDK:https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/sdk.md#/


http://www.ppmy.cn/news/1583691.html

相关文章

高效内存管理:x86-64架构中的分页机制

在 x86-64 架构的世界里,内存分页机制扮演着举足轻重的角色,它就像是一座桥梁,连接着虚拟地址与物理地址。简单来说,内存分页机制就是将线性地址(也就是虚拟地址)切分成一个个固定大小的页,并把…

稳健投资新标杆,云济会布局国库券回购助推金融市场优化

【2025年3月21日】近日,云济会正式宣布启动其首个国库券回购计划,引发业内外广泛关注。这一举措被视为云济会积极响应国家经济战略、助推新中产财富管理升级的重要一步,也标志着新中产资本正以更高效、更稳健的方式深度融入国家金融体系。 据…

常见邮件协议

常见邮件协议 SMTP(发),POP3(收),IMAP(收) 发邮件:SMTP(加密版本SMTPS) SMTP是建立在FTP文件传输服务上的一种邮件服务,主要用于系…

性能测试、负载测试、压力测试的全面解析

在软件测试领域,性能测试、负载测试和压力测试是评估系统稳定性和可靠性的关键手段。​它们各自关注不同的测试目标和应用场景,理解这些差异对于制定有效的测试策略至关重要。 本文对性能测试、负载测试和压力测试进行深入分析,探讨其定义、…

基于Spring Boot的企业内管信息化系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

基于HTML的邮件发送状态查询界面设计示例

以下是一个基于HTML的邮件发送状态查询界面设计示例&#xff0c;结合筛选功能、状态展示和重新发送操作&#xff0c;采用Bootstrap框架实现响应式布局&#xff1a; <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"&…

Spring Boot 自动装配原理深度解析:从源码到实战

Spring Boot 自动装配原理深度解析&#xff1a;从源码到实战 Spring Boot 自动装配&#xff08;Auto-configuration&#xff09; 是 Spring Boot 的核心特性之一&#xff0c;它通过约定大于配置的思想&#xff0c;自动加载适合当前项目的 Spring 组件&#xff0c;让开发者无需手…

【Golang】defer与recover的组合使用

在Go语言中&#xff0c;defer和recover是两个关键特性&#xff0c;通常结合使用以处理资源管理和异常恢复。以下是它们的核心应用场景及使用示例&#xff1a; 1. defer 的应用场景 defer用于延迟执行函数调用&#xff0c;确保在函数退出前执行特定操作。主要用途包括&#xff…