Agent TARS
智能体应用

Agent TARS

Agent TARS Desktop 是字节跳动开发的 GUI 代理应用程序,它利用视觉-语言模型(UI-TARS)使用户能够通过自然语言控制他们的计算机。该应用支持 Windows 和 macOS,提供截图识别、精确的鼠标键盘控制和实时反馈等功能,旨在简化用户与计算机的交互并实现任务自动化。

快点收藏起来

什么是 Agent TARS

Agent TARS,全称 User Interface — Task Automation and Reasoning System,是一款由字节跳动(ByteDance)开发的创新型原生图形用户界面(GUI)代理模型。它旨在通过先进的人工智能能力增强用户与计算机图形界面的交互体验。与传统的模块化系统不同,UI-TARS 将感知(Perception)、推理(Reasoning)、接地(Grounding)和记忆(Memory)等关键要素整合到一个统一的视觉-语言模型(Vision-Language Model, VLM)中。这种设计使得 Agent TARS 能够在无需预设工作流程或手动干预的情况下,实现全面的任务自动化。Agent TARS Desktop 是基于 UI-TARS 模型的桌面应用程序,它允许用户通过直观的自然语言指令来控制他们的计算机,支持 Windows 和 macOS 系统,为用户提供了一种全新的、更便捷的计算机交互方式。

agent-tars-hero

Agent TARS 的功能

Agent TARS 具备一系列强大的功能,使其成为一个出色的 GUI 代理:

  • 跨平台支持: Agent TARS Desktop 能够无缝运行在 Windows 和 macOS 系统上,确保了广泛的可用性。
  • 自然语言控制: 用户可以使用直观的、对话式的自然语言命令来控制计算机,极大地降低了使用门槛。
  • 精确的输入控制: 提供精准的鼠标和键盘操作,以确保任务的准确执行。
  • 实时反馈: 对执行的操作提供即时响应和视觉反馈,帮助用户了解代理的工作状态。
  • 开放源代码: 基于 Apache License 2.0 许可,鼓励社区贡献和定制。
  • 视觉-语言模型集成: 利用先进的视觉-语言模型弥合了视觉元素和语言命令之间的差距。
  • 任务自动化: 通过自然语言输入自动化重复性任务,简化了复杂的工作流程,提高了工作效率。
  • 全面的 GUI 理解: 能够解释文本和图像等多种输入类型,从而全面理解用户界面。
  • 动态交互: 能够主动观察并响应 GUI 中实时发生的变化。
  • 标准化的动作框架: 在桌面、移动和 Web 等多个平台上提供一致的动作定义。
  • 平台特定的动作: 针对特定平台提供额外的功能,如热键、长按和手势等。
  • 双重推理方法: 采用快速的、本能的反应和针对更复杂任务的周密计划相结合的推理方法。
  • 规划与反思: 支持多步骤任务规划,并能反思之前的动作以提高执行的可靠性。
  • 上下文短期记忆: 保留与任务相关的上下文信息,以维持操作过程中的情境感知。
  • 历史长期记忆: 能够记住过去的交互和知识,有助于随着时间的推移做出更好的决策。

如何使用/快速开始

要开始使用 Agent TARS Desktop,您可以按照以下步骤进行操作:

  1. 下载 Agent TARS Desktop: 访问 Agent TARS Desktop 的 GitHub 仓库,在 Release 页面下载适用于您操作系统的最新版本(目前支持 Windows 和 macOS)。您也可以在 SourceForge 上找到镜像下载:UI-TARS Desktop download | SourceForge.net
  2. 安装应用程序: 下载完成后,根据您的操作系统执行安装程序。
  3. 启用辅助功能权限(macOS): 在 macOS 上,您需要在“系统设置”->“隐私与安全性”->“辅助功能”中启用 Agent TARS 的权限,以允许其控制您的电脑。
  4. 配置模型和搜索(可选): 启动 Agent TARS Desktop 应用程序,您可以在设置页面配置模型提供商(如 Azure OpenAI)和 API 密钥,以及搜索提供商和 API 密钥。对于 Azure OpenAI,您还可以设置 API 版本、部署名称和终端节点。
  5. 开始您的首次体验: 在输入框中输入您的第一个问题或任务,然后按 Enter 键发送。例如,您可以尝试输入“打开记事本”。
  6. 人机协作: Agent TARS 支持人机在环(Human In the Loop)的操作,您可以在代理工作的过程中通过顶部的特殊输入框插入您的想法或指令,以改变代理当前的工作方向。
  7. 分享您的工作线程: 您可以通过顶部菜单的分享按钮将您的工作线程分享给其他人,支持本地 HTML 文件分享和远程服务器 URL 分享两种模式。对于远程分享,您需要在分享模态框中设置远程服务器 URL。

Agent TARS Desktop 通过截图进行视觉识别,并精确控制鼠标和键盘来执行任务。它旨在简化用户与计算机的交互,将复杂的计算机操作转化为简单的自然语言指令。随着版本的迭代,Agent TARS 的功能和稳定性将不断提升,为用户带来更智能、更便捷的桌面控制体验。请务必参考 GitHub 仓库中的快速入门文档(Quick Start)以获取更详细的使用说明和配置指南。

目前,Agent TARS 仅支持 macOS,其他平台的支持正在开发中。

相关导航