Vercel 开源浏览器自动化 CLI 工具 agent-browser

AI资讯 2个月前 硕雀
90 0

Vercel 开源项目 agent-browser 是由 Vercel(原名 ZEIT)团队推出的一款 开源浏览器自动化 CLI 工具。它旨在为 AI 代理(AI Agents)赋能,使得大模型不仅能“思考”,还能“动手”直接操作网页、执行真实任务。

以下是该项目的详细介绍:

1. 核心定位与目标

agent-browser 并非传统意义上的浏览器驱动(如 Selenium),而是专为 Agentic AI具身智能)设计的工具。

  • 赋予 AI 动手能力:解决了大模型只能“读”网页、却无法“写”网页或进行交互的问题。它让 AI 能够执行诸如比价、自动化填表、测试网页功能等实际任务。
  • 构建 AI 原生应用:开发者可以基于此工具,快速搭建具备执行力的智能代理,实现人机协作的新范式。

2. 主要功能特性

agent-browser 提供了丰富的浏览器控制功能,支持从基础浏览操作到复杂的网络拦截和调试:

2.1 基础浏览与交互

  • 页面操作:打开网页 (open)、点击元素 (click)、输入文字 (fill)。
  • 导航控制:前进 (forward)、后退 (back)、刷新 (reload)。

2.2 内容获取与分析

  • 快照 (Snapshot):生成当前页面的可访问性树(Accessibility Tree),详细列出页面上所有可交互元素(按钮、链接、输入框等),并生成 Ref (引用 ID) 供后续精准操作。
  • 调试信息:查看控制台日志 (console)、页面错误 (errors)、高亮元素 (highlight)。

2.3 网络与请求拦截

  • 网络路由:拦截、阻止或模拟网络请求(Mock),用于测试或跳过不必要的请求。
  • 自定义 Header:设置 HTTP Header(如 Authorization),实现无 UI 登录,直接带着 Token 访问受保护资源。

2.4 会话与多实例

支持多浏览器实例(Session),每个实例拥有独立的 Cookie、LocalStorage 和导航历史,实现多用户或多任务并行。

2.5 AI 友好特性

  • Refs 与 Refers:推荐使用 Ref 进行元素定位(如 @e1),相比传统的 CSS Selector,Ref 具有确定性、速度快且最适合 AI 理解。
  • JSON 输出:支持 --json 参数,返回机器可读的 JSON 数据,便于 AI 直接解析并决定下一步操作。

3. 使用场景

  • 智能客服:AI 可直接操作网页为用户预订机票、查询快递,而无需人类客服介入。
  • 自动化测试:AI 能像人类一样浏览网站、点击按钮、填写表单并判断结果,用于回归测试。
  • 网站数据爬取:比传统爬虫更智能,能处理需要登录、交互或加载大量 JS 内容的网站。

4. 项目现状与兼容性

  • 开源与生态:项目托管在 GitHub 上(vercel-labs/agent-browser),遵循 Apache-2.0 许可证。
  • AI 模型兼容:已全面兼容主流 AI 编程助手和模型,包括 Claude CodeGemini、Cursor、GitHub CopilotOpenAI Codex 等。
  • 技术栈:底层使用 Chromium(默认)和 Playwright 协议,支持跨平台运行(Linux、macOS、Windows)。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!