Vercel 开源项目 agent-browser 是由 Vercel(原名 ZEIT)团队推出的一款 开源浏览器自动化 CLI 工具。它旨在为 AI 代理(AI Agents)赋能,使得大模型不仅能“思考”,还能“动手”直接操作网页、执行真实任务。
以下是该项目的详细介绍:
1. 核心定位与目标
agent-browser 并非传统意义上的浏览器驱动(如 Selenium),而是专为 Agentic AI(具身智能)设计的工具。
- 赋予 AI 动手能力:解决了大模型只能“读”网页、却无法“写”网页或进行交互的问题。它让 AI 能够执行诸如比价、自动化填表、测试网页功能等实际任务。
- 构建 AI 原生应用:开发者可以基于此工具,快速搭建具备执行力的智能代理,实现人机协作的新范式。
2. 主要功能特性
agent-browser 提供了丰富的浏览器控制功能,支持从基础浏览操作到复杂的网络拦截和调试:
2.1 基础浏览与交互
- 页面操作:打开网页 (
open)、点击元素 (click)、输入文字 (fill)。 - 导航控制:前进 (
forward)、后退 (back)、刷新 (reload)。
2.2 内容获取与分析
- 快照 (Snapshot):生成当前页面的可访问性树(Accessibility Tree),详细列出页面上所有可交互元素(按钮、链接、输入框等),并生成 Ref (引用 ID) 供后续精准操作。
- 调试信息:查看控制台日志 (
console)、页面错误 (errors)、高亮元素 (highlight)。
2.3 网络与请求拦截
- 网络路由:拦截、阻止或模拟网络请求(Mock),用于测试或跳过不必要的请求。
- 自定义 Header:设置 HTTP Header(如
Authorization),实现无 UI 登录,直接带着 Token 访问受保护资源。
2.4 会话与多实例
支持多浏览器实例(Session),每个实例拥有独立的 Cookie、LocalStorage 和导航历史,实现多用户或多任务并行。
2.5 AI 友好特性
- Refs 与 Refers:推荐使用 Ref 进行元素定位(如
@e1),相比传统的 CSS Selector,Ref 具有确定性、速度快且最适合 AI 理解。 - JSON 输出:支持
--json参数,返回机器可读的 JSON 数据,便于 AI 直接解析并决定下一步操作。
3. 使用场景
- 智能客服:AI 可直接操作网页为用户预订机票、查询快递,而无需人类客服介入。
- 自动化测试:AI 能像人类一样浏览网站、点击按钮、填写表单并判断结果,用于回归测试。
- 网站数据爬取:比传统爬虫更智能,能处理需要登录、交互或加载大量 JS 内容的网站。
4. 项目现状与兼容性
- 开源与生态:项目托管在 GitHub 上(
vercel-labs/agent-browser),遵循 Apache-2.0 许可证。 - AI 模型兼容:已全面兼容主流 AI 编程助手和模型,包括 Claude Code、Gemini、Cursor、GitHub Copilot、OpenAI Codex 等。
- 技术栈:底层使用 Chromium(默认)和 Playwright 协议,支持跨平台运行(Linux、macOS、Windows)。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!