什么是 Computer Use Preview?
Computer Use Preview 是人工智能模型(如 Microsoft Copilot Studio、OpenAI 和 Google Gemini)的一项 预览(Preview)功能,旨在赋予 AI 代理(Agent)直接控制和操作计算机界面(GUI)的能力。
简单来说,它让 AI 不再局限于文字对话,而是能够像真人一样:
- 看(通过视觉识别屏幕内容)
- 思考(理解任务逻辑)
- 做(通过鼠标点击、键盘输入、API 调用等方式执行操作)
关键特性与技术原理
这项技术背后的核心模型通常被称为 Computer-Using Agents (CUA) 或 Computer-Use 模型。它结合了视觉大模型(Vision LLM)和强化学习(RL)技术。
1. 视觉感知能力
AI 能够“看”到屏幕上的内容。这意味着它可以识别网页中的表格、图表、按钮,甚至是桌面上的文件夹图标。
2. 高级推理与自主决策
基于看到的界面信息,AI 能够做出复杂的决策。例如:
- 自动填写复杂的 Web 表单
- 处理多步骤的工作流(如开票、数据分析)
- 通过观察图表数据进行判断
3. 多模态交互
它不仅限于键盘和鼠标,还能通过视觉输入(看图识图)来辅助理解任务需求。
4. 适应性强
由于它是基于 AI 的,界面发生微小变化(如按钮颜色改变)也不影响其操作,避免了传统脚本(如 Selenium)因 UI 改动而失效的问题。
主流平台的实现
目前这项技术主要由以下三大巨头提供支持:
1. Microsoft Copilot Studio
Microsoft 提供了 Computer Use 工具,作为 Copilot Studio 的预览功能。用户可以通过“自然语言”描述任务,让智能体(Agent)在 Windows 环境中自动操作。
2. OpenAI
OpenAI 在其 Computer-Using Agent (CUA) 模型中提供了 computer-use-preview。它通过 Responses API 暴露给开发者,能够在图形界面上模拟点击和输入。
3. Google Gemini
Google 开源了 Computer Use Preview,这是一个基于 Chrome 自动化网页操作的工具。它支持通过自然语言指令控制网页,实现信息查询、表单填写等任务。
使用场景示例
- 自动化办公:AI 自动打开 Excel,录入数据,生成图表并解读。
- 网页爬取:AI 自动浏览特定网站,提取信息(如股票数据、新闻)。
- 跨平台任务:AI 在 Web 应用和本地软件之间传递信息。
- 复杂数据处理:AI 识别屏幕上的 PDF 表格,复制并进行分析。
注意事项
由于是 Preview(预览版),这项技术目前通常具有以下限制:
- 功能受限:可能只能在特定环境或特定操作系统(如 Windows)下使用。
- 安全风险:AI 有权直接控制你的机器,需要仔细审查其行为日志。
- 非生产环境:官方建议主要用于测试和反馈,不建议直接用于关键业务。
相关链接
以下是获取更多技术细节和官方文档的链接:
- Microsoft Copilot Studio - Computer Use
- 链接: https://learn.microsoft.com/zh-cn/microsoft-copilot-studio/computer-use
- 描述: 详细介绍了如何在 Copilot Studio 中使用 Computer Use 预览版,以及其背后的技术原理。
- OpenAI - Computer Use Documentation
- 链接: https://platform.openai.com/docs/guides/computer-use
- 描述: 官方文档说明了如何通过 OpenAI API 调用 Computer-Using Agent 进行计算机操作。
- Google Gemini - Computer Use Preview
- 链接: https://ai.google.dev/gemini-api/preview/computer-use
- 描述: Google 官方博客和文档,介绍了如何使用 Gemini 的 Computer Use 预览功能进行网页自动化。