什么是 Computer Use Preview

AI解读 2小时前 硕雀
2 0

什么是 Computer Use Preview

Computer Use Preview 是人工智能模型(如 Microsoft Copilot StudioOpenAI 和 Google Gemini)的一项 预览(Preview)功能,旨在赋予 AI 代理(Agent)‍直接控制和操作计算机界面GUI)的能力。

简单来说,它让 AI 不再局限于文字对话,而是能够像真人一样:

  • (通过视觉识别屏幕内容)
  • 思考(理解任务逻辑)
  • (通过鼠标点击、键盘输入、API 调用等方式执行操作)

关键特性与技术原理

这项技术背后的核心模型通常被称为 Computer-Using Agents (CUA) 或 Computer-Use 模型。它结合了视觉大模型(Vision LLM)和强化学习(RL)技术。

1. 视觉感知能力

AI 能够“看”到屏幕上的内容。这意味着它可以识别网页中的表格、图表、按钮,甚至是桌面上的文件夹图标。

2. 高级推理与自主决策

基于看到的界面信息,AI 能够做出复杂的决策。例如:

  • 自动填写复杂的 Web 表单
  • 处理多步骤的工作流(如开票、数据分析)
  • 通过观察图表数据进行判断

3. 多模态交互

它不仅限于键盘和鼠标,还能通过视觉输入(看图识图)来辅助理解任务需求。

4. 适应性强

由于它是基于 AI 的,界面发生微小变化(如按钮颜色改变)也不影响其操作,避免了传统脚本(如 Selenium)因 UI 改动而失效的问题。

主流平台的实现

目前这项技术主要由以下三大巨头提供支持:

1. Microsoft Copilot Studio

Microsoft 提供了 Computer Use 工具,作为 Copilot Studio 的预览功能。用户可以通过“自然语言”描述任务,让智能体(Agent)在 Windows 环境中自动操作。

2. OpenAI

OpenAI 在其 Computer-Using Agent (CUA) 模型中提供了 computer-use-preview。它通过 Responses API 暴露给开发者,能够在图形界面上模拟点击和输入。

3. Google Gemini

Google 开源了 Computer Use Preview,这是一个基于 Chrome 自动化网页操作的工具。它支持通过自然语言指令控制网页,实现信息查询、表单填写等任务。

使用场景示例

  1. 自动化办公:AI 自动打开 Excel,录入数据,生成图表并解读。
  2. 网页爬取:AI 自动浏览特定网站,提取信息(如股票数据、新闻)。
  3. 跨平台任务:AI 在 Web 应用和本地软件之间传递信息。
  4. 复杂数据处理:AI 识别屏幕上的 PDF 表格,复制并进行分析。

注意事项

由于是 Preview(预览版)‍,这项技术目前通常具有以下限制:

  • 功能受限:可能只能在特定环境或特定操作系统(如 Windows)下使用。
  • 安全风险:AI 有权直接控制你的机器,需要仔细审查其行为日志。
  • 非生产环境:官方建议主要用于测试和反馈,不建议直接用于关键业务。

相关链接

以下是获取更多技术细节和官方文档的链接:

  1. Microsoft Copilot Studio - Computer Use
  2. OpenAI - Computer Use Documentation
  3. Google Gemini - Computer Use Preview
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!