AutoGLM 概览
AutoGLM 是智谱科技在 2025 年推出的核心 AI Agent 模型,被业界称为全球首个具备 “Phone Use”(手机操作)能力的智能体。它能够在真实或虚拟手机环境中,识别屏幕内容并模拟人类的点击、输入、滑动等交互,完成外卖点单、机票预订、微信收红包、朋友圈点赞等跨应用、长流程任务。
1. 技术核心与架构
| 组成部分 | 关键特性 | 说明 |
|---|---|---|
| 基座模型 | GLM‑4‑Air‑0414 | 在预训练阶段加入大量代码与推理数据,提升工具调用与联网搜索能力 |
| 推理模型 | GLM‑Z1‑Air | 基于基座模型,性能媲美 DeepSeek R1,推理速度提升 8 倍,成本降至 1/30 |
| 沉思模型 | GLM‑Z1‑Rumination | 通过强化学习强化长程推理、实时搜索、深度分析三大能力,实现 20 步以上的深度思考 |
| AutoGLM 层 | “规划层 + 定位层” 双层架构 | 解决传统模型“看得懂但点不准”的问题,实现精准手机操作 |
| Phone Use 能力框架 | 统一工具链 | 包含 UI 识别、动作模拟、跨 App 流程编排,支持 50+ 高频中文 App(微信、淘宝、抖音、美团等) |
2. 主要功能
- 跨应用任务执行:一次指令即可完成外卖点单、机票预订、网购、店铺评价、朋友圈互动等多步骤任务。
- 本地 & 云端部署:提供本地私有化部署和云端虚拟手机集群两种方式,确保数据与隐私始终由使用者掌控。
- Demo 与示例工程:开源仓库中附带可直接跑通的 Demo,覆盖 50+ 常用中文 App 场景;同时提供 Android 适配层与示例工程,帮助开发者快速集成。
- 工具调用与搜索:模型在推理阶段可主动调用搜索、浏览器、数据库等外部工具,实现“深度研究 + 实际操作”双重能力。
3. 开源细节
| 项目 | 内容 | 许可证 |
|---|---|---|
| 核心模型 | 训练好的 AutoGLM 权重(32 B / 9 B 规模) | MIT |
| 代码库 | Phone Use 框架、工具链、Demo、Android 适配层 | Apache‑2.0 |
| 仓库地址 | github.com/zai-org/Open-AutoGLM(示例) |
|
| 文档 | 快速上手指南、API 手册、部署手册 | 同上 |
开源的目标是把 “AI 能够使用手机” 的底层能力变成行业公共底座,降低技术门槛,防止少数厂商垄断 AI 手机入口。
4. 发展历程与里程碑
| 时间 | 事件 |
|---|---|
| 2023‑12‑09 | 首次公开 AutoGLM,具备基本 Phone Use 能力 |
| 2024‑10‑25 | 发布 AutoGLM 1.0,提升上下文理解至数百 KB,支持更多 App |
| 2025‑03‑31 | 在中关村论坛发布 AutoGLM 沉思(深度思考 + 操作)版本,加入 GLM‑Z1‑Rumination 模型 |
| 2025‑08‑21 | AutoGLM 2.0 正式上线,支持虚拟手机回放、审计、干预等企业级特性 |
| 2025‑12‑09 | 重磅开源全部模型、工具链、Demo,MIT + Apache‑2.0 双许可证发布 |
5. 典型应用场景
| 场景 | 具体示例 |
|---|---|
| 生活服务 | “帮我点一份麻辣烫外卖”,自动打开美团、选择餐品、下单付款 |
| 出行预订 | “预订北京到上海的高铁票”,自动打开12306、填写信息、完成支付 |
| 社交互动 | “给张三的朋友圈点赞并评论‘祝福’”,自动打开微信、定位目标动态、执行操作 |
| 电商购物 | “在淘宝搜索‘无线蓝牙耳机’,挑选评分最高的并加入购物车” |
| 企业办公 | “在钉钉上发一条项目进度报告”,自动打开钉钉、编辑并发送消息 |
这些场景均已在开源 Demo 中实现,可直接复用或二次开发。
6. 部署与隐私保障
- 本地部署:用户可在自有服务器或边缘设备上运行模型,所有交互数据不离开本地网络。
- 云端沙箱:提供虚拟手机集群,采用容器化隔离,敏感数据仅在沙箱内部流转,防止泄露。
- 数据主权:开源协议明确,企业和开发者可自行决定日志、权限、审计策略,确保符合合规要求。
7. 生态与社区
- GitHub 代码库:已吸引超过 2 k 星,活跃的 Issue 与 PR 讨论模型适配、插件扩展等。
- 插件体系(MCP):支持第三方插件接入,类似 HTTP 协议的扩展方式,未来可接入更多行业工具。
- 合作伙伴:与多家硬件厂商、手机厂商合作,推动 AI 手机生态多元化发展,降低单一厂商垄断风险。
8. 小结
AutoGLM 通过 大模型 + 强化学习 + 双层架构 的技术组合,实现了 “看得懂、能点准、会执行” 的手机操作能力。其开源的 模型、工具链、Demo 与文档 为开发者提供了“一键即用”的底层能力,既能在本地保护隐私,又能通过云端虚拟手机提升规模化服务。随着 2.0 版本的发布和插件体系的完善,AutoGLM 正在成为 AI Agent 领域的关键公共基座,推动 AI 在实际生活与企业场景中的落地应用。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!