智谱 AI 输入法全新发布概览(2025‑12‑10)
1. 背景与发布时间
2025 年 12 月 10 日,智谱科技正式对外发布了全新的桌面端 智谱 AI 输入法,并同步开源了其核心语音识别技术——GLM‑ASR 系列模型。该输入法在官方宣传中被称为“小凹”,旨在为 PC 端用户提供“一键语音转文字、翻译、改写”等全链路 AI 助手功能。
2. 关键技术概览
| 技术要点 | 说明 |
|---|---|
| 模型系列 | GLM‑ASR‑2512(云端大模型) GLM‑ASR‑Nano‑2512(1.5 B 参数端侧模型) |
| 核心能力 | 实时流式语音转文字、支持多场景、多语种、多口音;字符错误率(CER)仅 0.0717,达到业界 SOTA 水平 |
| 隐私与低延迟 | Nano 版可本地离线运行,保障用户隐私并实现毫秒级响应 |
| 模型架构 | 基于 GLM 系列的 Transformer 结构,采用流式解码与自适应帧率技术,实现高效的端侧推理 |
3. 语音识别模型细节
- GLM‑ASR‑2512(云端)
- 规模更大,适用于高并发云服务。
- 支持实时语音流式转写,适配多语言(包括中英双语)和多口音环境。
- GLM‑ASR‑Nano‑2512(端侧)
4. 开源情况
- 代码与模型:权重文件、推理脚本以及完整的模型文档已同步发布至社区平台,开发者可直接下载并在本地部署。
- 开源渠道:官方提供的下载链接(如
https://autoglm.zhipuai.cn/autotyper/)以及 GitHub 仓库,均可免费获取。 - 许可证:Apache‑2.0,允许学术研究、商业产品二次集成,符合开源社区规范。
5. 输入法功能与特色
| 功能 | 说明 |
|---|---|
| 语音转文字 | 基于 GLM‑ASR 系列,实现高精度、低延迟的实时转写。 |
| 即时翻译 & 文本改写 | 在输入框内直接调用大模型完成多语言翻译、风格改写、情感转换等。 |
| 人格化“人设” | 用户可预设不同风格的“人设”,让输出文字更符合个人表达习惯。 |
| Vibe Coding | 支持语音输入代码、指令及自然语言编程,提升开发者工作流效率。 |
| 热词导入 & 耳语捕捉 | 支持自定义热词库,优化公共场景下的识别准确度。 |
| 积分与免费试用 | 新用户注册即送 2000 积分,享受 28 天免费使用期。 |
| 跨平台 | 目前提供 Windows 桌面客户端,后续计划支持 macOS 与 Linux。 |
这些功能让用户在“指尖即模型,语音即指令”的交互方式下,完成从文字输入到高级文本处理的全链路操作。
6. 使用体验与获取方式
- 下载与安装
- 访问官方入口
https://autoglm.zhipuai.cn/autotyper/,下载对应的安装包。 - 安装后首次启动会提示登录智谱账号,完成后即可使用全部功能。
- 访问官方入口
- 免费试用
- 注册即获 2000 积分,系统自动在 28 天内提供完整功能的免费使用。
- 开发者接入
- 开源模型可直接在本地部署,或通过
bigmodel.cn的 API 调用云端模型,实现自定义业务集成。
- 开源模型可直接在本地部署,或通过
7. 未来展望
- 多模态扩展:计划将语音识别与视觉模型(如 GLM‑4V)深度融合,实现“说图说话”一体化交互。
- 移动端落地:正在研发适配 Android / iOS 的轻量版输入法,进一步降低使用门槛。
- 生态合作:开放 SDK,鼓励第三方应用在编辑器、IDE、客服系统等场景中嵌入语音输入能力。
总结:智谱 AI 输入法通过同步开源的 GLM‑ASR 系列语音识别模型,为 PC 端用户提供了高精度、低延迟且可本地化的语音交互体验。其开放的技术栈与丰富的功能特性,不仅提升了日常文字输入效率,也为开发者和企业提供了可直接落地的 AI 语音解决方案。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!