智谱 AI 输入法全新发布，语音识别技术同步开源!

AI资讯 3个月前硕雀

174 0 0

智谱 AI 输入法全新发布概览（2025‑12‑10）‍

2025 年 12 月 10 日，智谱科技正式对外发布了全新的桌面端 智谱 AI 输入法，并同步开源了其核心语音识别技术——GLM‑ASR 系列模型。该输入法在官方宣传中被称为“小凹”，旨在为 PC 端用户提供“一键语音转文字、翻译、改写”等全链路 AI 助手功能。

技术要点	说明
模型系列	GLM‑ASR‑2512（云端大模型） GLM‑ASR‑Nano‑2512（1.5 B 参数端侧模型）
核心能力	实时流式语音转文字、支持多场景、多语种、多口音；字符错误率（CER）仅 0.0717，达到业界 SOTA 水平
隐私与低延迟	Nano 版可本地离线运行，保障用户隐私并实现毫秒级响应
模型架构	基于 GLM 系列的 Transformer 结构，采用流式解码与自适应帧率技术，实现高效的端侧推理

GLM‑ASR‑2512（云端）‍
- 规模更大，适用于高并发云服务。
- 支持实时语音流式转写，适配多语言（包括中英双语）和多口音环境。
GLM‑ASR‑Nano‑2512（端侧）‍
- 参数 1.5 B，重量级 SOTA 表现，能够在普通 PC/笔记本上离线运行。
- 采用轻量化推理代码，兼容主流推理框架（ONNX、TensorRT 等）。
- 开源权重与推理实现已在社区（GitHub / bigmodel.cn）公开，采用 Apache‑2.0 许可证，便于二次开发与商业使用。

代码与模型：权重文件、推理脚本以及完整的模型文档已同步发布至社区平台，开发者可直接下载并在本地部署。
开源渠道：官方提供的下载链接（如 https://autoglm.zhipuai.cn/autotyper/ ）以及 GitHub 仓库，均可免费获取。
许可证：Apache‑2.0，允许学术研究、商业产品二次集成，符合开源社区规范。

功能	说明
语音转文字	基于 GLM‑ASR 系列，实现高精度、低延迟的实时转写。
即时翻译 & 文本改写	在输入框内直接调用大模型完成多语言翻译、风格改写、情感转换等。
人格化“人设”‍	用户可预设不同风格的“人设”，让输出文字更符合个人表达习惯。
Vibe Coding	支持语音输入代码、指令及自然语言编程，提升开发者工作流效率。
热词导入 & 耳语捕捉	支持自定义热词库，优化公共场景下的识别准确度。
积分与免费试用	新用户注册即送 2000 积分，享受 28 天免费使用期。
跨平台	目前提供 Windows 桌面客户端，后续计划支持 macOS 与 Linux。

这些功能让用户在“指尖即模型，语音即指令”的交互方式下，完成从文字输入到高级文本处理的全链路操作。

下载与安装
- 访问官方入口 https://autoglm.zhipuai.cn/autotyper/ ，下载对应的安装包。
- 安装后首次启动会提示登录智谱账号，完成后即可使用全部功能。
免费试用
- 注册即获 2000 积分，系统自动在 28 天内提供完整功能的免费使用。
开发者接入
- 开源模型可直接在本地部署，或通过 bigmodel.cn 的 API 调用云端模型，实现自定义业务集成。

总结：智谱 AI 输入法通过同步开源的 GLM‑ASR 系列语音识别模型，为 PC 端用户提供了高精度、低延迟且可本地化的语音交互体验。其开放的技术栈与丰富的功能特性，不仅提升了日常文字输入效率，也为开发者和企业提供了可直接落地的 AI 语音解决方案。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！