智谱 AI 输入法全新发布,语音识别技术同步开源!

AI资讯 3个月前 硕雀
174 0

智谱 AI 输入法全新发布概览(2025‑12‑10)


1. 背景与发布时间

2025 年 12 月 10 日,智谱科技正式对外发布了全新的桌面端 智谱 AI 输入法,并同步开源了其核心语音识别技术——GLM‑ASR 系列模型。该输入法在官方宣传中被称为“小凹”,旨在为 PC 端用户提供“一键语音转文字、翻译、改写”等全链路 AI 助手功能。


2. 关键技术概览

技术要点 说明
模型系列 GLM‑ASR‑2512(云端大模型)
GLM‑ASR‑Nano‑2512(1.5 B 参数端侧模型)
核心能力 实时流式语音转文字、支持多场景、多语种、多口音;字符错误率(CER)仅 0.0717,达到业界 SOTA 水平
隐私与低延迟 Nano 版可本地离线运行,保障用户隐私并实现毫秒级响应
模型架构 基于 GLM 系列的 Transformer 结构,采用流式解码与自适应帧率技术,实现高效的端侧推理

3. 语音识别模型细节

  1. GLM‑ASR‑2512(云端)
    • 规模更大,适用于高并发云服务。
    • 支持实时语音流式转写,适配多语言(包括中英双语)和多口音环境。
  2. GLM‑ASR‑Nano‑2512(端侧)
    • 参数 1.5 B,重量级 SOTA 表现,能够在普通 PC/笔记本上离线运行。
    • 采用轻量化推理代码,兼容主流推理框架(ONNX、TensorRT 等)。
    • 开源权重与推理实现已在社区(GitHub / bigmodel.cn)公开,采用 Apache‑2.0 许可证,便于二次开发与商业使用。

4. 开源情况

  • 代码与模型:权重文件、推理脚本以及完整的模型文档已同步发布至社区平台,开发者可直接下载并在本地部署。
  • 开源渠道:官方提供的下载链接(如 https://autoglm.zhipuai.cn/autotyper/ )以及 GitHub 仓库,均可免费获取。
  • 许可证:Apache‑2.0,允许学术研究、商业产品二次集成,符合开源社区规范。

5. 输入法功能与特色

功能 说明
语音转文字 基于 GLM‑ASR 系列,实现高精度、低延迟的实时转写。
即时翻译 & 文本改写 在输入框内直接调用大模型完成多语言翻译、风格改写、情感转换等。
人格化“人设” 用户可预设不同风格的“人设”,让输出文字更符合个人表达习惯。
Vibe Coding 支持语音输入代码、指令及自然语言编程,提升开发者工作流效率。
热词导入 & 耳语捕捉 支持自定义热词库,优化公共场景下的识别准确度。
积分与免费试用 新用户注册即送 2000 积分,享受 28 天免费使用期。
跨平台 目前提供 Windows 桌面客户端,后续计划支持 macOS 与 Linux。

这些功能让用户在“指尖即模型,语音即指令”的交互方式下,完成从文字输入到高级文本处理的全链路操作。


6. 使用体验与获取方式

  1. 下载与安装
    • 访问官方入口 https://autoglm.zhipuai.cn/autotyper/ ,下载对应的安装包。
    • 安装后首次启动会提示登录智谱账号,完成后即可使用全部功能。
  2. 免费试用
    • 注册即获 2000 积分,系统自动在 28 天内提供完整功能的免费使用。
  3. 开发者接入
    • 开源模型可直接在本地部署,或通过 bigmodel.cn 的 API 调用云端模型,实现自定义业务集成。

7. 未来展望

  • 多模态扩展:计划将语音识别与视觉模型(如 GLM‑4V)深度融合,实现“说图说话”一体化交互。
  • 移动端落地:正在研发适配 Android / iOS 的轻量版输入法,进一步降低使用门槛。
  • 生态合作:开放 SDK,鼓励第三方应用在编辑器、IDE、客服系统等场景中嵌入语音输入能力。

总结:智谱 AI 输入法通过同步开源的 GLM‑ASR 系列语音识别模型,为 PC 端用户提供了高精度、低延迟且可本地化的语音交互体验。其开放的技术栈与丰富的功能特性,不仅提升了日常文字输入效率,也为开发者和企业提供了可直接落地的 AI 语音解决方案。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!