什么是Maya 1 语音模型

AI解读 4个月前 硕雀
88 0

Maya 1 全新开源语音模型概览


1. 项目定位与背景

Maya 1 是由 Maya Research 团队在 2025 年发布的开源文本‑转‑语音(TTS)模型,旨在提供 高质量、情感丰富、低延迟 的语音合成能力,帮助开发者在单张消费级 GPU(如 RTX 4090)上即可运行,降低了语音 AI 的使用门槛。模型已在 HuggingFace 上公开权重,并提供完整的使用文档与示例代码。


项目 说明
模型架构 基于 Decoder‑only Transformer(类似 LLaMA)实现,使用 SNAC(神经编码器‍ 将音频压缩为离散 token,支持流式生成
参数规模 约 30 亿 参数(3 B),在同类开源模型中属于中大型规模
音频质量 24 kHz 采样率,支持 20+ 种情感标签(如欢笑、惊讶、低沉等),可通过自然语言描述语音特征进行细粒度控制
实时性 推理时 延迟 < 100 ms,实现近乎实时的对话式语音输出,适合交互式 AI 助手
多语言 目前主要支持 英语多口音,后续计划扩展至更多语言
许可证 采用 Apache 2.0,允许商业使用、修改与再分发,几乎没有使用限制

3. 主要功能与优势

  1. 情感化语音:通过情感标签或自然语言描述,可生成带有笑声、惊讶、温暖等情感的语音。
  2. 低成本部署:单卡即可运行,适合中小企业、个人开发者以及科研项目。
  3. 流式生成:采用 SNAC 编码器,实现 音频 token 逐帧输出,支持边生成边播放,避免一次性生成导致的高延迟。
  4. 零样本克隆(实验性):在少量示例音频的帮助下,可快速适配特定说话人音色。
  5. 完整生态:提供 HuggingFace 模型仓库GitHub 代码库(包括 ComfyUI 扩展)以及 官方文档/示例脚本,便于快速上手。

4.获取方式

资源 链接
官方网站 https://www.maya1.org/
模型权重(HuggingFace) https://huggingface.co/maya-research/maya1
GitHub 主代码库(包括模型加载示例) https://github.com/maya-research/maya1 (在官方文档中提供)
ComfyUI Maya1 TTS 扩展(可视化节点) https://github.com/Saganaki22/ComfyUI-Maya1_TTS
新闻报道(模型排名与评测) https://www.163.com/tech/article/KE07178D00097U7T.html

5. 快速使用示例(Python)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
from snac import SNAC  # SNAC 编码器库

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    "maya-research/maya1",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("maya-research/maya1")
snac = SNAC.from_pretrained("hubertsiuzdak/snac_24khz").eval().to("cuda")

# 设计语音特征(自然语言描述)
description = "Realistic male voice in his 30s with an American accent, warm timbre, conversational pacing."
text = "Hello! This is Maya1, the best open‑source voice AI model with emotions. <laugh>"

# 构造输入
prompt = f'<description="{description}"> {text}'
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

# 生成 SNAC token
with torch.inference_mode():
    outputs = model.generate(
        **inputs,
        max_new_tokens=500,
        temperature=0.4,
        top_p=0.9,
        do_sample=True
    )
generated_ids = outputs[0, inputs["input_ids"].shape[1]:]
snac_tokens = [t.item() for t in generated_ids if 128266 <= t <= 156937]

# 解码为音频(示例代码,实际使用请参考官方文档)
audio = snac.decode(snac_tokens)
audio.save("output.wav")

以上代码摘自官方文档,展示了 自然语言描述 + 情感标签 的完整调用流程。


6. 适用场景

场景 价值
AI 虚拟助手(如 Maya 虚拟人物) 高保真、情感化语音提升用户沉浸感
游戏角色配音 实时生成多角色、情绪变化的对白,降低制作成本
有声书 / 播客 支持情感标签,提升听感,支持流式生成加速发布
客服与交互式机器人 低延迟、可部署在本地服务器,保障数据安全
科研与教学 完全开源、可自行改进模型结构或训练数据

7. 小结

Maya 1 以 30 亿参数、24 kHz 高保真、情感标签、低延迟 为核心特性,提供 Apache 2.0 完全开源许可,配套 HuggingFace 权重、GitHub 代码、ComfyUI 扩展,让开发者能够在单张消费级 GPU 上快速部署高质量语音合成服务。无论是产品研发、内容创作还是学术研究,Maya 1 都是一款值得关注的全新开源语音模型。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!