复旦大学开源TTS项目MOSS-TTS-Nano

MOSS-TTS-Nano 是由 OpenMOSS 与 MOSI.AI 联合发布的开源多语言语音生成模型,属于 MOSS-TTS Family 语音生成模型家族的一员。该模型定位为"小体积、低延迟、可部署",参数规模约 0.1B(1亿参数)‍,强调 CPU 友好和本地集成。

与复旦大学的关系:OpenMOSS 是复旦大学自然语言处理实验室的开源项目,与复旦大学邱锡鹏教授团队的 MOSS 大语言模型项目有技术关联。MOSS-TTS-Nano 是 MOSS 系列模型在语音生成领域的延伸产品。

二、核心特性

1. 多语言支持

  • 当前支持 20种语言,包括:
    • 中文、英文、日文、韩文
    • 法文、德文、阿拉伯语等

2. CPU 友好设计

  • 无需 GPU,可在 4 核 CPU 上实现流式语音生成
  • 适合资源受限的本地部署环境
  • 推理链路简单,便于快速集成

3. 技术架构

  • 基于 Audio Tokenizer + LLM 的纯自回归管线
  • 采用统一的 MOSS-Audio-Tokenizer 作为音频接口(1.6B参数)
  • 音频输出为 48kHz 双声道

4. 核心功能

  • 实时语音生成:低延迟,支持流式输出
  • 语音克隆:支持零样本语音风格迁移
  • 多场景适配:适合语音助手、朗读服务、语音克隆 Demo 等

三、在MOSS-TTS Family中的定位

MOSS-TTS Family 包含五个生产级模型,各自承担不同职责:

模型名称 主要功能 参数规模
MOSS-TTS 高保真语音基座(含MossTTSDelay 8B、MossTTSLocal 1.7B) 8B/1.7B
MOSS-TTSD 多说话人超长连续对话模型 -
MOSS-VoiceGenerator 从文本指令生成多样化音色 -
MOSS-TTS-Realtime 实时语音智能体,多轮上下文感知 -
MOSS-TTS-Nano 轻量级版本,CPU友好部署 0.1B

MOSS-TTS-Nano 是面向轻量级应用的版本,牺牲部分音质换取极低的资源占用和部署门槛。

四、部署与使用

安装要求

  • Python 3.12 环境
  • 无需 GPU,普通 CPU 即可运行

部署方式

提供三种使用接口:

  1. infer.py:Python 脚本推理
  2. app.py:Flask/FastAPI 服务封装
  3. CLI:命令行工具调用

项目地址

五、应用场景

场景 适用性
本地语音助手 ⭐⭐⭐⭐⭐(CPU友好,离线可用)
语音克隆 Demo ⭐⭐⭐⭐⭐(支持零样本克隆)
多语言朗读服务 ⭐⭐⭐⭐⭐(20种语言支持)
HTTP服务快速接入 ⭐⭐⭐⭐(API简单)
嵌入式产品原型 ⭐⭐⭐⭐⭐(轻量级)
生产级高保真语音 ⭐⭐(建议选择MOSS-TTS完整版)

六、优势与局限

优势

  • ✅ 极低的资源需求:0.1B参数,CPU即可运行
  • ✅ 部署简单:无需复杂环境配置
  • ✅ 多语言支持:覆盖主流语言
  • ✅ 实时性:流式生成,低延迟
  • ✅ 开源协议:Apache 2.0(可商业使用)

局限

  • ⚠️ 音质:相比完整版的MOSS-TTS,音质有所妥协
  • ⚠️ 长文本稳定性:不适合超长连续语音生成
  • ⚠️ 复杂场景:多说话人对话、角色扮演等场景需选择其他模型

七、总结

MOSS-TTS-Nano 是一个轻量级、CPU友好、多语言支持的开源TTS模型,非常适合快速原型开发、本地语音应用、轻量级服务等场景。作为MOSS-TTS Family的成员,它与更强大的版本形成了产品矩阵,满足不同场景的需求。

该项目的开源特性使其成为开发者探索语音生成技术的优秀入门选择,同时也为需要本地化语音服务的团队提供了可靠的部署方案。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!