语音合成编辑器
高拟真度、灵活配置的语音合成产品,打通人机交互的闭环,让应用逼真发声。多种音色可供选择,并提供调节语速、语调、音量等功能
ClearerVoice-Studio是阿里达摩院开源的一个音频处理工具,集成了语音增强、语音分离和音视频说话人提取等功能的开源语音处理框架。
Whisper是OpenAI开发的一个自动语音识别(ASR)系统。它基于从网络上收集的680,000小时的多语种和多任务监督数据进行训练,具有极高的准确性和适应性。
Fugatto的新型人工智能音频模型,该模型能够根据文本提示或音频输入生成音乐和音效
Seed-VC是一种基于SEED-TTS架构的开源声音转换模型,能够实现零样本的声音克隆和转换。
Udio简介Udio是一款由前GoogleDeepMind工程师开发的革命性的AI音乐创作工具,通过文本提[…]
MusicLM是Google研究小组开发的一个从文本生成音乐模型。MusicLM采用了层次化的序列到序列的方法,这使得它能够生成几分钟内一致的音乐。