语音合成编辑器
高拟真度、灵活配置的语音合成产品,打通人机交互的闭环,让应用逼真发声。多种音色可供选择,并提供调节语速、语调、音量等功能
ChatTTS是一款专为对话场景设计的文本转语音(TTS)模型,旨在提供自然流畅的语音合成体验。
可以将文本转换为不同格式的语音
Moonshine是一款由Useful Sensors推出的开源语音识别模型,旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。
Whisper是OpenAI开发的一个自动语音识别(ASR)系统。它基于从网络上收集的680,000小时的多语种和多任务监督数据进行训练,具有极高的准确性和适应性。
Wav2Lip技术通过深度学习模拟预测唇部运动,并应用于唇部区域,然后通过音频特征和视频进行一一对应和合成,实现了高精度的语音驱动唇部动作同步。
Linly-Dubbing是一款多语言 AI 配音及视频翻译工具,基于 YouDub-webui 的灵感进行了创新性的拓展和优化。