VITS
音频生成与处理

VITS

VITS 是一种高表现力语音合成模型,结合了变分推理、标准化流和对抗训练。

快点收藏起来

VITS 是一种高表现力语音合成模型,结合了变分推理、标准化流和对抗训练。它是一个完全端到端的TTS模型,使用预先训练好的语音编码器将文本转化为语音,并且是直接从文本到语音波形的转换,无需额外的中间步骤或特征提取。

相关导航