FastSpeech2 是微软提出的一个快速、高质量的端到端文本转语音(TTS)模型,是 FastSpeech 的改进版本,特别适合于实时语音播报、智能客服等场景。FastSpeech 2 是 FastSpeech的改进版,它采用了非自回归(non-autoregressive)架构,能够显著提高合成速度,同时保持较高的语音质量。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/microsoft-fastspeech.html -APPMARK

VITS 是一种高表现力语音合成模型,结合了变分推理、标准化流和对抗训练。