FastSpeech2 是微软提出的一个快速、高质量的端到端文本转语音(TTS)模型,是 FastSpeech 的改进版本,特别适合于实时语音播报、智能客服等场景。FastSpeech 2 是 FastSpeech的改进版,它采用了非自回归(non-autoregressive)架构,能够显著提高合成速度,同时保持较高的语音质量。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/microsoft-fastspeech.html -APPMARK

Bark 是由 Suno 推出的开源的文本转音频模型。 它的目标是通过自然语言处理技术,将输入的文本转换为高度逼真的音频,包括多语种自然语言、音乐、背景噪音和简单的声音效果。