音频生成与处理

VALL-E

VALL-E 是微软研究院开发的一种用于文本到语音合成（TTS）的语言建模方法。

VALL-E 是微软研究院开发的一种用于文本到语音合成（TTS）的语言建模方法。它通过从现成的神经音频编解码模型中派生出的离散代码来训练神经编解码语言模型，并把TTS视为一种条件性语言建模任务，而不是像以往工作那样作为连续信号回归问题处理。

本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权，非商业转载、引用须注明出处。