Orpheus TTS 是 Canopy Labs 开发的一款开源文本转语音系统,基于 Llama 架构,旨在生成高质量、富有表现力的类人语音。它具备零样本语音克隆、引导式情感和语调控制以及低延迟等先进功能,适用于各种需要自然语音合成的应用场景,并提供了详细的安装和使用指南以及丰富的示例代码。
Stability AI 推出的 Stable Audio 是一种基于稳定扩散技术的音频生成模型,它能够根据文本提示高效生成高品质的音频内容。
Whisper 是由 OpenAI 推出的多语言语音识别模型,擅长高精度转写和翻译,适合语音转文本、会议记录等场景,现已迭代升级至 v3 版本。
Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。
Mozilla TTS是一个开源的文本到语音引擎,旨在提供高质量的合成语音。
CosyVoice 是阿里开源的一款创新的多语言、情感丰富的语音生成大模型,旨在通过先进的 AI 技术生成自然且富有情感的语音。
YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐风格,包括流行、金属、爵士、嘻哈等
Seed-Music 是字节跳动推出的 AI 音乐生成大模型,将用户录制的 10 秒音频转化为完整的音乐作品。
Bark 是由 Suno 推出的开源的文本转音频模型。 它的目标是通过自然语言处理技术,将输入的文本转换为高度逼真的音频,包括多语种自然语言、音乐、背景噪音和简单的声音效果。
PaddleSpeech 是百度飞桨推出的一款开源语音工具包,旨在提供一站式的语音处理解决方案。
Orpheus TTS 是 Canopy Labs 开发的一款开源文本转语音系统,基于 Llama 架构,旨在生成高质量、富有表现力的类人语音。它具备零样本语音克隆、引导式情感和语调控制以及低延迟等先进功能,适用于各种需要自然语音合成的应用场景,并提供了详细的安装和使用指南以及丰富的示例代码。