Orpheus TTS

Orpheus TTS 是 Canopy Labs 开发的一款开源文本转语音系统，基于 Llama 架构，旨在生成高质量、富有表现力的类人语音。它具备零样本语音克隆、引导式情感和语调控制以及低延迟等先进功能，适用于各种需要自然语音合成的应用场景，并提供了详细的安装和使用指南以及丰富的示例代码。

Stability AI 推出的 Stable Audio 是一种基于稳定扩散技术的音频生成模型，它能够根据文本提示高效生成高品质的音频内容。

Whisper 是由 OpenAI 推出的多语言语音识别模型，擅长高精度转写和翻译，适合语音转文本、会议记录等场景，现已迭代升级至 v3 版本。

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型，能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地进行高质量对话。

Mozilla TTS是一个开源的文本到语音引擎，旨在提供高质量的合成语音。

CosyVoice 是阿里开源的一款创新的多语言、情感丰富的语音生成大模型，旨在通过先进的 AI 技术生成自然且富有情感的语音。

YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲，支持多种音乐风格，包括流行、金属、爵士、嘻哈等

Seed-Music 是字节跳动推出的 AI 音乐生成大模型，将用户录制的 10 秒音频转化为完整的音乐作品。

Bark 是由 Suno 推出的开源的文本转音频模型。它的目标是通过自然语言处理技术，将输入的文本转换为高度逼真的音频，包括多语种自然语言、音乐、背景噪音和简单的声音效果。

PaddleSpeech 是百度飞桨推出的一款开源语音工具包，旨在提供一站式的语音处理解决方案。

1 2

APPMARK 是快速找到最新 AI（Artificial Intelligence, 人工智能）应用的一站式导航平台，我们按照模型平台、提示词、写作、办公、对话聊天、图像、视频、设计、语音、编程、开发平台、法律助手、学习资源等进行分类导航和索引，并保持更新，最短时间内找到需要的AI应用。

您可以通过以下方式联系我们