
什么是 Orpheus TTS
Orpheus TTS 是由 Canopy Labs 开发的一款先进的开源文本转语音(Text-to-Speech, TTS)系统。它基于强大的 Llama 架构构建,旨在合成高质量、富有表现力的语音,能够准确地模仿人类的语调和情感。Orpheus TTS 的目标是弥合开源 TTS 模型与领先的闭源模型在音质和自然度方面的差距,为开发者和研究人员提供一个强大且可自由使用的工具。其名称来源于希腊神话中的吟游诗人俄耳甫斯,象征着其能够创造出动听声音的能力。Orpheus TTS 不仅能够生成听起来像人类的语音,还具备零样本语音克隆和情感控制等先进功能,使其在虚拟助手、有声读物叙述、AI 驱动的内容创作等多种应用场景中都展现出巨大的潜力。作为一个开源项目,Orpheus TTS 鼓励社区参与和贡献,共同推动语音合成技术的发展,并提供更接近人类自然语音的合成体验。
Orpheus TTS 的功能
Orpheus TTS 具备一系列令人印象深刻的功能,使其在众多 TTS 模型中脱颖而出:
- 类人语音(Human-Like Speech): Orpheus TTS 能够生成具有自然语调、情感和节奏的语音,其质量甚至超越了目前一些最先进的闭源模型。
- 零样本语音克隆(Zero-Shot Voice Cloning): 这项突破性功能允许模型在没有任何特定说话人微调的情况下,仅凭一段音频样本就能复制该说话人的声音,极大地简化了语音定制的过程。
- 引导式情感和语调控制(Guided Emotion and Intonation): 用户可以通过简单的标签控制合成语音的情感和语调特征,使得输出的语音更具表现力和感染力。
- 低延迟(Low Latency): Orpheus TTS 实现了低至约 200 毫秒的流式传输延迟,通过输入流优化甚至可以降低到约 100 毫秒,这使得它非常适合需要实时语音交互的应用。
- 预训练模型和微调模型: Orpheus TTS 发布了预训练模型和针对日常 TTS 应用进行微调的模型,用户可以根据自己的需求选择合适的模型。
- 数据处理脚本和示例数据集: 项目提供了数据处理脚本和示例数据集,使得用户可以轻松地创建自己的微调模型。
- 长文本处理能力增强: Orpheus TTS 的 Web UI 版本提供了专门的 “Long Form Content” 标签,支持智能文本分块、并行处理和无缝音频拼接,方便处理更长的文本输入。
- 内存优化: 针对消费级 GPU 进行了内存优化,解决了常见的内存问题,使得更多用户可以在本地运行高质量的 TTS 模型。
- 支持情感标签: 完全支持原始模型中的所有情感标签,允许更细致的情感控制。
如何使用/快速开始
要开始使用 Orpheus TTS,您可以按照以下步骤进行操作:
- 检查系统要求: 确保您的系统满足 Orpheus TTS 的运行要求,推荐使用 macOS 最新版本,至少 8GB RAM(推荐 16GB 或更多),以及专用 GPU(虽然模型可以在 CPU 上运行,但性能会降低),Python 3.8 或更高版本,以及 pip。
- 安装 Homebrew: 如果您的系统上没有安装 Homebrew,请打开终端并运行:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- 安装 Python 和 Pip: 如果尚未安装 Python,可以使用 Homebrew 安装:
brew install python
- 安装 Git: Git 是克隆模型仓库所必需的:
brew install git
- 克隆 Orpheus TTS 仓库: 导航到您想要存放项目的目录,并运行:
git clone https://github.com/canopyai/Orpheus-TTS.git cd Orpheus-TTS
- 安装依赖: 在克隆的仓库目录下,安装所需的 Python 包:
pip install -r requirements.txt
- 认证 Hugging Face: 在 Hugging Face 上创建一个账户,并从您的账户设置中生成一个访问令牌。然后在终端中登录:
huggingface-cli login
当提示时输入您的访问令牌。
- 下载 Orpheus 模型: 运行以下命令来检索模型文件:
git lfs install git lfs pull
- 创建语音生成脚本: 编写一个 Python 脚本来从文本生成语音,例如:
import torch from transformers import pipeline # 加载 Orpheus TTS 模型 tts = pipeline("text-to-speech", model="canopylabs/orpheus-3b-0.1-pretrained") # 定义输入文本 input_text = "你好!这是 Orpheus 3B TTS 系统的测试。" # 生成语音 output_audio = tts(input_text) # 将输出保存为 WAV 文件 with open("output.wav", "wb") as f: f.write(output_audio["audio"])
- 执行脚本: 运行您的脚本:
python your_script.py
将
your_script.py
替换为您的实际文件名。
您也可以在 Google Colab 上进行简单的设置和推理,项目仓库中提供了相应的 Colab Notebook。对于实时流式推理,您可以参考仓库中的示例代码,该示例使用了 orpheus-speech
包和 vllm
进行快速推理。更高级的用法,例如语音克隆和情感控制,以及如何微调模型,都可以在 Orpheus TTS 的 GitHub 仓库和相关的文档中找到详细说明。建议您查阅这些资源以充分利用 Orpheus TTS 的强大功能。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/orpheus-tts.html -APPMARK
Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。