Orpheus TTS
音频生成与处理

Orpheus TTS

Orpheus TTS 是 Canopy Labs 开发的一款开源文本转语音系统,基于 Llama 架构,旨在生成高质量、富有表现力的类人语音。它具备零样本语音克隆、引导式情感和语调控制以及低延迟等先进功能,适用于各种需要自然语音合成的应用场景,并提供了详细的安装和使用指南以及丰富的示例代码。

快点收藏起来

什么是 Orpheus TTS

Orpheus TTS 是由 Canopy Labs 开发的一款先进的开源文本转语音(Text-to-Speech, TTS)系统。它基于强大的 Llama 架构构建,旨在合成高质量、富有表现力的语音,能够准确地模仿人类的语调和情感。Orpheus TTS 的目标是弥合开源 TTS 模型与领先的闭源模型在音质和自然度方面的差距,为开发者和研究人员提供一个强大且可自由使用的工具。其名称来源于希腊神话中的吟游诗人俄耳甫斯,象征着其能够创造出动听声音的能力。Orpheus TTS 不仅能够生成听起来像人类的语音,还具备零样本语音克隆和情感控制等先进功能,使其在虚拟助手、有声读物叙述、AI 驱动的内容创作等多种应用场景中都展现出巨大的潜力。作为一个开源项目,Orpheus TTS 鼓励社区参与和贡献,共同推动语音合成技术的发展,并提供更接近人类自然语音的合成体验。

Orpheus-TTS

Orpheus TTS 的功能

Orpheus TTS 具备一系列令人印象深刻的功能,使其在众多 TTS 模型中脱颖而出:

  • 类人语音(Human-Like Speech): Orpheus TTS 能够生成具有自然语调、情感和节奏的语音,其质量甚至超越了目前一些最先进的闭源模型。
  • 零样本语音克隆(Zero-Shot Voice Cloning): 这项突破性功能允许模型在没有任何特定说话人微调的情况下,仅凭一段音频样本就能复制该说话人的声音,极大地简化了语音定制的过程。
  • 引导式情感和语调控制(Guided Emotion and Intonation): 用户可以通过简单的标签控制合成语音的情感和语调特征,使得输出的语音更具表现力和感染力。
  • 低延迟(Low Latency): Orpheus TTS 实现了低至约 200 毫秒的流式传输延迟,通过输入流优化甚至可以降低到约 100 毫秒,这使得它非常适合需要实时语音交互的应用。
  • 预训练模型和微调模型: Orpheus TTS 发布了预训练模型和针对日常 TTS 应用进行微调的模型,用户可以根据自己的需求选择合适的模型。
  • 数据处理脚本和示例数据集: 项目提供了数据处理脚本和示例数据集,使得用户可以轻松地创建自己的微调模型。
  • 长文本处理能力增强: Orpheus TTS 的 Web UI 版本提供了专门的 “Long Form Content” 标签,支持智能文本分块、并行处理和无缝音频拼接,方便处理更长的文本输入。
  • 内存优化: 针对消费级 GPU 进行了内存优化,解决了常见的内存问题,使得更多用户可以在本地运行高质量的 TTS 模型。
  • 支持情感标签: 完全支持原始模型中的所有情感标签,允许更细致的情感控制。

如何使用/快速开始

要开始使用 Orpheus TTS,您可以按照以下步骤进行操作:

  1. 检查系统要求: 确保您的系统满足 Orpheus TTS 的运行要求,推荐使用 macOS 最新版本,至少 8GB RAM(推荐 16GB 或更多),以及专用 GPU(虽然模型可以在 CPU 上运行,但性能会降低),Python 3.8 或更高版本,以及 pip。
  2. 安装 Homebrew: 如果您的系统上没有安装 Homebrew,请打开终端并运行:
    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  3. 安装 Python 和 Pip: 如果尚未安装 Python,可以使用 Homebrew 安装:
    brew install python
  4. 安装 Git: Git 是克隆模型仓库所必需的:
    brew install git
  5. 克隆 Orpheus TTS 仓库: 导航到您想要存放项目的目录,并运行:
    git clone https://github.com/canopyai/Orpheus-TTS.git
    cd Orpheus-TTS
  6. 安装依赖: 在克隆的仓库目录下,安装所需的 Python 包:
    pip install -r requirements.txt
  7. 认证 Hugging Face: 在 Hugging Face 上创建一个账户,并从您的账户设置中生成一个访问令牌。然后在终端中登录:
    huggingface-cli login

    当提示时输入您的访问令牌。

  8. 下载 Orpheus 模型: 运行以下命令来检索模型文件:
    git lfs install
    git lfs pull
  9. 创建语音生成脚本: 编写一个 Python 脚本来从文本生成语音,例如:
    import torch
    from transformers import pipeline
    
    # 加载 Orpheus TTS 模型
    tts = pipeline("text-to-speech", model="canopylabs/orpheus-3b-0.1-pretrained")
    
    # 定义输入文本
    input_text = "你好!这是 Orpheus 3B TTS 系统的测试。"
    
    # 生成语音
    output_audio = tts(input_text)
    
    # 将输出保存为 WAV 文件
    with open("output.wav", "wb") as f:
        f.write(output_audio["audio"])
    
  10. 执行脚本: 运行您的脚本:
    python your_script.py

    your_script.py 替换为您的实际文件名。

您也可以在 Google Colab 上进行简单的设置和推理,项目仓库中提供了相应的 Colab Notebook。对于实时流式推理,您可以参考仓库中的示例代码,该示例使用了 orpheus-speech 包和 vllm 进行快速推理。更高级的用法,例如语音克隆和情感控制,以及如何微调模型,都可以在 Orpheus TTS 的 GitHub 仓库和相关的文档中找到详细说明。建议您查阅这些资源以充分利用 Orpheus TTS 的强大功能。

相关导航