Audiocraft
AI音频

Audiocraft

Audiocraft 是一个使用深度学习进行音频处理和生成的库,集成了最先进的 EnCodec 音频压缩器/分词器,以及 AudioGen 和 MusicGen 两种 AI 生成模型。

快点收藏起来

Audiocraft 是一个使用深度学习进行音频处理和生成的库,集成了最先进的 EnCodec 音频压缩器/分词器,以及 AudioGen 和 MusicGen 两种 AI 生成模型。

什么是 Audiocraft

Audiocraft 是由 Meta AI 团队开发的开源 PyTorch 库,专注于音频生成的深度学习研究。它通过集成多种先进模型(如 MusicGen、AudioGen 和 EnCodec),实现从文本生成高质量音乐和环境音效的功能。与传统的音频生成技术相比,Audiocraft 利用自回归语言模型和神经音频编解码器,显著提升了生成音频的保真度和多样性。

其核心优势在于简化了音频生成的复杂性。例如,以 44.1 kHz 采样的音乐曲目通常包含数百万个时间步,而 Audiocraft 通过压缩音频信号为离散 token,将序列长度大幅减少至每秒 50 个步骤,从而高效解决了长序列建模的难题。

audiocraft

Audiocraft 的功能

Audiocraft 包含三大核心模型,覆盖多种音频生成场景:
1. MusicGen:基于文本生成音乐,支持从流行舞曲到特定乐器演奏的多样化风格。例如,输入「Pop dance track with catchy melodies」,即可生成适合海滩场景的欢快音乐。该模型使用 20000 小时授权音乐数据训练,确保生成的音乐无版权问题。
2. AudioGen:生成环境音效(如风声、狗吠声)或语音,适用于有声读物、游戏音效设计等场景。
3. EnCodec:高保真音频编解码器,通过压缩与重建原始信号优化存储与传输效率。

此外,Audiocraft 还提供AudioSeal  水印技术,用于版权保护,防止音频被未经授权使用。

如何使用/快速开始

以下是使用 Audiocraft 的快速入门指南:

步骤 1:安装依赖

- 确保系统已安装 Python 3.9、CUDA 11.8 及 PyTorch 2.0+。
- 通过以下命令安装 Audiocraft:

pip install 'torch>=2.0'
pip install -U audiocraft

若需本地安装,可克隆仓库并配置虚拟环境。

步骤 2:选择预训练模型

Audiocraft 提供多种模型规格:
- small (300M):基础文本生成音乐。
- medium (1.5B):平衡质量与计算效率。
- melody (1.5B):支持文本与旋律结合生成音乐。
- large (3.3B):最高质量输出,需 16GB GPU 显存。

步骤 3:生成音频

通过 Python API 或 Gradio 界面输入文本描述即可生成音频。示例代码:

from audiocraft.models import MusicGen
model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=10) # 生成 10 秒音频
descriptions = ['calm piano melody with rain sounds']
wav = model.generate(descriptions)

生成的音频可保存为 WAV 文件,并自动进行响度标准化。

注意事项

- 若自动下载模型失败,需手动从 Hugging Face Hub 下载并放置到缓存目录。
- 推荐使用 melody 或 medium 模型,以平衡生成质量与资源消耗。

相关导航