AI音频

VidMuse

一款由香港科技大学与微软亚洲研究院联合开发的视频生成音乐框架，采用长短期记忆模型（Long-Short-Term Modeling）实现视频与音乐的同步生成

VidMuse 是一个先进的视频到音乐生成框架，由香港科技大学和微软亚洲研究院的研究人员共同开发。该框架通过长短期建模技术，能够根据视频内容生成高保真度的音乐。 VidMuse 的特点在于其能够捕捉视频中的局部和全局视觉线索，从而创造出既音乐上连贯又与视频内容在语义上高度一致的音频轨道。通过大规模的实验验证，VidMuse 在音质、多样性和视听一致性方面均超越了现有模型。

VidMuse 是什么

VidMuse 是一款为创作者和视频爱好者量身打造的 AI 工具，核心功能是“AI 视频配乐”。它可以智能分析你的视频内容，一键生成专属背景音乐。即使你没有任何音乐基础，也能让你的视频更具活力！它还支持长视频处理，兼顾效率和质量，大大简化了手动选曲、剪辑和调音的繁琐流程。

主要功能

端到端脚本生成：从您的视频概念或想法自动创建引人入胜、结构化的脚本，处理叙事流程、节奏和信息传达，无需手动编写。
专业配音制作：生成多种语言和音调的自然配音，自动匹配您脚本的节奏和情感语境。
完整视频组装：将所有元素组合成精美的成品视频，可直接发布到社交媒体、营销活动和专业渠道。
智能故事板创建：将脚本转换为详细的视觉故事板，包含场景分解、镜头描述和视觉构图，指导整个视频创作过程。
原创音乐创作：创作与您视频的情绪、节奏和视觉内容在语义和声学上保持一致的定制背景音乐。
多格式支持：创建多样化的视频类型，包括 TVC 广告、产品说明、电影恶搞、音乐视频和教育内容，支持各种格式和时长。

如何使用

克隆仓库

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/HKUSTAudio/VidMuse
cd VidMuse

安装 VidMuse 库

conda create -n VidMuse python=3.9
conda activate VidMuse
pip install git+https://github.com/ZeyueT/VidMuse.git

安装 FFMpeg

sudo apt-get install ffmpeg
# Or if you are using Anaconda or Miniconda
conda install "ffmpeg<5" -c conda-forge

运行

from video_processor import VideoProcessor, merge_video_audio
from audiocraft.models import VidMuse
import scipy

# Path to the video
video_path = 'sample.mp4'
# Initialize the video processor
processor = VideoProcessor()
# Process the video to obtain tensors and duration
local_video_tensor, global_video_tensor, duration = processor.process(video_path)

progress = True
USE_DIFFUSION = False

# Load the pre-trained VidMuse model
MODEL = VidMuse.get_pretrained('HKUSTAudio/VidMuse')
# Set generation parameters for the model based on video duration
MODEL.set_generation_params(duration=duration)

try:
    # Generate outputs using the model
    outputs = MODEL.generate([local_video_tensor, global_video_tensor], progress=progress, return_tokens=USE_DIFFUSION)
except RuntimeError as e:
    print(e)

# Detach outputs from the computation graph and convert to CPU float tensor
outputs = outputs.detach().cpu().float()


sampling_rate = 32000
output_wav_path = "vidmuse_sample.wav"
# Write the output audio data to a WAV file
scipy.io.wavfile.write(output_wav_path, rate=sampling_rate, data=outputs[0, 0].numpy())

output_video_path = "vidmuse_sample.mp4"
# Merge the original video with the generated music
merge_video_audio(video_path, output_wav_path, output_video_path)