Sherpa-ncnn

Sherpa-ncnn 是一款轻量级语音识别框架，支持离线部署，适合嵌入式设备和低算力场景。

天工 SkyMusic 是一款基于天工 3.0 模型架构的 AI 音乐生成大模型，能够根据歌词、风格和情感生成高质量的双声道立体声歌曲。

Coqui TTS 是 Coqui-ai 团队推出的一款基于深度学习的文本转语音项目。它以其开源性和强大功能在 TTS 领域崭露头角。

SpeechT5 是一个基于 Transformer 架构的语音技术平台，提供语音合成、识别、情感分析等多种功能。

Audiocraft 是一个使用深度学习进行音频处理和生成的库，集成了最先进的 EnCodec 音频压缩器/分词器，以及 AudioGen 和 MusicGen 两种 AI 生成模型。

FunASR 是由阿里巴巴达摩院开源的语音识别工具包，包括在大规模工业语料库上训练的模型，提供语音识别、语音活动检测、标点恢复等多种功能。

FastSpeech2 是微软提出的一个快速、高质量的端到端文本转语音(TTS)模型，是 FastSpeech 的改进版本，特别适合于实时语音播报、智能客服等场景。

VITS 是一种高表现力语音合成模型，结合了变分推理、标准化流和对抗训练。

VALL-E 是微软研究院开发的一种用于文本到语音合成（TTS）的语言建模方法。

1 2

APPMARK 是快速找到最新 AI（Artificial Intelligence, 人工智能）应用的一站式导航平台，我们按照模型平台、提示词、写作、办公、对话聊天、图像、视频、设计、语音、编程、开发平台、法律助手、学习资源等进行分类导航和索引，并保持更新，最短时间内找到需要的AI应用。

您可以通过以下方式联系我们