Amazon Polly 是一项完全托管的服务,可按需生成语音,将任何文本转换为音频流。 使用深度学习技术转换文章、网页、PDF 文档和其他文本转语音 (TTS)。
Azure AI 语音提供了多种语音相关的功能,如语音转文本、文本转语音、语音分析、语音合成、语音验证等。
Talo 是一个实时 AI 视频会议翻译工具,支持 32 种语言,集成简便,音质清晰,保障数据安全,适用于大型企业内部沟通和初创公司拓展国际市场。
Audiocraft 是一个使用深度学习进行音频处理和生成的库,集成了最先进的 EnCodec 音频压缩器/分词器,以及 AudioGen 和 MusicGen 两种 AI 生成模型。
11Labs,正式名称为 ElevenLabs,是 AI 技术领域的先锋力量,特别以其在语音克隆和 文本转语音 解决方案方面的专业知识而闻名。
Stability AI 推出的 Stable Audio 是一种基于稳定扩散技术的音频生成模型,它能够根据文本提示高效生成高品质的音频内容。
Magenta 是由 google 组织的一个项目,专门进行基于机器学习的人工智能艺术方面的研究,包括自动作曲、音频生成、图画生成等方面。
Suno 是一款基于人工智能的音乐创作平台,允许用户通过输入简单的提示词(如歌词、风格、主题等)生成数字音乐文件。
PaddleSpeech 是百度飞桨推出的一款开源语音工具包,旨在提供一站式的语音处理解决方案。
FunASR 是由阿里巴巴达摩院开源的语音识别工具包,包括在大规模工业语料库上训练的模型,提供语音识别、语音活动检测、标点恢复等多种功能。
Amazon Polly 是一项完全托管的服务,可按需生成语音,将任何文本转换为音频流。 使用深度学习技术转换文章、网页、PDF 文档和其他文本转语音 (TTS)。