CM3Leon

APPMARK

站内
百度搜索
必应
Google
DuckDuckGo

视觉与图像生成

CM3Leon 是 Meta AI 开发的先进生成式 AI 模型，能够高效地生成和编辑文本与图像。它采用统一的架构，实现了文本到图像、图像到文本以及文本引导的图像编辑等多种功能，并在性能和计算效率方面都取得了显著的突破，为多模态 AI 的未来发展指明了方向。

Janus Pro 7B

Janus Pro 7B 是 DeepSeek 团队的开创性 AI 模型，将文本和图像能力结合在一个强大的系统中。基于 DeepSeek-LLM-7b-base，它具有先进的视觉编码，支持高达 384x384 的高分辨率图像处理。

Imagen

Imagen 是由谷歌研发的系列图像生成模型（1-3），属于生成对抗网络（GAN）和扩散模型（Diffusion Model）的一种新型实现。

Sana

SANA 是由 NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架，能高效地生成高达 4096×4096 分辨率的高清晰度图像。

Infinity

Infinity 是字节跳动推出的基于位级自回归建模的视觉生成模型，能根据语言指令生成高分辨率、逼真的图像。Infinity 通过无限词汇量的标记器、分类器和位自纠正机制，显著提升图像生成的细节和质量。

DeepFloyd IF

DeepFloydIF 是 Stability AI 推出的一款强大的文本到图像模型，基于 T5-XXL 语言模型，能精确生成图像并理解文本提示。模型采用级联像素扩散方法，在 COCO 数据集上表现优越，具有高度写真性和文本集成能力。

Dall-E 3

DALL·E 3 是一个由 OpenAI 开发的大型语言模型，用于生成图像。它的原理是通过使用深度学习技术，将自然语言描述转换为图像。

Flux.1

Flux.1 是最新和最强大的 AI 图像生成模型之一，它使用一种称为潜在扩散模型的高级架构。Flux.1 最受欢迎的版本包括 Flux.1 Pro、Flux.1 Dev 和 Flux.1 Schnell，作为 Midjourney 和 DALLE3 模型竞品，尤其是在比较图像质量和细节时体验更好。

Stable Diffusion

Stable Diffusion 于 2022 年发布，是开启当前 AI 艺术革命的模型。

1 2

APPMARK 是快速找到最新 AI（Artificial Intelligence, 人工智能）应用的一站式导航平台，我们按照模型平台、提示词、写作、办公、对话聊天、图像、视频、设计、语音、编程、开发平台、法律助手、学习资源等进行分类导航和索引，并保持更新，最短时间内找到需要的AI应用。

博客文章 !
隐私政策 !
收藏本站 !

您可以通过以下方式联系我们