InternVL 是 OpenGVLab 开发的一系列开源多模态大型语言模型,旨在提供强大的视觉和语言理解能力,支持包括图像描述、视觉问答、文档理解等多种任务。它具有高性能、多功能和易于使用的特点,是研究和应用多模态人工智能的有力工具。
StarVector 是一个用于生成高质量可缩放矢量图形(SVG)代码的基础模型。它采用先进的多模态架构,能够处理图像和文本输入,并将矢量化任务视为代码生成问题。StarVector 在图像到 SVG 和文本到 SVG 的生成方面均表现出色,尤其擅长处理复杂的 SVG 元素,适用于图标、徽标和技术图表等多种应用场景。
DreamBooth 是一种用于个性化文生图的模型技术。它允许用户通过上传少量特定对象的照片并赋予这些对象唯一的标识符来进行自定义图像生成。
Real Dream 是一款基于 Pony 开发的真人大模型,融合先进的人工智能和深度学习技术,旨在打造高度逼真的虚拟人物。
ControlNet 不是独立的图像生成模型。相反,它是一个功能强大的附加组件,可与其他模型(如 Stable Diffusion)配合使用。它让你可以对生成的图像的结构和组成进行令人难以置信的控制。
Rodin 是由 Hyper3D 开发的可控大规模生成模型,用于创建高质量的 3D 资产。
GigaGAN 是一种先进的生成对抗网络架构,专为高效生成高分辨率图像而设计。它通过优化网络结构和训练方法,实现了快速且高质量的文本到图像合成,并在生成速度和训练效率上超越了传统的扩散模型和自回归模型,为艺术、设计、广告等领域提供了强大的图像生成工具。
PanGu-Draw基于华为昇思 MindSpore AI 框架研发,在昇腾 Atlas 系列硬件加持下,文生图模型在数据利用、训练和推理方面的效率得到显著提升。
Kandinsky 3.0 是指由俄罗斯 AI Forever 研究团队提出的一种基于潜在扩散的大规模文本到图像生成模型,其目的是提高图像生成的质量和真实性。
PixArt-α 是由华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等多家学术和工业界机构共同研发的一种高效文本到图像生成模型。
InternVL 是 OpenGVLab 开发的一系列开源多模态大型语言模型,旨在提供强大的视觉和语言理解能力,支持包括图像描述、视觉问答、文档理解等多种任务。它具有高性能、多功能和易于使用的特点,是研究和应用多模态人工智能的有力工具。