SANA 是由 NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达 4096×4096 分辨率的高清晰度图像。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/sana.html -APPMARK
SANA 是由 NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达 4096×4096 分辨率的高清晰度图像。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/sana.html -APPMARK
InternVL 是 OpenGVLab 开发的一系列开源多模态大型语言模型,旨在提供强大的视觉和语言理解能力,支持包括图像描述、视觉问答、文档理解等多种任务。它具有高性能、多功能和易于使用的特点,是研究和应用多模态人工智能的有力工具。