Janus Pro 7B 是 DeepSeek 团队的开创性 AI 模型,将文本和图像能力结合在一个强大的系统中。基于 DeepSeek-LLM-7b-base,它具有先进的视觉编码,支持高达 384x384 的高分辨率图像处理。基本特性包括:
- 7B 参数架构:强大的处理能力,适合复杂任务
- SigLIP-L 视觉编码器:在 384x384 分辨率下提供卓越的图像理解
- 解耦视觉路径:增强理解和生成的灵活性
- MIT 许可:开源代码,使用条款清晰
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/janus-pro-7b.html -APPMARK

InternVL 是 OpenGVLab 开发的一系列开源多模态大型语言模型,旨在提供强大的视觉和语言理解能力,支持包括图像描述、视觉问答、文档理解等多种任务。它具有高性能、多功能和易于使用的特点,是研究和应用多模态人工智能的有力工具。