Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/bytedance-sa2va.html -APPMARK
Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/bytedance-sa2va.html -APPMARK
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用 Diffusion Transformer 架构,提升了模型的灵活性和可控性。