Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/bytedance-sa2va.html -APPMARK
Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/bytedance-sa2va.html -APPMARK
Runway Gen系列包括 Runway Gen-2 和其后续升级版本 Runway Gen-3,这些模型专注于从文本到视频的转换,展示了在物体运动和场景生成方面的进步。