视频生成

Sa2VA

Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型，是 SAM2 和 LLaVA 结合而成，能实现对图像和视频的密集、细粒度理解。

本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权，非商业转载、引用须注明出处。