
Step-Video 是由阶跃星辰发布、开源的文本到视频预训练模型系列,其中,Step-Video-T2V 是阶跃星辰与吉利汽车合作推出的先进文本到视频模型。Step-Video-T2V 拥有 300 亿参数,能够生成 540p、204 帧的高质量视频。该版本在多个核心技术领域进行了优化和创新,采用了更高压缩比的 VAE 模型以及深度优化的 DiT 架构,引入强化学习算法。 能生成复杂的动态场景,如芭蕾舞、空手道等,同时支持丰富的镜头语言和基础文字生成。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/step-video.html -APPMARK
Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。