Step-Video 是由阶跃星辰发布、开源的文本到视频预训练模型系列,其中,Step-Video-T2V 是阶跃星辰与吉利汽车合作推出的先进文本到视频模型。Step-Video-T2V 拥有 300 亿参数,能够生成 540p、204 帧的高质量视频。该版本在多个核心技术领域进行了优化和创新,采用了更高压缩比的 VAE 模型以及深度优化的 DiT 架构,引入强化学习算法。 能生成复杂的动态场景,如芭蕾舞、空手道等,同时支持丰富的镜头语言和基础文字生成。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/step-video.html -APPMARK

Runway Gen系列包括 Runway Gen-2 和其后续升级版本 Runway Gen-3,这些模型专注于从文本到视频的转换,展示了在物体运动和场景生成方面的进步。