
通义万相(Wan) 是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其 2.0 版本在文生图和文生视频方面进行了重大升级,采用 Diffusion Transformer 架构,提升了模型的灵活性和可控性。
通义万相最新发布的 Wan2.1 模型专注于高质量视频生成,凭借其卓越的性能和创新技术,成为创作者和企业用户的首选工具。该模型在 Vbench 评测中取得了 86.22% 的高分,领先于其他视频生成模型,展现出显著的性能优势。Wan2.1 通过高效的 3D 因果 VAE 模块和 Diffusion Transformer 架构,优化了视频生成和推理效率,为用户提供了灵活的开发和部署选择。
主要功能
- 复杂动作展现:稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,及镜头的移动,让视频内容更加生动和真实。
- 物理规律还原:逼真还原真实世界的物理规律,如碰撞、反弹、切割、挤压等。比如生成雨滴落在伞上溅起水花的场景,让视频更具真实感。
- 中英文视频特效生成:提供多种视频特效选项,如过渡、粒子效果、模拟等,能一键生成中英文视频特效,增强视频的视觉表现力。
- 艺术风格转换:具备强大的艺术风格表现力,能一键转换视频的影视质感与艺术风格,如电影色调、印象笔触、抽象表现等,生成各种风格的视频。
- 图生成:支持分镜效果还原、四格漫画创作、创意头像定制等功能,满足用户的不同需求。
技术原理
- VAE架构:变分自编码器(VAE)是生成模型,用编码器将输入数据映射到一个潜在空间,再用解码器将潜在空间的表示映射回数据空间,实现数据的生成和重建。
- DiT架构:DiT(Diffusion in Time)架构是基于扩散模型的生成模型,在时间维度上逐步引入噪声,逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构,支持高效编解码和生成高质量的视频。
- IC-LoRA:IC-LoRA是一种图像生成训练方法,基于结合图像内容和文本描述,增强文本到图像的上下文能力,让生成的图像更加符合用户的文本描述和期望。
- 上下文建模:基于增强时空上下文建模能力,更好地理解和生成具有连贯性和一致性的视频内容,让视频中的动作、场景和风格等元素更加自然和协调。
开源地址
- Github地址:https://link.zhihu.com/?target=https%3A//github.com/Wan-Video
- HuggingFace地址:https://link.zhihu.com/?target=https%3A//huggingface.co/Wan-AI
- 魔搭社区地址:https://link.zhihu.com/?target=https%3A//modelscope.cn/organization/Wan-AI
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/%e9%80%9a%e4%b9%89%e4%b8%87%e7%9b%b8.html -APPMARK
Hedra 是由原斯坦福大学的研究团队成立的数字创作实验室推出的 AI 对口型视频生成工具,专注于将人工智能技术应用于人物角色视频的生成。