通义万相
AI视频 视频生成

通义万相

通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用 Diffusion Transformer 架构,提升了模型的灵活性和可控性。

快点收藏起来

通义万相(Wan) 是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其 2.0 版本在文生图和文生视频方面进行了重大升级,采用 Diffusion Transformer 架构,提升了模型的灵活性和可控性。

通义万相最新发布的 Wan2.1 模型专注于高质量视频生成,凭借其卓越的性能和创新技术,成为创作者和企业用户的首选工具。该模型在 Vbench 评测中取得了 86.22% 的高分,领先于其他视频生成模型,展现出显著的性能优势。Wan2.1 通过高效的 3D 因果 VAE 模块和 Diffusion Transformer 架构,优化了视频生成和推理效率,为用户提供了灵活的开发和部署选择。

主要功能

  • 复杂动作展现:稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,及镜头的移动,让视频内容更加生动和真实。
  • 物理规律还原:逼真还原真实世界的物理规律,如碰撞、反弹、切割、挤压等。比如生成雨滴落在伞上溅起水花的场景,让视频更具真实感。
  • 中英文视频特效生成:提供多种视频特效选项,如过渡、粒子效果、模拟等,能一键生成中英文视频特效,增强视频的视觉表现力。
  • 艺术风格转换:具备强大的艺术风格表现力,能一键转换视频的影视质感与艺术风格,如电影色调、印象笔触、抽象表现等,生成各种风格的视频。
  • 图生成:支持分镜效果还原、四格漫画创作、创意头像定制等功能,满足用户的不同需求。

技术原理

  • VAE架构:变分自编码器(VAE)是生成模型,用编码器将输入数据映射到一个潜在空间,再用解码器将潜在空间的表示映射回数据空间,实现数据的生成和重建。
  • DiT架构:DiT(Diffusion in Time)架构是基于扩散模型的生成模型,在时间维度上逐步引入噪声,逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构,支持高效编解码和生成高质量的视频。
  • IC-LoRA:IC-LoRA是一种图像生成训练方法,基于结合图像内容和文本描述,增强文本到图像的上下文能力,让生成的图像更加符合用户的文本描述和期望。
  • 上下文建模:基于增强时空上下文建模能力,更好地理解和生成具有连贯性和一致性的视频内容,让视频中的动作、场景和风格等元素更加自然和协调。

开源地址

  • Github地址:https://link.zhihu.com/?target=https%3A//github.com/Wan-Video
  • HuggingFace地址:https://link.zhihu.com/?target=https%3A//huggingface.co/Wan-AI
  • 魔搭社区地址:https://link.zhihu.com/?target=https%3A//modelscope.cn/organization/Wan-AI

相关导航