AI视频视频生成

通义万相

通义万相是阿里云推出的视觉生成大模型，涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级，采用 Diffusion Transformer 架构，提升了模型的灵活性和可控性。

通义万相（Wan）是阿里云推出的视觉生成大模型，涵盖图像和视频生成。其 2.0 版本在文生图和文生视频方面进行了重大升级，采用 Diffusion Transformer 架构，提升了模型的灵活性和可控性。

通义万相最新发布的 Wan2.1 模型专注于高质量视频生成，凭借其卓越的性能和创新技术，成为创作者和企业用户的首选工具。该模型在 Vbench 评测中取得了 86.22% 的高分，领先于其他视频生成模型，展现出显著的性能优势。Wan2.1 通过高效的 3D 因果 VAE 模块和 Diffusion Transformer 架构，优化了视频生成和推理效率，为用户提供了灵活的开发和部署选择。

主要功能

复杂动作展现：稳定展现各种复杂的人物肢体运动，如旋转、跳跃、转身、翻滚等，及镜头的移动，让视频内容更加生动和真实。
物理规律还原：逼真还原真实世界的物理规律，如碰撞、反弹、切割、挤压等。比如生成雨滴落在伞上溅起水花的场景，让视频更具真实感。
中英文视频特效生成：提供多种视频特效选项，如过渡、粒子效果、模拟等，能一键生成中英文视频特效，增强视频的视觉表现力。
艺术风格转换：具备强大的艺术风格表现力，能一键转换视频的影视质感与艺术风格，如电影色调、印象笔触、抽象表现等，生成各种风格的视频。
图生成：支持分镜效果还原、四格漫画创作、创意头像定制等功能，满足用户的不同需求。

技术原理

VAE架构：变分自编码器（VAE）是生成模型，用编码器将输入数据映射到一个潜在空间，再用解码器将潜在空间的表示映射回数据空间，实现数据的生成和重建。
DiT架构：DiT（Diffusion in Time）架构是基于扩散模型的生成模型，在时间维度上逐步引入噪声，逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构，支持高效编解码和生成高质量的视频。
IC-LoRA：IC-LoRA是一种图像生成训练方法，基于结合图像内容和文本描述，增强文本到图像的上下文能力，让生成的图像更加符合用户的文本描述和期望。
上下文建模：基于增强时空上下文建模能力，更好地理解和生成具有连贯性和一致性的视频内容，让视频中的动作、场景和风格等元素更加自然和协调。

开源地址

Github地址：https://link.zhihu.com/?target=https%3A//github.com/Wan-Video
HuggingFace地址：https://link.zhihu.com/?target=https%3A//huggingface.co/Wan-AI
魔搭社区地址：https://link.zhihu.com/?target=https%3A//modelscope.cn/organization/Wan-AI

本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权，非商业转载、引用须注明出处。

链接：https://appmark.cn/sites/%e9%80%9a%e4%b9%89%e4%b8%87%e7%9b%b8.html -APPMARK

通义万相

主要功能

技术原理

开源地址

相关导航