字节发布 Waver 1.0：一句话生成10秒1080p多风格视频

AI资讯 6个月前硕雀

80 0 0

字节发布的Waver 1.0是一款强大的AI视频生成模型，旨在通过文本到视频（T2V）、图像到视频（I2V）和文本到图像（T2I）的生成能力，为用户提供全新的视频创作体验。该模型基于修正流 Transformer架构，支持多模态生成，无需切换模型即可实现无缝切换。Waver 1.0不仅支持文本和图像的输入，还能生成高质量的视频内容，包括多种艺术风格，如写实、卡通、赛博朋克等。

在技术性能方面，Waver 1.0能够生成5-10秒、720p分辨率的视频，并可通过后期处理超分至1080p，画质清晰、细节丰富，具备专业级视觉效果。模型在复杂运动捕捉方面表现优异，能精准呈现物体运动和动作，提升视频真实感。此外，Waver 1.0支持多镜头叙事功能，可自动生成连贯镜头，确保风格和氛围一致，提升视频流畅度。

Waver 1.0在多个方面表现优异，包括运动质量、视觉一致性与提示跟随性等方面，尤其在多镜头叙事和复杂运动生成上表现突出。该模型在Artificial Analysis的T2V与I2V榜单中位列前三，性能全面超越现有开源模型，可与最佳商业方案媲美。

Waver 1.0的发布标志着字节跳动在AI视频生成领域的进一步突破，为创作者、广告商和教育工作者提供了高效、智能的视频生成工具，提升了内容创作的效率和质量。

论文：https://arxiv.org/pdf/2508.15761
主页：http://www.waver.video/
代码：https://github.com/FoundationVision/Waver

Waver Waver 1.0

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

字节发布 Waver 1.0：一句话生成10秒1080p多风格视频

UIUC 提出视频虚拟试穿生成方法 Dress&Dance

蚂蚁集团推出的多模态数字人视频生成框架 EchoMimicV3