什么是X-Actor

X-Actor 是由字节跳动提出的一种创新技术,旨在通过音频驱动的自回归扩散框架,从一张静态图像和一段音频生成具有高度情感表达的人像动画视频。与以往主要关注唇形同步和短期视觉保真度的方法不同,X-Actor 实现了具备演员级表现力的长时人像表演,能够捕捉与语音节奏和语义内容协调一致的细腻、动态演变的情感变化,并实现长时间的唇形同步与情感音频一致性。

X-Actor 的核心是一个两阶段解耦生成流程:首先,采用音频条件下的自回归扩散模型,在长时间窗口内预测表现力丰富的面部运动潜变量;接着,通过基于扩散的视频合成模块将这些潜变量还原为高保真度的视频动画。该方法在解耦视觉和身份信息的紧凑潜空间中建模,并结合diffusion-forcing训练机制,有效捕捉音频与面部动态之间的长程关联,实现稳定、无误差积累的情感运动预测,支持无限时长的连续生成。

尽管 X-Actor 在生成与输入音频高度契合、富有情感表现力的表演方面取得了显著进展,但目前仍局限于头部动画,尚未建模全身动作与手势。未来将探索更复杂的动态表现,并尝试将方法泛化到非人类对象如动物等。高质量、长时情感表演数据的稀缺性仍是制约因素。

X-Actor 的提出标志着在音频驱动人像动画领域的一个重要突破,为生成更具表现力和情感深度的虚拟人物动画提供了新的可能性。

https://arxiv.org/pdf/2508.02944

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!