什么是LightX2V

AI解读 2个月前硕雀

29 0 0

LightX2V（Light X2V）是一款由商汤科技（SenseTime）‍研发的、面向低成本、强实时视频生成的推理技术栈。它不是一个独立的模型，而是一个高性能推理框架，旨在解决当前主流视频生成模型（如 Sora、Runway Gen-2）在生成速度和算力需求上的痛点。

核心特点

极致加速：通过 DiT 蒸馏、稀疏注意力（Sparse Attention）等技术，LightX2V 将传统的高延迟推理（数分钟甚至十几分钟生成 15 秒视频）压缩到了秒级。
高资源占用率：它在显卡上的算力利用率极高（如 80%），充分挖掘 GPU 的算力潜力。
低算力门槛：仅需 8GB 显存和 16GB 内存，即可运行 140 亿参数模型生成 480P/720P 视频。

工作原理

LightX2V 并非改变生成的内容，而是通过优化推理流程和底层算子来加速生成过程。它采用了类似于「DiT 蒸馏」和「低比特量化」的技术，将模型压缩并优化，从而在算力受限的硬件上（包括国产芯片）实现接近 1:1 实时的生成速度。

什么是LightX2V

核心特点

工作原理

相关链接

什么是PHYSICLEAR数据集

什么是通用实时世界模型（General Real-Time World Model）