HuMo(Human‑Centric Video Generation via Collaborative Multi‑Modal Conditioning)概述
HuMo 是由清华大学与字节跳动智能创作实验室联合研发的 多模态视频生成框架,专注于以人为中心的人体视频合成。它能够从 文本、图像、音频 等多种模态输入出发,生成高质量、细节丰富且可控的人物动作视频,实现 文本提示跟随、主体一致性保留、音频驱动动作同步 等关键能力。
1. 核心技术特点
特点 | 说明 |
---|---|
多模态协同输入 | 支持单模态(文本‑图像、文本‑音频)和复合模态(文本‑图像‑音频)三种生成模式,用户可灵活组合控制信号 |
两阶段训练范式 | 第一期聚焦主体保留任务,确保人物外观在整段视频中保持一致;第二期聚焦音视频同步任务,实现音频驱动的自然动作 |
渐进式多模态训练 | 通过最小侵入性图像注入和预测式聚焦策略,解决多模态数据稀缺与协同困难的问题 |
高分辨率输出 | 17B 版本支持 720P,1.7B 版本支持 480P,最长可生成 97 帧(≈ 4 秒)的视频,帧率 25fps |
开放源码与模型 | 项目代码、技术报告、模型权重均已在 GitHub 与 Hugging Face 开源,便于二次开发与学术复现 |
多场景应用 | 内容创作、虚拟人物、教育培训、广告营销、社交媒体等均可直接使用或定制化部署 |
2. 系统架构(简要)
- 输入层:文本编码(Transformer)、图像特征提取(ViT)和音频特征提取(CNN+Transformer)分别得到对应的模态向量。
- 多模态融合模块:采用协同注意力机制,将不同模态信息统一映射到统一的条件空间。
- 视频生成器:基于扩散模型(Diffusion)或自回归 Transformer,逐帧生成视频帧,同时使用时间自适应 CFG(Classifier‑Free Guidance)实现细粒度控制。
- 后处理:可选的超分辨率模块提升至 720P,音视频同步校正确保音频与动作精准对齐。
3. 关键成果与评测
- 在 主体保留、文本遵循度、音视频同步 三大指标上均超过同类最先进(SOTA)方法。
- 通过公开基准(Human‑Centric Video Generation Benchmark)验证,HuMo 在视觉质量(FID、LPIPS)和语义一致性(CLIP‑Score)上取得显著提升。
- 项目已在多篇技术博客与行业媒体中得到报道,受到学术界与工业界的广泛关注。
4. 获取方式与资源链接
资源 | 链接 |
---|---|
项目主页(技术概览、Demo) | https://phantom-video.github.io/HuMo/ |
GitHub 代码仓库 | https://github.com/Phantom-video/HuMo |
Hugging Face 模型库(17B、1.7B) | https://huggingface.co/bytedance-research/HuMo |
论文(arXiv) | https://arxiv.org/pdf/2509.08519 |
技术博客(搜狐) | https://www.sohu.com/a/934648620_122058581 |
行业速览(Nowcoder 讨论) | https://m.nowcoder.com/discuss/797233099712000000?urlSource=home-api |
AI‑Bot 中文介绍页 | https://ai-bot.cn/humo/ |
近期媒体报道(果比AI日报) | https://xueqiu.com/8750451990/353165383 |
5. 使用建议
- 快速体验:下载项目代码后,使用提供的
demo.sh
脚本即可在单张 GPU(如 RTX 3090)上生成 480P 短视频。 - 高质量需求:选择 17B 版本并开启多 GPU 分布式推理,可生成 720P、时长更长的视频。
- 二次开发:利用公开的多模态融合模块,可自行扩展至 文本‑姿态、文本‑深度图 等新模态,实现更丰富的创意场景。
总结
HuMo 通过创新的多模态协同训练与两阶段生成策略,突破了以往人体视频生成在 主体一致性 与 音视频同步 的瓶颈,提供了一个 统一、可控、高分辨率 的视频生成平台。其开源生态与丰富的文档、模型资源,使得研究者与内容创作者都能快速上手并在各自领域进行深度定制。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!