什么是HuMo

AI解读 21小时前 硕雀
4 0

HuMo(Human‑Centric Video Generation via Collaborative Multi‑Modal Conditioning)概述

HuMo 是由清华大学与字节跳动智能创作实验室联合研发的 多模态视频生成框架,专注于以人为中心的人体视频合成。它能够从 文本、图像、音频 等多种模态输入出发,生成高质量、细节丰富且可控的人物动作视频,实现 文本提示跟随、主体一致性保留、音频驱动动作同步 等关键能力。


1. 核心技术特点

特点 说明
多模态协同输入 支持单模态(文本‑图像、文本‑音频)和复合模态(文本‑图像‑音频)三种生成模式,用户可灵活组合控制信号
两阶段训练范式 第一期聚焦主体保留任务,确保人物外观在整段视频中保持一致;第二期聚焦音视频同步任务,实现音频驱动的自然动作
渐进式多模态训练 通过最小侵入性图像注入和预测式聚焦策略,解决多模态数据稀缺与协同困难的问题
高分辨率输出 17B 版本支持 720P,1.7B 版本支持 480P,最长可生成 97 帧(≈ 4 秒)的视频,帧率 25fps
开放源码与模型 项目代码、技术报告、模型权重均已在 GitHub 与 Hugging Face 开源,便于二次开发与学术复现
多场景应用 内容创作、虚拟人物、教育培训、广告营销、社交媒体等均可直接使用或定制化部署

2. 系统架构(简要)

  1. 输入层:文本编码(Transformer)、图像特征提取ViT)和音频特征提取(CNN+Transformer)分别得到对应的模态向量
  2. 多模态融合模块:采用协同注意力机制,将不同模态信息统一映射到统一的条件空间。
  3. 视频生成器:基于扩散模型(Diffusion)或自回归 Transformer,逐帧生成视频帧,同时使用时间自适应 CFG(Classifier‑Free Guidance)实现细粒度控制。
  4. 后处理:可选的超分辨率模块提升至 720P,音视频同步校正确保音频与动作精准对齐。

3. 关键成果与评测

  • 在 主体保留文本遵循度音视频同步 三大指标上均超过同类最先进(SOTA)方法。
  • 通过公开基准(Human‑Centric Video Generation Benchmark)验证,HuMo 在视觉质量(FID、LPIPS)和语义一致性CLIP‑Score)上取得显著提升。
  • 项目已在多篇技术博客与行业媒体中得到报道,受到学术界与工业界的广泛关注。

4. 获取方式与资源链接

资源 链接
项目主页(技术概览、Demo) https://phantom-video.github.io/HuMo/
GitHub 代码仓库 https://github.com/Phantom-video/HuMo
Hugging Face 模型库(17B、1.7B) https://huggingface.co/bytedance-research/HuMo
论文(arXiv) https://arxiv.org/pdf/2509.08519
技术博客(搜狐) https://www.sohu.com/a/934648620_122058581
行业速览(Nowcoder 讨论) https://m.nowcoder.com/discuss/797233099712000000?urlSource=home-api
AI‑Bot 中文介绍页 https://ai-bot.cn/humo/
近期媒体报道(果比AI日报) https://xueqiu.com/8750451990/353165383

5. 使用建议

  • 快速体验:下载项目代码后,使用提供的 demo.sh 脚本即可在单张 GPU(如 RTX 3090)上生成 480P 短视频。
  • 高质量需求:选择 17B 版本并开启多 GPU 分布式推理,可生成 720P、时长更长的视频。
  • 二次开发:利用公开的多模态融合模块,可自行扩展至 文本‑姿态文本‑深度图 等新模态,实现更丰富的创意场景。

总结
HuMo 通过创新的多模态协同训练与两阶段生成策略,突破了以往人体视频生成在 主体一致性 与 音视频同步 的瓶颈,提供了一个 统一、可控、高分辨率 的视频生成平台。其开源生态与丰富的文档、模型资源,使得研究者与内容创作者都能快速上手并在各自领域进行深度定制。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!