什么是HuMo

AI解读 2个月前硕雀

33 0 0

HuMo（Human‑Centric Video Generation via Collaborative Multi‑Modal Conditioning）概述

HuMo 是由清华大学与字节跳动智能创作实验室联合研发的 多模态视频生成框架，专注于以人为中心的人体视频合成。它能够从 文本、图像、音频 等多种模态输入出发，生成高质量、细节丰富且可控的人物动作视频，实现 文本提示跟随、主体一致性保留、音频驱动动作同步 等关键能力。

特点	说明
多模态协同输入	支持单模态（文本‑图像、文本‑音频）和复合模态（文本‑图像‑音频）三种生成模式，用户可灵活组合控制信号
两阶段训练范式	第一期聚焦主体保留任务，确保人物外观在整段视频中保持一致；第二期聚焦音视频同步任务，实现音频驱动的自然动作
渐进式多模态训练	通过最小侵入性图像注入和预测式聚焦策略，解决多模态数据稀缺与协同困难的问题
高分辨率输出	17B 版本支持 720P，1.7B 版本支持 480P，最长可生成 97 帧（≈ 4 秒）的视频，帧率 25fps
开放源码与模型	项目代码、技术报告、模型权重均已在 GitHub 与 Hugging Face 开源，便于二次开发与学术复现
多场景应用	内容创作、虚拟人物、教育培训、广告营销、社交媒体等均可直接使用或定制化部署

输入层：文本编码（Transformer）、图像特征提取（ViT）和音频特征提取（CNN+Transformer）分别得到对应的模态向量。
多模态融合模块：采用协同注意力机制，将不同模态信息统一映射到统一的条件空间。
视频生成器：基于扩散模型（Diffusion）或自回归 Transformer，逐帧生成视频帧，同时使用时间自适应 CFG（Classifier‑Free Guidance）实现细粒度控制。
后处理：可选的超分辨率模块提升至 720P，音视频同步校正确保音频与动作精准对齐。

在 主体保留、文本遵循度、音视频同步 三大指标上均超过同类最先进（SOTA）方法。
通过公开基准（Human‑Centric Video Generation Benchmark）验证，HuMo 在视觉质量（FID、LPIPS）和语义一致性（CLIP‑Score）上取得显著提升。
项目已在多篇技术博客与行业媒体中得到报道，受到学术界与工业界的广泛关注。

资源	链接
项目主页（技术概览、Demo）	https://phantom-video.github.io/HuMo/
GitHub 代码仓库	https://github.com/Phantom-video/HuMo
Hugging Face 模型库（17B、1.7B）	https://huggingface.co/bytedance-research/HuMo
论文（arXiv）	https://arxiv.org/pdf/2509.08519
技术博客（搜狐）	https://www.sohu.com/a/934648620_122058581
行业速览（Nowcoder 讨论）	https://m.nowcoder.com/discuss/797233099712000000?urlSource=home-api
AI‑Bot 中文介绍页	https://ai-bot.cn/humo/
近期媒体报道（果比AI日报）	https://xueqiu.com/8750451990/353165383

总结
HuMo 通过创新的多模态协同训练与两阶段生成策略，突破了以往人体视频生成在 主体一致性 与 音视频同步 的瓶颈，提供了一个 统一、可控、高分辨率 的视频生成平台。其开源生态与丰富的文档、模型资源，使得研究者与内容创作者都能快速上手并在各自领域进行深度定制。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！