Ava‑256 数据集概览
| 项目 | 说明 | 参考 |
|---|---|---|
| 全称 | Ava‑256(也写作 Ava256) | |
| 定位 | 用于高保真、可动画的 3D 头部头像(avatar)研究,提供多视角、动态表情的捕获数据 | |
| 主体数量 | 256 位受试者(每位约 5 000 帧) | |
| 摄像系统 | 两套捕获装置: • Dome:80 台 RGB 摄像机围绕受试者 • Headset:5 台红外摄像机(Quest Pro) |
|
| 帧率 & 分辨率 | 4 TB 版本:7.5 fps,分辨率 1024 × 667; 32 TB 版本:15 fps,分辨率 2048 × 1334 |
|
| 数据模态 | - 原始 RGB 视频 - 3D 关键点 - 语义分割 - 受试者姿态、网格、纹理 - 表情编码(expression code) |
|
| 存储规模 | 4 TB、8 TB、16 TB、32 TB 多个版本,满足不同算力/存储需求 | |
| 下载方式 | GitHub 项目提供 download.sh 脚本,可自行指定下载数量与线程数 |
|
| 许可证 | 研究用途免费(需遵守 Meta Research Data License),商业使用需额外授权 | |
| 典型应用 | - 可动画 3D 头像(Avat3r、Codec Avatar Studio) - 单张图像 3D 人脸重建(Pixel3DMM) - 多视角姿态/表情建模 |
|
| 关联论文 | Codec Avatar Studio: Paired Human Captures for Complete, Driveable, and Generalizable Avatars(NeurIPS 2024)中对 Ava‑256 各版本做了详细表格说明 | |
| 获取链接 | - GitHub 代码仓库 & 下载脚本: - 数据集发布页面(Meta Reality Labs):<https://research.facebook.com/ava-256 >(可在 GitHub README 中找到) |
关键特性简述
- 多视角高分辨率:80 个 RGB 摄像头围成半球形捕获装置,能够完整覆盖头部的每个角度,适合训练对视角鲁棒的 3D 重建模型。
- 动态表情丰富:每位受试者在拍摄过程中会展示多种自然表情,数据集中提供对应的表情编码,便于学习表情驱动的动画。
- 双模态捕获:除了 Dome 版的全身 RGB,Headset 版提供红外深度/IR 图像,帮助提升深度感知精度。
- 可扩展的存储版本:从 4 TB 到 32 TB 不等,研究者可根据算力与存储条件选择合适规模,避免一次性下载全部 4 TB 数据。
- 完整标注:每帧配有 3D 关键点、语义分割、网格拓扑、姿态信息,省去二次标注工作。
使用建议
- 模型训练:在训练可动画 3D 头像(如 Avat3r、GPAvatar)时,建议使用 4 TB 版本的 Dome 数据,配合随机抽取的 4 个视角 + 4 个时间点作为输入,可获得良好的多样性与收敛速度。
- 数据预处理:下载后可使用提供的
BackgroundMattingV2脚本生成前景掩码,统一背景为黑色,以便后续网络聚焦头部区域。 - 跨模态实验:利用 Headset 的 IR 数据与 Dome 的 RGB 数据进行跨模态对齐,可探索更稳健的深度估计或光照迁移方法。
进一步阅读
- 原始论文:Codec Avatar Studio(NeurIPS 2024)详细阐述了 Ava‑256 的采集流程、数据统计以及基准实验。
- 技术博客:Meta Reality Labs 官方博客中有关于下载脚本使用、数据结构说明的实战指南(GitHub README)。
通过上述链接与文献,您可以快速获取数据、了解其结构,并在自己的 3D 头像或人脸重建项目中进行实验。祝研究顺利!
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!