AVSpeech(Audio‑Visual Speech)是一个大规模的视听语音数据集,专为音频‑视觉多模态研究而构建。其主要特征如下:
| 项目 | 内容 |
|---|---|
| 数据来源 | 从 YouTube 上公开的演讲、教学、讲座等视频中自动采集,确保视频中出现单一说话人且无背景噪声 |
| 时长与规模 | 约 4700 小时 的视频片段,覆盖 约 150 000 位不同说话人,总计约 29 万条原始 YouTube 视频 |
| 片段长度 | 每个片段 3–10 秒,视频中仅有一个可见的面部,音频中仅包含该说话人的语音 |
| 语言与姿态 | 包含多种语言、年龄、性别、面部姿势的广泛人群,语言信息来源于 YouTube 元数据 |
| 无干扰 | 片段经过过滤,去除音乐、观众声、其他说话人等背景干扰,保证“干净”语音 |
| 适用任务 | 语音分离、说话人识别、口型同步、音频‑视觉语音识别、跨模态检索、声学场景估计等多模态研究 |
| 公开方式 | 官方网页提供数据概览与下载说明,数据本身通过 YouTube 视频 ID 进行二次下载,配套有 CSV 索引文件 |
| 关键论文 | “Looking to Listen at the Cocktail Party: A Speaker‑Independent Audio‑Visual Model for Speech Separation” (Ephrat et al., 2018) 详细描述了数据集的构建过程和统计信息 |
主要链接
| 链接 | 说明 |
|---|---|
| 官方主页 | https://looking-to-listen.github.io/avspeech/ |
| 数据集索引(CSV) | 通过 GitHub 项目或官方页面获取,可用于批量下载视频/音频 |
| Papers with Code 页面 | https://paperswithcode.com/dataset/avspeech ,提供数据集概览、引用信息及相关基准模型 |
| 论文 PDF(arXiv) | https://arxiv.org/pdf/1804.03619.pdf ,介绍数据集构建细节 |
| 下载脚本(GitHub) | https://github.com/naba89/AVSpeechDownloader ,提供批量下载 YouTube 片段的实用脚本 |
使用建议
- 下载方式:先获取官方提供的 CSV 索引文件(包含 YouTube 视频 ID、起止时间),再使用官方或社区提供的下载脚本批量抓取对应的 MP4/MP3 文件。
- 数据划分:常见做法是按说话人或语言划分训练/验证/测试集,以避免同一说话人在不同集合中出现导致信息泄漏。
- 配套标签:如果需要口型关键点或面部姿态,可结合 OpenPose、MediaPipe 等工具对视频帧进行后处理。
- 版权注意:数据来源于公开的 YouTube 视频,使用时请遵守 YouTube 的使用条款和相应的许可证(多数为 CC‑BY‑NC‑SA),并在论文或项目中注明数据来源和引用文献。
简要结论
AVSpeech 是目前公开的、规模最大的音频‑视觉单说话人语音数据集之一,提供了数千小时、数万段、跨语言、跨姿态的干净语音视频,对推动语音分离、口型同步以及多模态语音识别等前沿研究具有重要价值。通过官方网页和 GitHub 脚本即可获取并在自己的实验中使用。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!