RAVDESS(Ryerson Audio‑Visual Database of Emotional Speech and Song)概览
1. 数据集基本信息
- 全称:Ryerson Audio‑Visual Database of Emotional Speech and Song(RAVDESS)
- 创建机构:加拿大瑞尔森大学(Ryerson University)
- 数据规模:共 7 356 条音视频文件,约 24.8 GB
- 模态:提供 语音+视频(面部+声音)、仅语音、仅视频 三种格式
2. 参与者与内容
| 项目 | 说明 |
|---|---|
| 演员数量 | 24 名专业演员(12 男 + 12 女) |
| 语言/口音 | 中性北美英语口音 |
| 语料类型 | 演讲(两句词句)和 歌曲(两段旋律) |
| 情绪类别 | 平静、快乐、悲伤、愤怒、恐惧、惊恐惧、惊讶、厌恶(共 7 种)+ 中性 |
| 强度等级 | 每种情绪有 两种强度(正常、强烈) |
| 文件组织 | 每位演员对每句/每首歌分别录制,形成 7356 条标注完整的样本 |
3. 标注与验证
- 每条记录均由 10 位北美受试者 进行情绪、强度、真实性评分,确保高情绪有效性和重测信度。
- 数据集采用 CC BY‑NC‑SA 4.0(非商业)许可,免费供学术研究使用。
4. 常见研究与应用场景
- 语音情感识别(SER):利用音频特征(MFCC、梅尔频谱等)训练分类模型。
- 多模态情感识别:结合面部表情与声学特征进行跨模态情感分析。
- 神经科学与心理学:作为标准刺激材料,研究大脑对不同情绪的响应。
- 人机交互:用于构建能够感知用户情绪的智能助理、社交机器人等。
- 音乐情感研究:歌曲情绪的独特表达为音乐情感计算提供素材。
5. 下载与获取方式
| 渠道 | 链接说明 |
|---|---|
| Zenodo(官方存储) | 免费下载,地址 https://doi.org/10.5281/zenodo.1188976 |
| Kaggle | 公开数据页,可直接下载压缩包 |
| Deep Lake(Python 一行代码加载) | import deeplake; ds = deeplake.load("hub://activeloop/ravdess-emotional-speech-audio") |
| GitHub / 其他镜像 | 多个开源仓库提供快速下载脚本或镜像(如 awesome-human-video-generation-corpus 中列出) |
6. 使用建议
- 数据预处理:建议先将音频统一采样率(16 kHz)并提取 MFCC、Chroma、Spectral Contrast 等特征;视频可使用 OpenFace 提取面部关键点。
- 划分方式:常用 80% 训练、10% 验证、10% 测试的划分;也可按演员交叉验证(Leave‑One‑Speaker‑Out)评估模型的泛化能力。
- 多模态融合:可采用早期特征拼接或后期决策融合;Transformer‑based 多模态模型在近期实验中表现突出。
简要结论
RAVDESS 是目前最完整、验证最严格的英语情感语音‑视频数据库之一,涵盖 24 位专业演员、7 种情绪、两种强度以及演讲与歌曲两大模态,提供 7356 条高质量标注样本。其开放的 CC BY‑NC‑SA 许可和多渠道下载方式,使其成为情感计算、跨模态学习、神经科学实验以及实际人机交互系统研发的首选基准数据集。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!