什么是RAVDESS数据集

AI解读 2小时前 硕雀
4 0

RAVDESSRyerson Audio‑Visual Database of Emotional Speech and Song)概览

1. 数据集基本信息

  • 全称:Ryerson Audio‑Visual Database of Emotional Speech and Song(RAVDESS)
  • 创建机构:加拿大瑞尔森大学(Ryerson University)
  • 数据规模:共 7 356 条音视频文件,约 24.8 GB
  • 模态:提供 语音+视频(面部+声音)、仅语音仅视频 三种格式

2. 参与者与内容

项目 说明
演员数量 24 名专业演员(12 男 + 12 女)
语言/口音 中性北美英语口音
语料类型 演讲(两句词句)和 歌曲(两段旋律)
情绪类别 平静、快乐、悲伤、愤怒、恐惧、惊恐惧、惊讶、厌恶(共 7 种)+ 中性
强度等级 每种情绪有 两种强度(正常、强烈)
文件组织 每位演员对每句/每首歌分别录制,形成 7356 条标注完整的样本

3. 标注与验证

  • 每条记录均由 10 位北美受试者 进行情绪、强度、真实性评分,确保高情绪有效性和重测信度。
  • 数据集采用 CC BY‑NC‑SA 4.0(非商业)许可,免费供学术研究使用。

4. 常见研究与应用场景

  • 语音情感识别(SER)‍:利用音频特征(MFCC、梅尔频谱等)训练分类模型。
  • 多模态情感识别:结合面部表情与声学特征进行跨模态情感分析
  • 神经科学与心理学:作为标准刺激材料,研究大脑对不同情绪的响应。
  • 人机交互:用于构建能够感知用户情绪的智能助理、社交机器人等。
  • 音乐情感研究:歌曲情绪的独特表达为音乐情感计算提供素材。

5. 下载与获取方式

渠道 链接说明
Zenodo(官方存储) 免费下载,地址 https://doi.org/10.5281/zenodo.1188976
Kaggle 公开数据页,可直接下载压缩包
Deep Lake(Python 一行代码加载) import deeplake; ds = deeplake.load("hub://activeloop/ravdess-emotional-speech-audio")
GitHub / 其他镜像 多个开源仓库提供快速下载脚本或镜像(如 awesome-human-video-generation-corpus 中列出)

6. 使用建议

  • 数据预处理:建议先将音频统一采样率(16 kHz)并提取 MFCC、Chroma、Spectral Contrast 等特征;视频可使用 OpenFace 提取面部关键点。
  • 划分方式:常用 80% 训练、10% 验证、10% 测试的划分;也可按演员交叉验证(Leave‑One‑Speaker‑Out)评估模型的泛化能力
  • 多模态融合:可采用早期特征拼接或后期决策融合;Transformer‑based 多模态模型在近期实验中表现突出。

简要结论
RAVDESS 是目前最完整、验证最严格的英语情感语音‑视频数据库之一,涵盖 24 位专业演员、7 种情绪、两种强度以及演讲与歌曲两大模态,提供 7356 条高质量标注样本。其开放的 CC BY‑NC‑SA 许可和多渠道下载方式,使其成为情感计算、跨模态学习、神经科学实验以及实际人机交互系统研发的首选基准数据集。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!