什么是RAVDESS数据集

AI解读 4个月前硕雀

141 0 0

RAVDESS（Ryerson Audio‑Visual Database of Emotional Speech and Song）概览

1. 数据集基本信息

全称：Ryerson Audio‑Visual Database of Emotional Speech and Song（RAVDESS）
创建机构：加拿大瑞尔森大学（Ryerson University）
数据规模：共 7 356 条音视频文件，约 24.8 GB
模态：提供 语音+视频（面部+声音）、仅语音、仅视频 三种格式

2. 参与者与内容

项目	说明
演员数量	24 名专业演员（12 男 + 12 女）
语言/口音	中性北美英语口音
语料类型	演讲（两句词句）和歌曲（两段旋律）
情绪类别	平静、快乐、悲伤、愤怒、恐惧、惊恐惧、惊讶、厌恶（共 7 种）+ 中性
强度等级	每种情绪有两种强度（正常、强烈）
文件组织	每位演员对每句/每首歌分别录制，形成 7356 条标注完整的样本

3. 标注与验证

每条记录均由 10 位北美受试者 进行情绪、强度、真实性评分，确保高情绪有效性和重测信度。
数据集采用 CC BY‑NC‑SA 4.0（非商业）许可，免费供学术研究使用。

4. 常见研究与应用场景

语音情感识别（SER）‍：利用音频特征（MFCC、梅尔频谱等）训练分类模型。
多模态情感识别：结合面部表情与声学特征进行跨模态情感分析。
神经科学与心理学：作为标准刺激材料，研究大脑对不同情绪的响应。
人机交互：用于构建能够感知用户情绪的智能助理、社交机器人等。
音乐情感研究：歌曲情绪的独特表达为音乐情感计算提供素材。

5. 下载与获取方式

渠道	链接说明
Zenodo（官方存储）‍	免费下载，地址 `https://doi.org/10.5281/zenodo.1188976`
Kaggle	公开数据页，可直接下载压缩包
Deep Lake（Python 一行代码加载）‍	`import deeplake; ds = deeplake.load("hub://activeloop/ravdess-emotional-speech-audio")`
GitHub / 其他镜像	多个开源仓库提供快速下载脚本或镜像（如 `awesome-human-video-generation-corpus` 中列出）

6. 使用建议

数据预处理：建议先将音频统一采样率（16 kHz）并提取 MFCC、Chroma、Spectral Contrast 等特征；视频可使用 OpenFace 提取面部关键点。
划分方式：常用 80% 训练、10% 验证、10% 测试的划分；也可按演员交叉验证（Leave‑One‑Speaker‑Out）评估模型的泛化能力。
多模态融合：可采用早期特征拼接或后期决策融合；Transformer‑based 多模态模型在近期实验中表现突出。

简要结论
RAVDESS 是目前最完整、验证最严格的英语情感语音‑视频数据库之一，涵盖 24 位专业演员、7 种情绪、两种强度以及演讲与歌曲两大模态，提供 7356 条高质量标注样本。其开放的 CC BY‑NC‑SA 许可和多渠道下载方式，使其成为情感计算、跨模态学习、神经科学实验以及实际人机交互系统研发的首选基准数据集。

RAVDESS RAVDESS数据集 Ryerson Audio‑Visual Database of Emotional Speech and Song

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！