| 项目 | 说明 | 主要来源 |
|---|---|---|
| 全称 | Chest X‑ray Expert(CheXpert) | |
| 规模 | 224 316 张胸部 X‑光片,覆盖 65 240 名患者 | |
| 视图 | 正位(AP/PA)和侧位(Lateral)两种视图 | |
| 标签数量 | 14 项观察(包括 12 种疾病 + “No Finding” + “Enlarged Cardiomediastinum”),每项标记为 阳性、阴性或不确定 | |
| 标注方式 | 训练集标签由基于规则的 NLP 自动标注器 从放射学报告中抽取;验证集和测试集由 3–5 位资深放射科医师手工标注,提供高质量金标准 | |
| 数据来源 | 斯坦福大学医院(Stanford Hospital)PAC S 系统,时间跨度 2002‑10 至 2017‑07 | |
| 数据划分 | 训练集(自动标签)≈ 224 316 张;验证集(200 张)和 测试集(200 张)均为放射科医师标注 | |
| 特色 | - 包含 不确定性标签,可用于研究如何处理噪声/模糊标注 - 提供 官方评估平台(Codalab)和 基准模型(DenseNet‑121) - 开源 CheXpert‑labeler 用于从报告中自动提取标签 |
|
| 主要用途 | - 多标签胸片疾病分类 - 生成热图(Grad‑CAM)解释模型 - 迁移学习、模型压缩、跨机构泛化等研究 |
|
| 公开获取方式 | 需在 Stanford ML Group 官方页面填写申请表后下载(需同意数据使用协议) |
关键链接
- 官方项目页面 & 下载入口
https://stanfordmlgroup.github.io/chexpert/ - GitHub 代码仓库(数据标签器、基准模型)
https://github.com/stanfordmlgroup/chexpert-labeler - 原始论文(arXiv)
“CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison”
https://arxiv.org/abs/1901.07031 - 数据集文档(Datasheet)
https://arxiv.org/abs/2105.03020 - CheXpert Plus(增强版)(包含放射报告、患者人口统计、DICOM 格式等)
https://stanfordaimi.azurewebsites.net/datasets/5158c524-d3ab-4e02-96e9-6ee9efc110a1
简要技术细节
- 图像分辨率:前视图约 388 × 320 像素,侧视图约 320 × 320 像素(可在训练前自行 resize)
- 标签抽取流程:使用 NegBio + 规则库 → 关键字匹配 → 统一映射为 14 项观察的三态标签
- 不确定性处理:常见策略包括 (1) 将不确定视为负例、(2) 将不确定视为正例、(3) 使用概率混合或专门的 loss 加权方式
- 基准模型:DenseNet‑121 在官方评估中对多数疾病的 AUC 超过 0.90(部分疾病略低),并提供了预训练权重供直接 fine‑tune 使用
使用建议
- 获取数据:先在官方页面提交申请,下载后解压得到
train,valid,test三个子目录。 - 标签处理:若需要自行生成标签,可直接使用
chexpert-labeler(Python 包)对原始放射报告进行处理。 - 模型训练:推荐使用多标签交叉熵(BCE)或带不确定性权重的 loss;可参考官方基准代码中的
train.py。 - 评估:使用官方提供的验证/测试集金标准,计算每个疾病的 AUC;若在 Codalab 平台提交模型,可获得统一排名。
CheXpert 已成为医学影像领域最常用的公开胸片数据集之一,广泛用于算法研发、跨机构迁移学习以及不确定性建模等前沿研究。通过上述链接即可获取完整数据、文档和工具,快速开展相关实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!