什么是CheXpert数据集

AI解读 20小时前 硕雀
4 0

CheXpert 数据集概览

项目 说明 主要来源
全称 Chest X‑ray Expert(CheXpert)
规模 224 316 张胸部 X‑光片,覆盖 65 240 名患者
视图 正位(AP/PA)和侧位(Lateral)两种视图
标签数量 14 项观察(包括 12 种疾病 + “No Finding” + “Enlarged Cardiomediastinum”),每项标记为 阳性、阴性或不确定
标注方式 训练集标签由基于规则的 NLP 自动标注器 从放射学报告中抽取;验证集测试集由 3–5 位资深放射科医师手工标注,提供高质量金标准
数据来源 斯坦福大学医院(Stanford Hospital)PAC S 系统,时间跨度 2002‑10 至 2017‑07
数据划分 训练集(自动标签)≈ 224 316 张;验证集(200 张)和 测试集(200 张)均为放射科医师标注
特色 - 包含 不确定性标签,可用于研究如何处理噪声/模糊标注
- 提供 官方评估平台(Codalab)和 基准模型DenseNet‑121)
- 开源 CheXpert‑labeler 用于从报告中自动提取标签
主要用途 - 多标签胸片疾病分类
- 生成热图(Grad‑CAM)解释模型
- 迁移学习模型压缩、跨机构泛化等研究
公开获取方式 需在 Stanford ML Group 官方页面填写申请表后下载(需同意数据使用协议)

关键链接

  1. 官方项目页面 & 下载入口
    https://stanfordmlgroup.github.io/chexpert/
  2. GitHub 代码仓库(数据标签器、基准模型)
    https://github.com/stanfordmlgroup/chexpert-labeler
  3. 原始论文(arXiv)
    “CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison”
    https://arxiv.org/abs/1901.07031
  4. 数据集文档(Datasheet)
    https://arxiv.org/abs/2105.03020
  5. CheXpert Plus(增强版)‍(包含放射报告、患者人口统计、DICOM 格式等)
    https://stanfordaimi.azurewebsites.net/datasets/5158c524-d3ab-4e02-96e9-6ee9efc110a1

简要技术细节

  • 图像分辨率:前视图约 388 × 320 像素,侧视图约 320 × 320 像素(可在训练前自行 resize)
  • 标签抽取流程:使用 NegBio + 规则库 → 关键字匹配 → 统一映射为 14 项观察的三态标签
  • 不确定性处理:常见策略包括 (1) 将不确定视为负例、(2) 将不确定视为正例、(3) 使用概率混合或专门的 loss 加权方式
  • 基准模型:DenseNet‑121 在官方评估中对多数疾病的 AUC 超过 0.90(部分疾病略低),并提供了预训练权重供直接 fine‑tune 使用

使用建议

  1. 获取数据:先在官方页面提交申请,下载后解压得到 trainvalidtest 三个子目录。
  2. 标签处理:若需要自行生成标签,可直接使用 chexpert-labeler(Python 包)对原始放射报告进行处理。
  3. 模型训练:推荐使用多标签交叉熵(BCE)或带不确定性权重的 loss;可参考官方基准代码中的 train.py
  4. 评估:使用官方提供的验证/测试集金标准,计算每个疾病的 AUC;若在 Codalab 平台提交模型,可获得统一排名。

CheXpert 已成为医学影像领域最常用的公开胸片数据集之一,广泛用于算法研发、跨机构迁移学习以及不确定性建模等前沿研究。通过上述链接即可获取完整数据、文档和工具,快速开展相关实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!