什么是NIH Chest X‑ray(ChestX‑ray14)数据集

NIH Chest X‑ray(ChestX‑ray14)数据集概述

项目 内容 参考来源
发布机构 美国国家卫生研究院(National Institutes of Health, NIH)临床中心
首次公开时间 2017 年 10 月(通过 Kaggle 与 NIH Box 公开)
数据规模 112 120 张前位(PA)胸部 X‑ray 图像,来源于 30 805 名唯一患者(部分文献给出 32 717 名患者的划分)
图像分辨率 1024 × 1024 像素,8 位灰度 PNG 格式
标签数量 14 种常见胸腔疾病(+ “无发现” 类),标签通过自然语言处理NLP)从对应的放射学报告中抽取
疾病列表 1. Atelectasis(肺不张) 2. Cardiomegaly(心脏肥大) 3. Effusion(胸腔积液) 4. Infiltration(浸润) 5. Mass(肿块) 6. Nodule(结节) 7. Pneumonia(肺炎) 8. Pneumothorax(气胸) 9. Consolidation(实变) 10. Edema(水肿) 11. Emphysema(肺气肿) 12. Fibrosis(纤维化) 13. Pleural Thickening(胸膜增厚) 14. Hernia(疝气)
标注方式 基于放射学报告的关键词抽取,标注准确率约 90%(但后续研究指出存在一定噪声)
数据分割 常用的患者级划分:训练集 86 524 张,测试集 25 596 张,确保同一患者的图像不跨集出现
主要用途 - 多标签疾病分类
- 病灶定位(弱监督)
- 医学图像生成、风格迁移
- 联邦学习与隐私保护研究
代表性研究 - CheXNet(DenseNet‑121)在该数据集上实现肺炎检测接近放射科医生水平
- 多种 CNNTransformer、Mamba 等模型的对比实验(如《A Comparative Analysis of the Mamba, Transformer, and CNN Architectures…》)
下载渠道 1. Kaggle:<https://www.kaggle.com/datasets/nih-chest-xrays >(需登录 Kaggle)
2. NIH Box:<https://nihcc.app.box.com/v/ChestXray-NIHCC >(官方原始链接)
3. HuggingFace 数据集:<https://huggingface.co/datasets/roy-jarjoura/ChestXrays >(提供 README 与直接下载方式)
许可证 研究用途免费(Non‑Commercial),需遵守 NIH 数据使用协议,禁止用于商业产品未经授权
常见挑战 - 标签噪声与不完整(部分疾病标注为 “不确定”)
- 类别不平衡(如 Hernia 仅 0.2%)
- 多标签共现导致模型学习难度提升

简要历史与背景

NIH 在 2017 年将原先的 ChestX‑ray8(约 108 000 张)扩展为 ChestX‑ray14,在原有 8 种疾病标签基础上新增了 6 种(水肿、肺气肿、纤维化、胸膜增厚、疝气等),并将患者数提升至 30 805 名,图像总量超过 100 000 张,成为当时公开的最大胸部 X‑ray 数据集。该数据集的发布旨在为深度学习在医学影像诊断领域提供大规模、标准化的训练与评估基准,推动计算机辅助诊断(CAD)技术的研发。

使用建议

  1. 数据预处理:建议统一将图像归一化至 224 × 224(或 256 × 256)并进行随机水平翻转、亮度/对比度调节,以缓解标签噪声的影响。
  2. 患者级划分:采用官方提供的 patient‑wise split,防止同一患者的图像出现在训练与测试集之间,确保评估的公平性。
  3. 处理标签不平衡:可使用加权交叉熵Focal Loss 或采样策略(如 oversampling 少数类)来提升稀有疾病的检测性能。
  4. 多标签学习:采用二元交叉熵(binary cross‑entropy)或基于标签相关性的图结构模型(如 GCN‑augmented CNN)可更好捕捉疾病共现关系。

以上信息均来源于公开的学术文献、官方数据说明以及社区整理的技术博客,已通过多轮搜索交叉验证,确保内容的时效性与准确性。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!