NIH Chest X‑ray(ChestX‑ray14)数据集概述
| 项目 | 内容 | 参考来源 |
|---|---|---|
| 发布机构 | 美国国家卫生研究院(National Institutes of Health, NIH)临床中心 | |
| 首次公开时间 | 2017 年 10 月(通过 Kaggle 与 NIH Box 公开) | |
| 数据规模 | 112 120 张前位(PA)胸部 X‑ray 图像,来源于 30 805 名唯一患者(部分文献给出 32 717 名患者的划分) | |
| 图像分辨率 | 1024 × 1024 像素,8 位灰度 PNG 格式 | |
| 标签数量 | 14 种常见胸腔疾病(+ “无发现” 类),标签通过自然语言处理(NLP)从对应的放射学报告中抽取 | |
| 疾病列表 | 1. Atelectasis(肺不张) 2. Cardiomegaly(心脏肥大) 3. Effusion(胸腔积液) 4. Infiltration(浸润) 5. Mass(肿块) 6. Nodule(结节) 7. Pneumonia(肺炎) 8. Pneumothorax(气胸) 9. Consolidation(实变) 10. Edema(水肿) 11. Emphysema(肺气肿) 12. Fibrosis(纤维化) 13. Pleural Thickening(胸膜增厚) 14. Hernia(疝气) | |
| 标注方式 | 基于放射学报告的关键词抽取,标注准确率约 90%(但后续研究指出存在一定噪声) | |
| 数据分割 | 常用的患者级划分:训练集 86 524 张,测试集 25 596 张,确保同一患者的图像不跨集出现 | |
| 主要用途 | - 多标签疾病分类 - 病灶定位(弱监督) - 医学图像生成、风格迁移 - 联邦学习与隐私保护研究 |
|
| 代表性研究 | - CheXNet(DenseNet‑121)在该数据集上实现肺炎检测接近放射科医生水平 - 多种 CNN、Transformer、Mamba 等模型的对比实验(如《A Comparative Analysis of the Mamba, Transformer, and CNN Architectures…》) |
|
| 下载渠道 | 1. Kaggle:<https://www.kaggle.com/datasets/nih-chest-xrays >(需登录 Kaggle) 2. NIH Box:<https://nihcc.app.box.com/v/ChestXray-NIHCC >(官方原始链接) 3. HuggingFace 数据集:<https://huggingface.co/datasets/roy-jarjoura/ChestXrays >(提供 README 与直接下载方式) |
|
| 许可证 | 研究用途免费(Non‑Commercial),需遵守 NIH 数据使用协议,禁止用于商业产品未经授权 | |
| 常见挑战 | - 标签噪声与不完整(部分疾病标注为 “不确定”) - 类别不平衡(如 Hernia 仅 0.2%) - 多标签共现导致模型学习难度提升 |
简要历史与背景
NIH 在 2017 年将原先的 ChestX‑ray8(约 108 000 张)扩展为 ChestX‑ray14,在原有 8 种疾病标签基础上新增了 6 种(水肿、肺气肿、纤维化、胸膜增厚、疝气等),并将患者数提升至 30 805 名,图像总量超过 100 000 张,成为当时公开的最大胸部 X‑ray 数据集。该数据集的发布旨在为深度学习在医学影像诊断领域提供大规模、标准化的训练与评估基准,推动计算机辅助诊断(CAD)技术的研发。
使用建议
- 数据预处理:建议统一将图像归一化至 224 × 224(或 256 × 256)并进行随机水平翻转、亮度/对比度调节,以缓解标签噪声的影响。
- 患者级划分:采用官方提供的 patient‑wise split,防止同一患者的图像出现在训练与测试集之间,确保评估的公平性。
- 处理标签不平衡:可使用加权交叉熵、Focal Loss 或采样策略(如 oversampling 少数类)来提升稀有疾病的检测性能。
- 多标签学习:采用二元交叉熵(binary cross‑entropy)或基于标签相关性的图结构模型(如 GCN‑augmented CNN)可更好捕捉疾病共现关系。
以上信息均来源于公开的学术文献、官方数据说明以及社区整理的技术博客,已通过多轮搜索交叉验证,确保内容的时效性与准确性。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!