什么是医学图像数据集,常用医学图像数据集介绍

AI解读 8小时前 硕雀
3 0

一、医学图像数据集是什么

医学图像数据集是指在医学研究、临床诊疗或人工智能AI)开发中公开或受控发布的、包含大量医学影像(如 X‑光、CT、MRI、超声、病理切片等)以及对应的标注信息(病灶位置、分割掩码、诊断标签、临床报告等)的结构化集合。它们的主要作用包括:

功能 说明
算法研发 图像分类、检测、分割、检索、报告生成等任务提供训练、验证、测试样本。
标准化评估 通过统一的评估协议(如 AUC、Dice、IoU)对不同模型进行公平比较。
跨机构共享 促进多中心、跨地区的数据共享,提升模型的泛化能力
科研复现 公开数据、代码和评估指标,保证科研成果可重复。

从技术角度看,医学图像数据集通常包含以下要素:

  1. 影像本体:原始 DICOM、NIfTI、PNG/JPG 等格式的医学图像。
  2. 标注信息
    • 分类标签(如疾病/正常)
    • 分割掩码(像素级病灶标注)
    • 检测框Bounding Box
    • 结构化报告(放射科报告、自然语言描述)
  3. 元数据:患者年龄、性别、扫描参数、机构来源等。
  4. 使用协议:数据使用许可(CC‑BY、CC‑0、MIT 等)和伦理合规要求。

二、常用医学图像数据集(按影像模态划分)

下面列出在 2024‑2025 年仍被广泛引用的代表性数据集,提供简要描述、规模、主要任务以及官方下载链接。所有链接均来源于公开渠道或官方平台,使用时请遵守相应的使用协议。

序号 数据集 影像模态 规模(约) 主要任务 下载/主页链接
1 NIH Chest X‑ray (ChestX‑ray14) X‑光(前位) 112 120 张胸片,30 000+ 患者 多标签疾病分类(14 类) https://nihcc.app.box.com

/v/ChestXray-NIHCC

2 CheXpert(斯坦福) X‑光(前位/侧位) 224 316 张胸片,65 240 名患者 疾病分类、标签不确定性处理 https://stanfordmlgroup.github.io

/competitions/chexpert/

3 MIMIC‑CXR(MIT + Harvard) X‑光(前位/侧位) 377 110 张 DICOM,约 65 000 名患者 多标签分类、报告生成 https://physionet.org/

content/mimic-cxr/

4 LUNA16 低剂量胸部 CT 888 例 CT 扫描(约 1 000 000 切片) 肺结节检测、恶性预测 https://luna16.grand-challenge.org/
5 LIDC‑IDRI 胸部 CT 1 018 例 CT(约 101 000 切片) 结节标注、分割、恶性评估 https://wiki.cancerimagingarchive.net/

display/Public/LIDC‑IDRI

6 BraTS(脑肿瘤分割挑战) 多模态 MRI(T1、T1‑c、T2、FLAIR) 2024‑2025 赛季累计约 4 000 例(训练/验证/测试) 脑肿瘤(胶质瘤)分割、亚区分割 https://braintumorsegmentation.org/
7 ISIC(International Skin Imaging Collaboration) 皮肤镜(彩色) 23 000+ 张(ISIC‑2024 约 81 722 张) 病变分类、分割(黑色素瘤) https://challenge2024.isic-archive.com/
8 ADNI(Alzheimer’s Disease Neuroimaging Initiative) MRI、PET、临床/基因 超过 2 000 名受试者,MRI 超 1 000 例 阿尔茨海默病进展预测、结构/功能分析 https://adni.loni.usc.edu/
9 OASIS(Open Access Series of Imaging Studies) 脑部 MRI(横断面、纵向) 416 名受试者(横断面)+ 150 + 纵向数据 老年痴呆、结构变化分析 http://www.oasis‑brains.org/
10 DeepLesion(NIH CC) CT(全身) 32 120 张标注切片,10 000+ 病例 通用病灶检测、跨器官分割 https://nihcc.box.com/v/DeepLesion
11 MedSegBench(多模态分割基准) 超声、MRI、X‑光、显微镜等 35 子集 超 60 000 张图像 统一评估分割模型(PrecisionRecall、F1、IoU) https://zenodo.org/records/13381081
12 TCIA(The Cancer Imaging Archive) 多模态(CT、MRI、PET、病理) 超 30 TB,覆盖 30+ 癌种 肿瘤影像研究、放疗计划 https://www.cancerimagingarchive.net/

备注

  • 部分数据集(如 MIMIC‑CXR、ADNI、DeepLesion)需要先完成用户注册并签署数据使用协议(DUA),方可下载。
  • 大多数数据集采用 CC‑BYCC‑0 或 Creative Commons Attribution 4.0 International 许可,科研使用时请注明原始出处(如本文所列的证据 ID)。

三、选取数据集的建议

场景 推荐数据集 关键理由
肺部疾病(结核、肺炎、肺结节) NIH Chest X‑ray、CheXpert、MIMIC‑CXR、LUNA16、LIDC‑IDRI 覆盖 X‑光与 CT,标签体系完整,已有大量基准模型。
脑部疾病(阿尔茨海默、脑肿瘤) ADNI、OASIS、BraTS MRI 为主,提供结构、功能、分割等多任务标注。
皮肤病变 ISIC、HAM10000(子集) 高质量彩色皮肤镜图像,标注细粒度,适合分类与分割。
通用多模态分割 MedSegBench、TCIA 包含超声、X‑光、显微镜等多种模态,便于跨任务模型评估
全身通用病灶检测 DeepLesion 大规模 CT 病灶标注,覆盖肺、肝、肾、骨等多器官。

四、使用医学图像数据集的注意事项

  1. 伦理合规:所有涉及患者信息的原始数据均已去标识化(HIPAA、GDPR 等),但仍需遵守数据提供方的使用协议。
  2. 数据预处理:不同数据集的图像尺寸、像素间距、坐标系可能不统一,建议使用统一的预处理流水线(如 torchioMONAI)进行归一化重采样
  3. 标注一致性:同一疾病在不同数据集的标签体系可能略有差异(如 CheXpert 的“不确定”标签),训练时需统一映射或采用多任务学习
  4. 基准划分:大多数公开数据集已经提供官方的训练/验证/测试划分,尽量使用官方划分以保证结果可比性。

五、结语

医学图像数据集是推动医学影像 AI 发展的基石。通过合理选取、规范使用并结合最新的模型框架(如 U‑Net、Transformer、混合编码器),可以在疾病筛查、诊断辅助、治疗规划等方面取得实质性进展。希望上述概览能帮助你快速定位所需资源,开展高质量的医学影像研究。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!