一、医学图像数据集是什么
医学图像数据集是指在医学研究、临床诊疗或人工智能(AI)开发中公开或受控发布的、包含大量医学影像(如 X‑光、CT、MRI、超声、病理切片等)以及对应的标注信息(病灶位置、分割掩码、诊断标签、临床报告等)的结构化集合。它们的主要作用包括:
| 功能 | 说明 | 
|---|---|
| 算法研发 | 为图像分类、检测、分割、检索、报告生成等任务提供训练、验证、测试样本。 | 
| 标准化评估 | 通过统一的评估协议(如 AUC、Dice、IoU)对不同模型进行公平比较。 | 
| 跨机构共享 | 促进多中心、跨地区的数据共享,提升模型的泛化能力。 | 
| 科研复现 | 公开数据、代码和评估指标,保证科研成果可重复。 | 
从技术角度看,医学图像数据集通常包含以下要素:
- 影像本体:原始 DICOM、NIfTI、PNG/JPG 等格式的医学图像。
- 标注信息:
- 分类标签(如疾病/正常)
- 分割掩码(像素级病灶标注)
- 检测框(Bounding Box)
- 结构化报告(放射科报告、自然语言描述)
 
- 元数据:患者年龄、性别、扫描参数、机构来源等。
- 使用协议:数据使用许可(CC‑BY、CC‑0、MIT 等)和伦理合规要求。
二、常用医学图像数据集(按影像模态划分)
下面列出在 2024‑2025 年仍被广泛引用的代表性数据集,提供简要描述、规模、主要任务以及官方下载链接。所有链接均来源于公开渠道或官方平台,使用时请遵守相应的使用协议。
| 序号 | 数据集 | 影像模态 | 规模(约) | 主要任务 | 下载/主页链接 | 
|---|---|---|---|---|---|
| 1 | NIH Chest X‑ray (ChestX‑ray14) | X‑光(前位) | 112 120 张胸片,30 000+ 患者 | 多标签疾病分类(14 类) | https://nihcc.app.box.com | 
| 2 | CheXpert(斯坦福) | X‑光(前位/侧位) | 224 316 张胸片,65 240 名患者 | 疾病分类、标签不确定性处理 | https://stanfordmlgroup.github.io | 
| 3 | MIMIC‑CXR(MIT + Harvard) | X‑光(前位/侧位) | 377 110 张 DICOM,约 65 000 名患者 | 多标签分类、报告生成 | https://physionet.org/ | 
| 4 | LUNA16 | 低剂量胸部 CT | 888 例 CT 扫描(约 1 000 000 切片) | 肺结节检测、恶性预测 | https://luna16.grand-challenge.org/ | 
| 5 | LIDC‑IDRI | 胸部 CT | 1 018 例 CT(约 101 000 切片) | 结节标注、分割、恶性评估 | https://wiki.cancerimagingarchive.net/ | 
| 6 | BraTS(脑肿瘤分割挑战) | 多模态 MRI(T1、T1‑c、T2、FLAIR) | 2024‑2025 赛季累计约 4 000 例(训练/验证/测试) | 脑肿瘤(胶质瘤)分割、亚区分割 | https://braintumorsegmentation.org/ | 
| 7 | ISIC(International Skin Imaging Collaboration) | 皮肤镜(彩色) | 23 000+ 张(ISIC‑2024 约 81 722 张) | 病变分类、分割(黑色素瘤) | https://challenge2024.isic-archive.com/ | 
| 8 | ADNI(Alzheimer’s Disease Neuroimaging Initiative) | MRI、PET、临床/基因 | 超过 2 000 名受试者,MRI 超 1 000 例 | 阿尔茨海默病进展预测、结构/功能分析 | https://adni.loni.usc.edu/ | 
| 9 | OASIS(Open Access Series of Imaging Studies) | 脑部 MRI(横断面、纵向) | 416 名受试者(横断面)+ 150 + 纵向数据 | 老年痴呆、结构变化分析 | http://www.oasis‑brains.org/ | 
| 10 | DeepLesion(NIH CC) | CT(全身) | 32 120 张标注切片,10 000+ 病例 | 通用病灶检测、跨器官分割 | https://nihcc.box.com/v/DeepLesion | 
| 11 | MedSegBench(多模态分割基准) | 超声、MRI、X‑光、显微镜等 35 子集 | 超 60 000 张图像 | 统一评估分割模型(Precision、Recall、F1、IoU) | https://zenodo.org/records/13381081 | 
| 12 | TCIA(The Cancer Imaging Archive) | 多模态(CT、MRI、PET、病理) | 超 30 TB,覆盖 30+ 癌种 | 肿瘤影像研究、放疗计划 | https://www.cancerimagingarchive.net/ | 
备注
- 部分数据集(如 MIMIC‑CXR、ADNI、DeepLesion)需要先完成用户注册并签署数据使用协议(DUA),方可下载。
- 大多数数据集采用 CC‑BY、CC‑0 或 Creative Commons Attribution 4.0 International 许可,科研使用时请注明原始出处(如本文所列的证据 ID)。
三、选取数据集的建议
| 场景 | 推荐数据集 | 关键理由 | 
|---|---|---|
| 肺部疾病(结核、肺炎、肺结节) | NIH Chest X‑ray、CheXpert、MIMIC‑CXR、LUNA16、LIDC‑IDRI | 覆盖 X‑光与 CT,标签体系完整,已有大量基准模型。 | 
| 脑部疾病(阿尔茨海默、脑肿瘤) | ADNI、OASIS、BraTS | MRI 为主,提供结构、功能、分割等多任务标注。 | 
| 皮肤病变 | ISIC、HAM10000(子集) | 高质量彩色皮肤镜图像,标注细粒度,适合分类与分割。 | 
| 通用多模态分割 | MedSegBench、TCIA | 包含超声、X‑光、显微镜等多种模态,便于跨任务模型评估。 | 
| 全身通用病灶检测 | DeepLesion | 大规模 CT 病灶标注,覆盖肺、肝、肾、骨等多器官。 | 
四、使用医学图像数据集的注意事项
- 伦理合规:所有涉及患者信息的原始数据均已去标识化(HIPAA、GDPR 等),但仍需遵守数据提供方的使用协议。
- 数据预处理:不同数据集的图像尺寸、像素间距、坐标系可能不统一,建议使用统一的预处理流水线(如 torchio、MONAI)进行归一化、重采样。
- 标注一致性:同一疾病在不同数据集的标签体系可能略有差异(如 CheXpert 的“不确定”标签),训练时需统一映射或采用多任务学习。
- 基准划分:大多数公开数据集已经提供官方的训练/验证/测试划分,尽量使用官方划分以保证结果可比性。
五、结语
医学图像数据集是推动医学影像 AI 发展的基石。通过合理选取、规范使用并结合最新的模型框架(如 U‑Net、Transformer、混合编码器),可以在疾病筛查、诊断辅助、治疗规划等方面取得实质性进展。希望上述概览能帮助你快速定位所需资源,开展高质量的医学影像研究。
 
    	            
    	            声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!
    	    	
					
    	     
						     
                         
						    