什么是LIDC‑IDRI数据集

AI解读 16小时前 硕雀
3 0

LIDC‑IDRI(Lung Image Database Consortium & Image Database Resource Initiative)概述


1. 背景与组织

  • LIDC‑IDRI 是由美国国家癌症研究所(NCI)牵头,联合 7 家学术中心和 8 家医学影像公司共同发起的肺部影像数据库项目,旨在为肺结节的早期筛查与计算机辅助诊断(CAD)提供高质量的公开数据资源。

2. 数据规模与内容

项目 说明
病例数 约 1010–1018 名受检者(每例对应一次胸部低剂量 CT 扫描)
影像总量 超过 244 617 张 DICOM 切片,约 125 GB(原始数据约 133 GB)
标注结节 约 7 371 个结节,其中 ≥3 mm 结节约 2 669 个,四位放射科医生一致标注的结节约 928 个
影像类型 低剂量胸部 CT(切片厚度平均约 1.74 mm),部分还提供 X‑ray、CR、DX 等影像
标注信息 每个结节的位置信息、大小、形状、边缘、密度(实性/磨玻璃/混合)以及四位放射科医生的两阶段阅读评分(恶性概率、质地等)

3. 标注流程

  1. 第一阶段:四位经验丰富的胸部放射科医生独立标注所有可疑结节的存在与位置。
  2. 第二阶段:在第一阶段标注的基础上,对每个结节进行详细特征评估(大小、形状、密度、恶性评分等),并记录在 XML 文件中。
  3. 同一结节可能由多位医生标注,形成多标注集合,可用于研究标注一致性或生成共识标签。

4. 数据格式与获取

  • 影像:DICOM 格式(单通道、Hounsfield 单位,分辨率 512 × 512)。
  • 标注:XML(Extensible Markup Language)文件,结构化记录结节坐标、特征、评分等信息。
  • 下载渠道:通过 Cancer Imaging Archive(TCIA)公开页面 https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI 免费获取,需注册并同意使用协议。

5. 常用子集与衍生项目

  • LUNA16:从 LIDC‑IDRI 中筛选出 888 例符合特定切片厚度、间距一致的扫描,专用于结节检测基准测试
  • 处理后版本:社区提供的 PNG/Mask 版结节切片(如 64 × 64 像素的结节图与对应掩码),便于快速实验。

6. 研究价值与应用

  • 基准数据集:几乎所有肺结节检测、分割、恶性分类的深度学习论文都会使用 LIDC‑IDRI 进行训练、验证或测试,是医学影像 AI 领域的事实标准。
  • 多标注优势:提供四位医生的独立标注,可研究标注一致性、生成共识标签或进行不确定性建模。
  • 辐射学与放射组学:结合结节的形态学特征与纹理特征,支持放射组学特征提取机器学习分类。
  • 数据增强:基于该数据集的 GAN变分自编码器等生成模型已被用于扩增肺结节图像,提升模型鲁棒性

7. 使用注意事项

  • 标注不一致:同一结节的多位医生评分可能存在差异,使用时需自行决定是取多数投票、平均值还是仅保留一致标注。
  • 切片厚度差异:原始数据的切片厚度在 1–3 mm 之间,可能影响三维卷积网络的输入,需要统一重采样
  • 数据量大:原始 DICOM 包体积约 125 GB,下载与存储需充足的网络与硬盘资源。
  • 隐私合规:虽然已去标识化,但仍需遵守 TCIA 的使用协议,仅用于科研或教学目的。

总结
LIDC‑IDRI 是目前肺部 CT 影像研究中最权威、规模最大的公开数据集,集合了上千例低剂量胸部 CT 与多位放射科医生的细致标注,提供了完整的 DICOM 图像与 XML 注释。它不仅为肺结节检测、分割、恶性评估等任务提供了统一的基准,也因其多标注特性成为研究标注一致性和不确定性建模的重要资源。研究者在使用时应注意数据的预处理、标注一致性处理以及遵守数据使用协议。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!