什么是DeepLesion数据集

AI解读 4小时前 硕雀
5 0

DeepLesion 数据集概览

项目 内容 参考
创建机构 美国国家卫生研究院临床中心(NIH Clinical Center)
发布时间 2018 年正式公开,后持续更新
数据来源 从医院 PACS 系统中“书签”(bookmark) 方式自动挖掘的放射学报告标注
患者与检查数量 4 427 名唯一患者,10 594 次 CT 检查
图像规模 约 32 120 张轴向 CT 切片(约 220 GB 原始数据)
病灶标注 32 735 个病灶实例,每张切片通常包含 1–3 个病灶;提供 2D 边界框和 RECIST 直径测量值
病灶类型 包括肺结节、肝肿瘤、淋巴结、肾脏、骨骼等多种全身病灶
元数据 每个病灶附带患者 ID、检查 ID、切片位置、测量直径、标注时间等信息
数据组织 image/:原始 CT 图像
annotation/CSV 格式的边界框与尺寸
metadata/:患者/检查层级信息
主要用途 - 通用病灶检测(Universal Lesion Detection)
- 病灶分类、分割、检索
- 病灶体积/尺寸随时间的生长分析
- 半监督/自监督学习基准
开放获取方式 官方下载链接(Box): https://nihcc.box.com/v/DeepLesion (约 230 GB)
镜像/社区资源 - HuggingFace 数据集页面: https://huggingface.co/datasets/farrell236/DeepLesion
- GitHub 说明仓库: https://github.com/Mycenae/PaperWeekly/blob/master/DeepLesion.md
核心论文 DeepLesion: Automated Mining of Large‑Scale Lesion Annotations and Universal Lesion Detection with Deep Learning(arXiv 1710.01766)
后续扩展 正在计划加入 MRI、其他医院数据以及更细粒度的病灶类别标注,以进一步提升跨模态与跨机构的通用性

关键特点简述

  1. 规模最大:截至 2025 年,DeepLesion 是公开的 CT 病灶数据集中规模最大的,覆盖 10 000 多例病例,标注超过 30 000 条病灶。
  2. 多样性:病灶分布遍及全身多个器官,提供了真实临床环境下的多类别、跨部位样本,适合训练通用的病灶检测模型。
  3. 标准化测量:每个病灶均附有 RECIST 直径(两条互相垂直的最大横截面),为后续的尺寸变化分析提供统一基准。
  4. 开放且可复现:数据、标注文件以及配套的 Python 转换脚本全部公开,研究者可直接下载并在本地进行预处理或使用 HuggingFace 提供的加载接口。
  5. 广泛应用:自发布以来,DeepLesion 已被用于 100 多篇学术论文,涵盖病灶检测、分割、跨域迁移学习半监督学习图像检索等方向,成为医学影像 AI 领域的基准数据集。

获取方式快速指南

  1. 官方下载(推荐)
  2. HuggingFace 直接加载(适合 Python 环境)
    from datasets import load_dataset
    ds = load_dataset("farrell236/DeepLesion")
    
    • 自动下载并解压至本地缓存,提供 image 与 annotation 两个子集。
  3. GitHub 说明文档

适用研究场景示例

场景 可能的研究任务
通用病灶检测 训练 Faster‑RCNNYOLO‑v5 等检测器,实现一次性检测多种器官的病灶。
病灶分割 在已有边界框基础上,利用半监督或自监督方法生成像素级掩膜
纵向随访分析 结合多次检查的时间戳,研究病灶体积随时间的增长趋势。
跨模态迁移 将在 CT 上学到的特征迁移到 MRI、PET 等其他影像模态。
自监督预训练 使用 DeepLesion 的未标注切片进行对比学习,提升下游任务的特征表达。

总结:DeepLesion 是由 NIH Clinical Center 通过自动化“书签”挖掘方式构建的、目前规模最大、标注最完整的 CT 病灶公开数据集。它提供了全身多类别病灶的 2D 边界框与标准化尺寸测量,配套丰富的元数据和开源工具,已成为医学影像 AI 研究的核心基准。研究者可通过官方 Box 链接或 HuggingFace 平台快速获取并直接用于各种检测、分割、检索及纵向分析任务。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!