| 项目 | 内容 | 参考 |
|---|---|---|
| 创建机构 | 美国国家卫生研究院临床中心(NIH Clinical Center) | |
| 发布时间 | 2018 年正式公开,后持续更新 | |
| 数据来源 | 从医院 PACS 系统中“书签”(bookmark) 方式自动挖掘的放射学报告标注 | |
| 患者与检查数量 | 4 427 名唯一患者,10 594 次 CT 检查 | |
| 图像规模 | 约 32 120 张轴向 CT 切片(约 220 GB 原始数据) | |
| 病灶标注 | 32 735 个病灶实例,每张切片通常包含 1–3 个病灶;提供 2D 边界框和 RECIST 直径测量值 | |
| 病灶类型 | 包括肺结节、肝肿瘤、淋巴结、肾脏、骨骼等多种全身病灶 | |
| 元数据 | 每个病灶附带患者 ID、检查 ID、切片位置、测量直径、标注时间等信息 | |
| 数据组织 | - image/:原始 CT 图像 - annotation/:CSV 格式的边界框与尺寸 - metadata/:患者/检查层级信息 |
|
| 主要用途 | - 通用病灶检测(Universal Lesion Detection) - 病灶分类、分割、检索 - 病灶体积/尺寸随时间的生长分析 - 半监督/自监督学习基准 |
|
| 开放获取方式 | 官方下载链接(Box): https://nihcc.box.com/v/DeepLesion (约 230 GB) | |
| 镜像/社区资源 | - HuggingFace 数据集页面: https://huggingface.co/datasets/farrell236/DeepLesion - GitHub 说明仓库: https://github.com/Mycenae/PaperWeekly/blob/master/DeepLesion.md |
|
| 核心论文 | DeepLesion: Automated Mining of Large‑Scale Lesion Annotations and Universal Lesion Detection with Deep Learning(arXiv 1710.01766) | |
| 后续扩展 | 正在计划加入 MRI、其他医院数据以及更细粒度的病灶类别标注,以进一步提升跨模态与跨机构的通用性 |
关键特点简述
- 规模最大:截至 2025 年,DeepLesion 是公开的 CT 病灶数据集中规模最大的,覆盖 10 000 多例病例,标注超过 30 000 条病灶。
- 多样性:病灶分布遍及全身多个器官,提供了真实临床环境下的多类别、跨部位样本,适合训练通用的病灶检测模型。
- 标准化测量:每个病灶均附有 RECIST 直径(两条互相垂直的最大横截面),为后续的尺寸变化分析提供统一基准。
- 开放且可复现:数据、标注文件以及配套的 Python 转换脚本全部公开,研究者可直接下载并在本地进行预处理或使用 HuggingFace 提供的加载接口。
- 广泛应用:自发布以来,DeepLesion 已被用于 100 多篇学术论文,涵盖病灶检测、分割、跨域迁移学习、半监督学习、图像检索等方向,成为医学影像 AI 领域的基准数据集。
获取方式快速指南
- 官方下载(推荐)
- 访问 https://nihcc.box.com/v/DeepLesion
- 需要注册 Box 账号后即可下载完整压缩包(约 230 GB)。
- HuggingFace 直接加载(适合 Python 环境)
from datasets import load_dataset ds = load_dataset("farrell236/DeepLesion")- 自动下载并解压至本地缓存,提供
image与annotation两个子集。
- 自动下载并解压至本地缓存,提供
- GitHub 说明文档
- 查看 https://github.com/Mycenae/PaperWeekly/blob/master/DeepLesion.md 获取数据结构、使用示例以及常见问题解答。
适用研究场景示例
| 场景 | 可能的研究任务 |
|---|---|
| 通用病灶检测 | 训练 Faster‑RCNN、YOLO‑v5 等检测器,实现一次性检测多种器官的病灶。 |
| 病灶分割 | 在已有边界框基础上,利用半监督或自监督方法生成像素级掩膜。 |
| 纵向随访分析 | 结合多次检查的时间戳,研究病灶体积随时间的增长趋势。 |
| 跨模态迁移 | 将在 CT 上学到的特征迁移到 MRI、PET 等其他影像模态。 |
| 自监督预训练 | 使用 DeepLesion 的未标注切片进行对比学习,提升下游任务的特征表达。 |
总结:DeepLesion 是由 NIH Clinical Center 通过自动化“书签”挖掘方式构建的、目前规模最大、标注最完整的 CT 病灶公开数据集。它提供了全身多类别病灶的 2D 边界框与标准化尺寸测量,配套丰富的元数据和开源工具,已成为医学影像 AI 研究的核心基准。研究者可通过官方 Box 链接或 HuggingFace 平台快速获取并直接用于各种检测、分割、检索及纵向分析任务。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!