什么是DeepLesion数据集

AI解读 5个月前硕雀

143 0 0

DeepLesion 数据集概览

项目	内容	参考
创建机构	美国国家卫生研究院临床中心（NIH Clinical Center）
发布时间	2018 年正式公开，后持续更新
数据来源	从医院 PACS 系统中“书签”(bookmark) 方式自动挖掘的放射学报告标注
患者与检查数量	4 427 名唯一患者，10 594 次 CT 检查
图像规模	约 32 120 张轴向 CT 切片（约 220 GB 原始数据）
病灶标注	32 735 个病灶实例，每张切片通常包含 1–3 个病灶；提供 2D 边界框和 RECIST 直径测量值
病灶类型	包括肺结节、肝肿瘤、淋巴结、肾脏、骨骼等多种全身病灶
元数据	每个病灶附带患者 ID、检查 ID、切片位置、测量直径、标注时间等信息
数据组织	- image/：原始 CT 图像 - annotation/：CSV 格式的边界框与尺寸 - metadata/：患者/检查层级信息
主要用途	- 通用病灶检测（Universal Lesion Detection） - 病灶分类、分割、检索 - 病灶体积/尺寸随时间的生长分析 - 半监督/自监督学习基准
开放获取方式	官方下载链接（Box）: https://nihcc.box.com/v/DeepLesion （约 230 GB）
镜像/社区资源	- HuggingFace 数据集页面: https://huggingface.co/datasets/farrell236/DeepLesion - GitHub 说明仓库: https://github.com/Mycenae/PaperWeekly/blob/master/DeepLesion.md
核心论文	DeepLesion: Automated Mining of Large‑Scale Lesion Annotations and Universal Lesion Detection with Deep Learning（arXiv 1710.01766）
后续扩展	正在计划加入 MRI、其他医院数据以及更细粒度的病灶类别标注，以进一步提升跨模态与跨机构的通用性

关键特点简述

规模最大：截至 2025 年，DeepLesion 是公开的 CT 病灶数据集中规模最大的，覆盖 10 000 多例病例，标注超过 30 000 条病灶。
多样性：病灶分布遍及全身多个器官，提供了真实临床环境下的多类别、跨部位样本，适合训练通用的病灶检测模型。
标准化测量：每个病灶均附有 RECIST 直径（两条互相垂直的最大横截面），为后续的尺寸变化分析提供统一基准。
开放且可复现：数据、标注文件以及配套的 Python 转换脚本全部公开，研究者可直接下载并在本地进行预处理或使用 HuggingFace 提供的加载接口。
广泛应用：自发布以来，DeepLesion 已被用于 100 多篇学术论文，涵盖病灶检测、分割、跨域迁移学习、半监督学习、图像检索等方向，成为医学影像 AI 领域的基准数据集。

获取方式快速指南

官方下载（推荐）
- 访问 https://nihcc.box.com/v/DeepLesion
- 需要注册 Box 账号后即可下载完整压缩包（约 230 GB）。
HuggingFace 直接加载（适合 Python 环境）
```
from datasets import load_dataset
ds = load_dataset("farrell236/DeepLesion")
```
- 自动下载并解压至本地缓存，提供 image 与 annotation 两个子集。
GitHub 说明文档
- 查看 https://github.com/Mycenae/PaperWeekly/blob/master/DeepLesion.md 获取数据结构、使用示例以及常见问题解答。

适用研究场景示例

场景	可能的研究任务
通用病灶检测	训练 Faster‑RCNN、YOLO‑v5 等检测器，实现一次性检测多种器官的病灶。
病灶分割	在已有边界框基础上，利用半监督或自监督方法生成像素级掩膜。
纵向随访分析	结合多次检查的时间戳，研究病灶体积随时间的增长趋势。
跨模态迁移	将在 CT 上学到的特征迁移到 MRI、PET 等其他影像模态。
自监督预训练	使用 DeepLesion 的未标注切片进行对比学习，提升下游任务的特征表达。

总结：DeepLesion 是由 NIH Clinical Center 通过自动化“书签”挖掘方式构建的、目前规模最大、标注最完整的 CT 病灶公开数据集。它提供了全身多类别病灶的 2D 边界框与标准化尺寸测量，配套丰富的元数据和开源工具，已成为医学影像 AI 研究的核心基准。研究者可通过官方 Box 链接或 HuggingFace 平台快速获取并直接用于各种检测、分割、检索及纵向分析任务。

DeepLesion DeepLesion数据集医学图像数据集医学影像数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！