什么是TCIA数据集

AI解读 4小时前 硕雀
6 0

TCIA(The Cancer Imaging Archive)概述
TCIA 是由美国国家癌症研究所(NCI)癌症影像计划资助、弗雷德里克国家癌症研究中心(FNLCR)管理的公开医学影像数据库,旨在为癌症研究提供去标识化的高质量影像资源。它收集、整理并免费向全球科研人员开放多模态癌症影像(CT、MRI、PET‑CT、数字病理等),并配套患者结局、治疗方案、基因组学等临床与分子信息。


1. 组织与管理

  • 资助机构:美国国家癌症研究所(NCI)
  • 运营单位:弗雷德里克国家癌症研究中心(FNLCR),原由阿肯色大学医学科学院负责日常管理
  • 数据审查:新提交的数据需经 TCIA 顾问小组审核,确保去标识化和质量合规

2. 数据内容与结构

类型 说明 常见癌种
影像模态 CT、MRI、PET‑CT、数字病理等,均采用 DICOM 标准存储 肺癌、乳腺癌、前列腺癌、脑肿瘤等
支持信息 患者结局、治疗细节、基因组学、病理报告等 与影像对应的临床/分子数据
组织方式 按“Collection”(集合)划分,集合通常基于癌症类型、解剖部位或特定研究主题 如 “Lung Cancer Collection”、 “TCGA‑GBM” 等

3. 获取方式

  1. 网页门户:直接在 TCIA 官网浏览、检索并下载集合。
  2. NBIA Data Retriever:官方提供的桌面客户端,可批量下载 DICOM 文件。
  3. REST API:面向程序员的接口,支持脚本化检索、子集下载及元数据查询。
  4. Data Analysis Centers (DACs):通过云平台或 Jupyter Notebook 直接在服务器上进行可视化与分析。

4. 主要功能与应用

  • 科研:支持放射组学、深度学习模型训练、跨模态(影像‑基因组)关联研究。
  • 教学:提供教学案例与标准化影像,用于医学影像学课程示范。
  • 临床:帮助开发计算机辅助诊断(CAD)系统,验证新影像分析算法的可重复性。
  • 数据共享:为每个集合分配 DOI,便于在论文中精准引用并共享子集。

5. 使用注意事项

  • 所有影像均已去标识化,但仍需遵守 NCI 数据使用政策(如不用于商业目的、需注明来源)。
  • 部分受限数据(如涉及受保护的临床信息)仅对经批准的研究者开放,需要提交数据使用申请。
  • 下载大规模集合时建议使用 NBIA Data Retriever 或 REST API,以避免网络中断。

6. 常用链接


总结
TCIA 通过统一的 DICOM 存储、丰富的临床/分子配套信息以及多渠道的访问方式,为全球癌症影像研究提供了一个高质量、可重复使用的公共资源。研究者可以依据自己的需求,灵活选择网页、客户端或 API 进行数据获取,并在医学影像分析、人工智能模型研发以及教学等多个领域发挥重要作用。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!