1. 什么是 MIMIC‑CXR
MIMIC‑CXR(Medical Information Mart for Intensive Care – Chest X‑Ray)是由美国麻省理工学院(MIT)计算生理学实验室与 Beth Israel Deaconess Medical Center(BIDMC)合作发布的公开、去标识化的胸部 X 光影像数据库。它不仅提供原始的 DICOM 格式胸片,还配套了放射科医生撰写的自由文本报告,支持多模态(影像 + 文本)研究。
2. 数据规模与内容
- 影像数量:约 377 110 张胸部 X 光片(包括前后位、侧位等常规视图)。
- 检查次数:对应 227 835 例成像研究,覆盖约 65 379 名患者(2011‑2016 年期间的急诊/住院检查)。
- 报告:每张影像均附有半结构化的放射科报告,报告已使用 CheXpert 与 NegBio 等自动标注工具生成 14 类常见胸部疾病标签(如肺炎、胸腔积液、肺水肿等)。
- 元数据:提供患者基本信息(去标识化后)、检查时间、影像采集参数、报告文本等 CSV/JSON 文件,便于关联电子健康记录(可与 MIMIC‑IV、MIMIC‑III 等数据库联用)。
3. 数据来源与去标识化
所有影像和报告均来源于 BIDMC 的临床工作流,经过严格的 HIPAA‑符合去标识化处理,去除了姓名、出生日期、医学记录号等可识别信息,确保患者隐私安全。
4. 文件结构与技术细节
- 影像:存储为 DICOM 文件,保留原始像素值和影像元数据。
- 报告:以纯文本(.txt)和结构化 CSV 形式提供。
- 标签文件:包含基于自然语言处理的疾病标签(14 类),可直接用于机器学习监督学习任务。
- 代码与文档:官方 GitHub 仓库提供数据下载脚本、示例代码、数据字典以及常见问题解答。
5. 如何获取
- 注册 PhysioNet 账户(需完成数据使用培训并签署 DUA)。
- 访问数据集页面下载:。
- 也可通过官方项目网站 <https://mimic-cxr.mit.edu > 获取最新的使用指南与示例。
- GitHub 仓库 <https://github.com/MIT-LCP/mimic-cxr > 提供下载脚本与社区讨论。
6. 主要研究与应用场景
- 计算机视觉:胸部疾病自动检测、分割、异常定位。
- 自然语言处理:放射报告生成、报告摘要、医学信息抽取。
- 多模态学习:影像‑文本对齐、跨模态检索、临床决策支持。
- 教学与基准:作为公开基准数据集,广泛用于论文、竞赛(如 MICCAI、NeurIPS)以及医学 AI 教育。
7. 关键参考文献与链接
- 原始论文(arXiv):MIMIC‑CXR: A Large Publicly Available Database of Labeled Chest Radiographs, 2019.
- MIT 新闻稿(数据集发布概述):
- PhysioNet 数据库页面:
- 官方 GitHub 仓库:
- 项目主页:<https://mimic-cxr.mit.edu >(提供最新文档、FAQ)
使用提示:获取数据前请务必完成 PhysioNet 的数据使用培训并签署数据使用协议,遵守“仅用于学术/科研、禁止再分发、禁止重新识别个人”等规定。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!