什么是CheXpert数据集

AI解读 5个月前硕雀

104 0 0

项目	说明	主要来源
全称	Chest X‑ray Expert（CheXpert）
规模	224 316 张胸部 X‑光片，覆盖 65 240 名患者
视图	正位（AP/PA）和侧位（Lateral）两种视图
标签数量	14 项观察（包括 12 种疾病 + “No Finding” + “Enlarged Cardiomediastinum”），每项标记为阳性、阴性或不确定
标注方式	训练集标签由基于规则的 NLP 自动标注器从放射学报告中抽取；验证集和测试集由 3–5 位资深放射科医师手工标注，提供高质量金标准
数据来源	斯坦福大学医院（Stanford Hospital）PAC S 系统，时间跨度 2002‑10 至 2017‑07
数据划分	训练集（自动标签）≈ 224 316 张；验证集（200 张）和测试集（200 张）均为放射科医师标注
特色	- 包含不确定性标签，可用于研究如何处理噪声/模糊标注 - 提供官方评估平台（Codalab）和基准模型（DenseNet‑121） - 开源 CheXpert‑labeler 用于从报告中自动提取标签
主要用途	- 多标签胸片疾病分类 - 生成热图（Grad‑CAM）解释模型 - 迁移学习、模型压缩、跨机构泛化等研究
公开获取方式	需在 Stanford ML Group 官方页面填写申请表后下载（需同意数据使用协议）

官方项目页面 & 下载入口
https://stanfordmlgroup.github.io/chexpert/
GitHub 代码仓库（数据标签器、基准模型）‍
https://github.com/stanfordmlgroup/chexpert-labeler
原始论文（arXiv）‍
“CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison”
https://arxiv.org/abs/1901.07031
数据集文档（Datasheet）‍
https://arxiv.org/abs/2105.03020
CheXpert Plus（增强版）‍（包含放射报告、患者人口统计、DICOM 格式等）
https://stanfordaimi.azurewebsites.net/datasets/5158c524-d3ab-4e02-96e9-6ee9efc110a1

图像分辨率：前视图约 388 × 320 像素，侧视图约 320 × 320 像素（可在训练前自行 resize）
标签抽取流程：使用 NegBio + 规则库 → 关键字匹配 → 统一映射为 14 项观察的三态标签
不确定性处理：常见策略包括 (1) 将不确定视为负例、(2) 将不确定视为正例、(3) 使用概率混合或专门的 loss 加权方式
基准模型：DenseNet‑121 在官方评估中对多数疾病的 AUC 超过 0.90（部分疾病略低），并提供了预训练权重供直接 fine‑tune 使用

CheXpert 已成为医学影像领域最常用的公开胸片数据集之一，广泛用于算法研发、跨机构迁移学习以及不确定性建模等前沿研究。通过上述链接即可获取完整数据、文档和工具，快速开展相关实验。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！