什么是Chinese‑CR数据集

Chinese‑CR(Chinese Reading Comprehension)数据集概览

1. 什么是 Chinese‑CR?

Chinese‑CR 是一个面向中文机器阅读理解(MRC)的综合数据集集合。它把目前公开的多种中文阅读理解资源统一组织在同一项目下,便于研究者快速获取、统一预处理并在同一基准上进行模型对比。项目在 GitHub 上以 Chinese‑RC‑Datasets 为名发布,包含了从完形填空到抽取式、从多选到开放式问答的多种任务类型。

2. 包含的子数据集

子数据集 任务类型 规模(大致) 数据来源
CMRC2017 / CMRC2018 / CMRC2019 完形填空 / 句子抽取 约 20 K(2017)
约 20 K(2018)
约 10 K(2019)
新闻、维基百科、故事文本
DRCD 抽取式(span) 约 30 K 文章、约 100 K 问题 维基百科
DuReader 开放式问答、是非/观点题 200 K 问题、420 K 答案、1 M 文档 百度搜索、百度知道
WebQA 实体抽取式问答 约 42 K 问题 网络网页
C³ (C3) 多选/填空 约 10 K 文档、约 100 K 选项 多领域新闻
ChID 多选(中考/高考) 约 30 K 题目 中学教材
GCRC / GCRC‑Explain 多选+解释标注 8 719 题目 高考语文试题
NCR (Native Chinese Reader) 长文多选/抽取 8 390 篇文档、20 477 题目,平均篇幅约 1 024 字 高中语文考试

以上仅列出项目中最具代表性的子集,完整目录请参考项目的 datasets/ 目录(GitHub 项目结构已在文档中说明)。

3. 主要特征与优势

  1. 任务多样性
    • 完形填空(cloze)‍:CMRC 系列、C³。
    • 抽取式(span)‍:DRCD、CMRC2019。
    • 多选/判断:GCRC、NCR、DuReader(是非题)。
    • 开放式问答:DuReader、WebQA。
  2. 语言覆盖
    • 全部为 简体中文,部分子集(如 NCR)同时包含古典文言文,能够检验模型对现代与古典汉语的兼容性。
  3. 规模与难度
    • 从几千到数十万条问答不等,尤其是 DuReader 的规模在中文 MRC 中属于最大。
    • 多数子集提供 人工标注 的相关性或答案,避免仅依赖点击日志导致的噪声。
  4. 统一格式
    • 项目提供统一的 JSON/TSV 读取脚本,所有子集的字段(contextquestionanswersoptions 等)保持一致,便于一次性加载。
  5. 开源许可
    • 大多数子集采用 CC‑BY‑SA 或 MIT 许可证,允许学术与商业使用,只需保留原始版权信息。

4. 下载与使用方式

  1. 获取代码与数据
    git clone https://github.com/your-org/Chinese-RC-Datasets.git
    cd Chinese-RC-Datasets
    # 通过 scripts/download.sh 下载全部子集
    bash scripts/download.sh
    
  2. 数据结构示例(CMRC2019)
    {
      "id": "12345",
      "context": "……(完整文章)……",
      "question": "文章中空缺的句子应该是?",
      "options": ["选项A", "选项B", "选项C", "选项D"],
      "answer": "选项B"
    }
    
  3. 快速基线
    项目自带 scripts/preprocess.py 与 scripts/train.py,支持 BERT‑Base‑ChineseRoBERTa‑Large‑Chinese 等主流预训练模型。运行示例:

    python scripts/preprocess.py --dataset cmrc2019 --output data/cmrc2019_processed
    python scripts/train.py --model bert-base-chinese --data data/cmrc2019_processed
    

5. 常用评测指标

任务 常用指标
完形填空 / 多选 准确率 (Accuracy)
抽取式(span) Exact Match (EM)F1
开放式问答 BLEU / ROUGE-L(生成式)
是非/观点 AccuracyAUC二分类

项目中提供了 evaluation/ 目录,内置对应指标的实现脚本,直接调用即可得到统一评测结果。

6. 研究价值与典型应用

  • 模型通用性评估:同一套代码即可在 10+ 子集上跑通,帮助判断模型在不同阅读理解场景(新闻、百科、考试)下的鲁棒性
  • 跨域迁移学习:利用 DuReader 的大规模开放域数据进行预训练,再在高难度的 GCRC 或 NCR 上微调,可显著提升多选解释能力。
  • 古典汉语理解:NCR 包含古文、古诗,适合作为中文语言模型的古典文本适配实验。
  • 可解释性研究:GCRC 提供错误选项的解释标签,为错误分析与可解释模型提供了标注依据。

7. 参考文献与资源链接

  • 项目主页与代码仓库(Chinese‑RC‑Datasets)
  • 各子数据集的官方说明(CMRC、DRCD、DuReader、WebQA 等)
  • 规模与统计信息(NCR、GCRC)

如需进一步了解某一子集的详细统计或下载链接,请在项目的 README.md 中查阅对应章节,或直接访问子集的官方网页(如 CMRC 官方站点 https://hfl-rc.github.io/cmrc2019/ )。


简要结论:Chinese‑CR 是一个集合了多种中文阅读理解任务的开源数据平台,覆盖完形填空、抽取式、多选、开放式问答等多种形式,规模从几千到上百万不等,提供统一的格式与基线代码,极大降低了中文 MRC 研究的准备成本,是当前中文自然语言处理领域进行模型评估与跨任务迁移实验的首选基准。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!