什么是RACE数据集

AI解读 2个月前硕雀

22 0 0

RACE（Reading Comprehension from Examinations）是机器阅读理解（Machine Reading Comprehension, MRC）领域最著名的数据集之一。它由卡内基梅隆大学（Carnegie Mellon University）的研究团队提出，旨在为机器阅读理解方法提供一个更具挑战性和真实世界意义的评估平台。

以下是关于 RACE 数据集的详细介绍：

1. 基础概况

全称：Reading Comprehension from Examinations
提出机构：卡内基梅隆大学（CMU）
首次发表时间：2017年（论文标题通常为 "RACE: Large-scale ReAding Comprehension Dataset From Examinations"）
数据来源：该数据集收集自中国 12至18岁 的中学生和高中生的英语考试阅读理解部分。这些题目是由英语教师等领域专家精心设计的。

2. 数据规模与构成

规模庞大：RACE 数据集包含 近28,000 篇文章（Passages）和 近100,000 道问题（Questions）。
题型：每道题都是四选一（Multiple Choice）的形式，要求从四个候选选项中选择正确答案。
难度划分：根据文章的难度和来源，RACE 分为两个子集：
- RACE-M：中学生（Middle School）版本，约占数据集的 30%，难度较低。
- RACE-H：高中生（High School）版本，约占数据集的 70%，难度更高，文章更长、词汇更复杂。

3. 特色与难点

RACE 数据集与许多其他阅读理解数据集（如 SQuAD）最大的不同在于其 答案生成方式：

非片段答案：RACE 的问题和候选答案是由人类专家生成的完整句子，而不是直接从原文段落中抽取的片段（Text Span）。
推理需求：由于答案往往不是原文中的直接引用，机器必须进行更深层次的语义理解和逻辑推理才能得出正确答案。
人机差距：由于难度较大，RACE 也是一个衡量模型理解深度的金标准（Gold Standard）。目前最先进的模型在该数据集上的准确率通常只有 43% 左右，而人类的表现可以达到 95%，存在显著的差距。

4. 数据集获取

RACE 数据集是公开可获取的，通常包括训练集（Train）、开发集（Dev）和测试集（Test）。

官方网站：http://www.cs.cmu.edu/-glai1/data/race/
GitHub 代码：许多开源项目提供了读取和处理 RACE 数据集的代码，如 Qizhex 的基准模型代码仓库 https://github.com/qizhex/RACE_AR_baselines 。

5. 研究价值

RACE 数据集广泛用于学术界和工业界的阅读理解模型评估。由于其设计初衷是模拟真实的中学考试，它在评估模型的理解深度、推理能力以及跨文章推断（跨段落推理）方面具有极高的价值，是许多阅读理解挑战赛（如 CLUE 任务）中的核心数据集之一。

RACE数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！