什么是CoNLL‑2012 数据集

CoNLL‑2012 数据集概览


1. 背景与来源

CoNLL‑2012 是在 CoNLL‑2012 共享任务(Pradhan 等,2012)中推出的多语言核心指代消解(coreference resolution)基准。它以 OntoNotes v5.0 为底层语料库,对其中的英文、中文和阿拉伯文部分进行统一的核心指代标注,并提供了丰富的语言学层次(句法树、词性、命名实体等)。

2. 规模与组成

语言 训练文档 验证文档 测试文档 主要文档类型
英文 2 802 343 348 broadcast news (bn)、broadcast conversation (bc)、web text (wb)、telephone conversation (tc)、newswire (nw)、magazine (mz) 等
中文 1 810 252 218 同上(包括新闻、网络、对话等)
阿拉伯文 359 44 44 同上

以上统计来自官方共享任务说明,英文数据约 280 万词,中文约 130 万词,整体约 1 百万词

3. 数据格式

CoNLL‑2012 采用 13 列 的文本格式,每列分别为:

  1. Document ID(文档编号,前两字符表示文档体裁)
  2. Part Number(文档在文件中的序号)
  3. Word Number(句中词序)
  4. Token(原始词形)
  5. POS tag
  6. Parse bit (syntactic parse)
  7. Predicate lemma
  8. Predicate sense
  9. ...(后续列包括语义角色、核心指代等标注)

详细列说明可在官方格式文档中查阅。

4. 注释层次

这些层次均来源于 OntoNotes 的原始标注,保证了跨语言的一致性。

5. 主要任务与评估

  • 核心指代消解:CoNLL‑2012 是该任务的标准基准,评估指标采用 MUC、B³、CEAFφ4 三者的平均 F1(常称 “CoNLL score”)。
  • 语义角色标注(SRL)等也常使用该数据集进行实验。

许多后续模型(如基于 BERT、ELMo、span‑based 方法)均在此数据集上报告性能提升,成为学术界的“排行榜”参考。

6. 获取方式与使用注意

  • 官方下载页面提供 train/dev/test 三套文件的压缩包,需在 研究/教学 范围内使用,遵守相应的 非商业 许可协议。
  • 数据文件采用 UTF‑8 编码,建议使用 CoNLL‑2012 官方评估脚本scorer.pl)进行结果计算,以保证与公开基准的一致性。

小结
CoNLL‑2012 数据集是基于 OntoNotes v5.0 的多语言核心指代消解基准,覆盖英文、中文、阿拉伯文三种语言,提供了完整的句法、语义和指代标注。其规模适中、格式规范,已成为自然语言处理领域核心指代任务的标准评测平台。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!