CoNLL‑2012 数据集概览
1. 背景与来源
CoNLL‑2012 是在 CoNLL‑2012 共享任务(Pradhan 等,2012)中推出的多语言核心指代消解(coreference resolution)基准。它以 OntoNotes v5.0 为底层语料库,对其中的英文、中文和阿拉伯文部分进行统一的核心指代标注,并提供了丰富的语言学层次(句法树、词性、命名实体等)。
2. 规模与组成
语言 | 训练文档 | 验证文档 | 测试文档 | 主要文档类型 |
---|---|---|---|---|
英文 | 2 802 | 343 | 348 | broadcast news (bn)、broadcast conversation (bc)、web text (wb)、telephone conversation (tc)、newswire (nw)、magazine (mz) 等 |
中文 | 1 810 | 252 | 218 | 同上(包括新闻、网络、对话等) |
阿拉伯文 | 359 | 44 | 44 | 同上 |
以上统计来自官方共享任务说明,英文数据约 280 万词,中文约 130 万词,整体约 1 百万词。
3. 数据格式
CoNLL‑2012 采用 13 列 的文本格式,每列分别为:
- Document ID(文档编号,前两字符表示文档体裁)
- Part Number(文档在文件中的序号)
- Word Number(句中词序)
- Token(原始词形)
- POS tag
- Parse bit (syntactic parse)
- Predicate lemma
- Predicate sense
- ...(后续列包括语义角色、核心指代等标注)
详细列说明可在官方格式文档中查阅。
4. 注释层次
- 核心指代链:为每个提及(pronoun、NP、VP head)标注指代关系。
- 句法结构:提供完整的短语结构树(constituency parse)。
- 词性标注(POS)和 命名实体识别(NER)。
- 语义角色标注(SRL),在部分任务中也被使用。
这些层次均来源于 OntoNotes 的原始标注,保证了跨语言的一致性。
5. 主要任务与评估
- 核心指代消解:CoNLL‑2012 是该任务的标准基准,评估指标采用 MUC、B³、CEAFφ4 三者的平均 F1(常称 “CoNLL score”)。
- 语义角色标注(SRL)等也常使用该数据集进行实验。
许多后续模型(如基于 BERT、ELMo、span‑based 方法)均在此数据集上报告性能提升,成为学术界的“排行榜”参考。
6. 获取方式与使用注意
- 官方下载页面提供 train/dev/test 三套文件的压缩包,需在 研究/教学 范围内使用,遵守相应的 非商业 许可协议。
- 数据文件采用 UTF‑8 编码,建议使用 CoNLL‑2012 官方评估脚本(
scorer.pl
)进行结果计算,以保证与公开基准的一致性。
小结
CoNLL‑2012 数据集是基于 OntoNotes v5.0 的多语言核心指代消解基准,覆盖英文、中文、阿拉伯文三种语言,提供了完整的句法、语义和指代标注。其规模适中、格式规范,已成为自然语言处理领域核心指代任务的标准评测平台。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!