OntoNotes 是由美国语言技术公司 BBN Technologies 与多所高校(科罗拉多大学、宾夕法尼亚大学、南加州大学)合作构建的多语言、多层次标注语料库,至今已发布 3.0、4.0、5.0 等多个版本。它的核心目标是对大规模文本进行 结构化 与 浅层语义 双重标注,为自然语言处理(NLP)提供统一的金标准资源。
1. 规模与语言
版本 | 语言 | 文本量(标记数) | 文档数 | 主要来源 |
---|---|---|---|---|
OntoNotes 3.0 | 英文 | ~1.3 M tokens | 2,040 | 新闻、广播、对话、网络日志等 |
OntoNotes 4.0 | 中文(约 16 k 句) | — | — | 主要用于中文 NER 实验 |
OntoNotes 5.0 | 英文、中文、阿拉伯文 | 约 1.74 M tokens(英)+ 0.9 M(中)+ 0.3 M(阿) | 2,040 | 新闻、电话对话、广播新闻、博客、脱口秀等多种体裁 |
其中,5.0 版的 90% 标注者一致性(inter‑annotator agreement)保证了标注质量。
2. 标注层次(多层次金标准)
- 词性标注(POS)
- 句法成分树(句法解析)
- 谓词‑论元结构(PropBank‑style 语义角色标注)
- 指代消解(Coreference):包括跨句的实体链,且 不标注单例(singleton),简化了共指任务。
- 命名实体识别(NER):共 18 类实体,覆盖 PERSON、ORG、LOC、GPE、FAC、EVENT、DATE、PERCENT、MONEY 等。
- 词义链接(Word Sense):与本体(ontology)和核心指代(coreference)关联的词义标注。
这些层次在同一文档中同步提供,使研究者能够在 统一语料上 同时评估或联合建模多任务(如联合句法‑语义‑指代模型)。
3. 主要应用与影响
- CoNLL‑2012 Shared Task:基于 OntoNotes 5.0 的核心指代消解任务,推动了跨语言共指研究。
- NER、句法解析、语义角色标注:几乎所有主流的英文/中文/阿拉伯文 NLP 基准(如 BERT、SpanBERT、AllenNLP)均使用 OntoNotes 进行训练或评估。
- 细粒度实体类型:相较于 ACE 等数据集,OntoNotes 提供更丰富的实体细分类别(如建筑物 FAC、事件 EVENT 等),被用于细粒度实体类型研究。
- 跨语言研究:因其三语并行标注,常用于跨语言迁移学习、对齐词义等多语言实验。
4. 获取方式与使用许可
- 数据由 语言数据联盟(LDC) 发行,需通过 LDC 官方网站注册并购买相应许可证(如 LDC2013T19 对应 OntoNotes 5.0)。
- 公开的文档结构与使用指南可在 LDC 官方文档中查阅,提供多种格式(CoNLL‑2012、BIO、XML)供研究者自行转换。
5. 近期扩展与衍生
- LongtoNotes:在原 OntoNotes 基础上合并被拆分的文档,形成更长的核心指代链,进一步提升共指评估的覆盖度。
- OntoGUM:基于 GUM 语料重新构建的衍生数据集,用于在更多体裁上评估指代消解模型。
小结
OntoNotes 通过 多语言、多体裁、层次化标注 的设计,成为 NLP 领域最具影响力的金标准语料之一。它不仅支撑了从基础的词性、句法到高级的语义角色、指代消解、细粒度实体识别等任务,还为跨语言、跨任务的联合建模提供了统一的实验平台。研究者在使用时应遵循 LDC 的授权协议,并可结合最新的衍生数据(如 LongtoNotes)进一步拓展实验范围。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!