HowNet 是一个由董振东和董强父子毕数十年之功构建的大型语言知识库,主要面向中文和英文的词汇与概念。它是一个基于语义单元(即义原)的汉语词典,通过提取、分析、合并和过滤数千个汉字的语义来确定其语义单元集。HowNet 的核心思想是还原论,认为所有词语的含义可以由最基本的、不宜再分割的最小语义单位——“义原”构成。

HowNet 的构建过程耗时近30年,通过预定义的2000多个义原为20多万个由中英文词语所表示的概念进行了标注。HowNet 的核心数据包括237,973个概念,每个概念由中英文词语及其词性、情感倾向、例句、义原标注等信息组成。HowNet 不仅是一个语言知识库,还被广泛应用于自然语言处理任务,如词相似性计算、词义消歧、问题分类和情感分析等。
HowNet 的一个重要特点是它是一个在线常识知识库,揭示了中文及其英文等价词典中概念之间的概念关系和属性关系。它具有四个特点:使用语义素、结构化语言定义、自给自足和语言独立性。HowNet 还开发了多个基于 HowNet 的应用工具,如 HowNet_Browser、HowNet_Relevance、HowNet_Similarity 等,用于自然语言处理任务。
HowNet 的构建秉承还原论思想,认为词汇/词义可以用更小的语义单位来描述,这种语义单位被称为“义原”(Sememe)。HowNet 通过事件、万物、属性、属性值、部件、空间和时间等7个维度进行世界的描述。HowNet 的哲学基础是“凡事都在特定的时间和空间内不停地运动和变化”,万物是其运算和描述的基本单位。
HowNet 是一个重要的语言知识库,为自然语言处理和语义分析提供了重要的支持
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!