什么是词干化（Stemming）

词干化是自然语言处理（NLP）中的一种文本预处理技术，旨在把词形变化（如时态、复数、派生等）统一为同一“词干”。通过消除词形的表层差异，词干化可以降低词汇的稀疏度，提升后续任务（如信息检索、文本分类、情感分析等）的效果。

方法	原理	典型算法	适用语言
规则式词干化	基于手工编写的后缀删除规则	Porter Stemmer、Lancaster Stemmer、Snowball Stemmer	主要针对英语，亦有针对其他语言的规则集
统计/机器学习式	通过大规模语料学习词形变化模式	基于词形变换的序列标注模型、神经网络词干化器	多语言，尤其是形态丰富的语言
词形还原（Lemmatization）	结合词性信息，将词形还原为词典中的标准形（词元）	WordNet Lemmatizer、spaCy Lemmatizer	多语言，适用于需要更精确语义的场景

注意：词干化与词形还原并不完全相同。词干化通常只做机械的后缀裁剪，可能产生非真实词；而词形还原则依赖词典和词性，输出合法的词形。

Porter Stemmer（1980）
- 采用五轮规则，逐步删除或替换常见后缀（如 “ing”, “ed”, “ly”）。
- 设计简洁、执行快速，成为英语词干化的经典基准。
Snowball Stemmer（Porter 的改进版）
- 在 Porter 基础上加入更多语言的实现（如法语、德语、西班牙语）。
- 支持可配置的规则集合，兼顾准确性与效率。
Lancaster Stemmer
- 规则更激进，后缀裁剪力度更大，往往产生更短的词干。
- 适用于对召回率要求极高、容忍一定噪声的场景。

挑战	说明
过度裁剪	规则过于激进时会把不同词根误合并（如 “university” → “univers” 与 “universe” 同根），导致语义混淆。
语言差异	形态丰富的语言（如阿拉伯语、土耳其语）仅靠后缀裁剪难以覆盖所有变形，需要更复杂的词形还原或统计模型。
词性依赖	词干化不考虑词性，可能把动词和名词的相同后缀错误统一。
信息损失	词干化会去除词形信息，某些任务（如句法分析）需要保留原始词形。

词干化是 NLP 中用于统一词形、降低特征稀疏度的关键预处理手段。它通过规则或统计方法把词的不同形态归并为同一词干，从而提升信息检索、文本分类等任务的效果。尽管存在过度裁剪和语言适配等挑战，合理选择算法并结合词性信息，可在多数实际应用中发挥显著作用。