什么是未登录词(Out‑of‑Vocabulary,OOV)

未登录词Out‑of‑Vocabulary,OOV)概述

1. 什么是未登录词

未登录词指在模型或系统使用的词表、词典、或训练语料中没有出现过的词汇。它们在测试、实际应用或用户输入时出现,却不在已有的词汇库里,因此模型无法直接获取对应的语义或统计信息。在自然语言处理NLP)中,未登录词也常被称为 OOV 词生词unknown word 或 集外词


2. 未登录词的产生原因

产生来源 说明
新词/网络流行语 互联网、社交媒体快速催生的新词,如“给力”“点赞”“真香怪”等
专有名词 人名、地名、机构名、产品名、电影名等,往往在词典中缺失
领域术语 行业专有词汇(如“三聚氰胺”“五险一金”)在通用词表中不常出现
低频或罕见词 训练语料中出现次数极少,导致被过滤掉
拼写错误/噪声 OCR语音识别等产生的错误字符也会被视为未登录词

3. 未登录词在不同任务中的影响

任务 影响
中文分词 未登录词会导致切分错误或遗漏,显著降低分词精度,尤其是网络新词和人名
语言模型 / 词向量 向量模型(Word2VecGloVe 等)只能为词表内的词学习向量,遇到 OOV 词会返回零向量或 <UNK>,影响下游任务表现
机器翻译 / 文本生成 OOV 词无法直接生成,导致译文缺失或生成 <UNK> 标记,影响可读性
语音识别 语言模型中出现 OOV 会导致概率为零,导致识别错误或需平滑处理
信息检索 / 搜索 未登录词不在倒排索引中,检索召回率下降

4. 常见的未登录词处理策略

  1. 使用特殊占位符
    • 将所有 OOV 词统一映射为 <UNK>(或 <OOV>)标记,模型只需学习该标记的表示。优点是实现简单,缺点是会丢失词义信息。
  2. 子词Subword)分词
    • 采用 BPE、WordPieceSentencePiece 等算法把词拆分为更小的子单元,使大多数 OOV 词能够由已见子词组合而成。现代大模型(如 GPT、BERT)普遍使用此方法来缓解 OOV 问题。
  3. 字符级或字形模型
    • 直接在字符或汉字层面建模,避免词表限制。适用于中文等表意文字,能够捕捉字形规律。
  4. 基于上下文的动态推断
    • 利用上下文信息在解码阶段生成或复制 OOV 词(如 Pointer‑Generator、CopyNet),或通过外部知识库检索对应实体。
  5. 词向量估计
    • 对 OOV 词使用其字符 n‑gram、形态特征或相似词的向量进行估计(如 FastText 的子词向量)。
  6. 词典扩展与增量学习
    • 定期更新词表或采用增量学习,使新出现的词能够及时加入系统。
  7. 平滑技术(语言模型)
    • 在 n‑gram 语言模型中使用 Discounting、Interpolation、Back‑off 等平滑方法,给 OOV 词分配非零概率。

5. 示例

示例句子 未登录词 处理方式
“今天的锦鲤真是太给力了!” 锦鲤、给力(网络流行语) 子词分词将其拆为已见子词;若仍未匹配,可映射为 <UNK> 或通过上下文推断其情感倾向
王小明深圳华为公司工作。” 人名、地名、公司名 基于词典的分词可能标记为 OOV;使用人名识别模型或字符级模型可识别并标注为专有名词
“模型在X‑ray图像上表现不佳。” X‑ray(英文缩写) 通过子词分词或字符模型直接处理;若词表缺失,可使用 <UNK> 并在后处理阶段补全

6. 小结

未登录词是自然语言处理系统面临的普遍挑战,尤其在中文分词、词向量学习、机器翻译、语音识别等任务中表现突出。其根源在于语言的动态演化、专有名词的不断涌现以及训练语料的覆盖不足。当前主流的缓解手段包括:

  • 子词/字符级建模(根本降低 OOV 产生概率)
  • 特殊占位符 + 动态复制(兼顾实现简易性与语义保留)
  • 词向量估计与增量词典(提升模型对新词的适应性)

通过组合上述方法,能够在实际系统中显著降低 OOV 带来的负面影响,提高模型的鲁棒性用户体验

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!