什么是BPE(Byte Pair Encoding)

BPEByte Pair Encoding‍,中文通常翻译为字节对编码,是一种基于统计的文本分词算法。它最早用于数据压缩(1970年代提出),在自然语言处理NLP)领域的应用兴起于2015年(由 Sennrich 等人在论文 Neural Machine Translation of Rare Words with Subword Units 中提出)。BPE 通过逐步合并出现频率最高的字符对(或子词对),将单词切分为更小的“子词单元”(subword units),有效解决了语言模型中的未知词(OOV)‍问题。

以下是 BPE 的详细介绍:

1. 核心原理与工作机制

BPE 的核心思想是统计学的贪心算法。它不需要任何语言学知识,只依赖于语料库中字符序列出现的频率。

基本步骤:

  1. 初始化:将语料库中的每个单词视为字符序列(通常在每个单词末尾加上特殊结束符 </w>,如 "hello" -> h e l l o </w>)。
  2. 统计频率:统计所有相邻字符对(如 ('e', 'l'))的出现频次。
  3. 合并操作:选择出现次数最多的字符对,将其合并为一个新的“子词”。例如,如果 ('l', 'l') 是最频繁的,就将 l l 合并为 ll
  4. 迭代:重复步骤 2 和 3,直到达到预设的合并次数(即词表大小)或不再有频繁对可合并为止。

通过这种方式,BPE 能够自动学习到高频的词根、词缀或常见的组合(如 ##ing##tion),从而在词表中保留常见单词,稀有单词则被拆分为已知的子词组合。

2. BPE 的优势

  1. 解决 OOV 问题:即使是从未见过的单词,只要其子词在词表中出现过,就能被拼接出来。例如,单词 "unhappiness" 可能被分解为 un + happi + ness
  2. 平衡词表大小与覆盖率:相比于传统的字典(Word-level)或字符(Character-level)模型,BPE 能够在较小的词表下实现较高的语言覆盖率,兼顾模型的记忆能力与泛化能力
  3. 语言无关性:由于基于字符统计,BPE 同样适用于英语、德语等空格分隔的语言,也可以通过微调(如加入空格或特殊字符)用于中文、日语等无空格语言的分词

3. BPE 的局限性

  1. 分词的任意性:BPE 完全基于统计频率,不考虑语义或语言学边界,可能会出现不符合语言直觉的切分(尤其是在中文中)。
  2. 合并的不可逆性:BPE 是一种“自底向上”的合并过程,无法直接恢复到原始的字符序列(除非保留完整的合并规则)。
  3. 词表难以控制:词表中会混杂字符、子词、完整单词,导致某些不常用的字符也占据了词表空间。

4. BPE 的变体与衍生

随着 NLP 的发展,BPE 被进一步优化,产生了以下变体:

  • SentencePiece:Google 开源的分词库,包含了 BPE(Unigram)和 WordPiece 两种模型,支持无空格分词,适用于多语言训练。
  • Unigram Language Model:也是由 Google 提出的模型,基于一种“自顶向下”的概率分词方式,被认为在中文等语言上比传统 BPE 更有效。
  • WordPiece:Google 在 BERT 中使用的分词算法,与 BPE 类似,但在合并策略上有细微差别。
  • Byte-Level BPE:GPT-2/3/4 使用的分词方式。它不是基于字符,而是基于字节(Byte),使模型能够直接处理任意语言的 Unicode 文本,完全避免了语言依赖性。

5. 总结

BPE 是现代 Transformer 模型(如 BERT、GPT 系列)的核心基础设施之一。它通过将文本拆分为子词的方式,既保留了语言的结构信息,又解决了词表稀疏性问题,是连接字符级别(细粒度)和单词级别(粗粒度)的桥梁。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!