什么是去分词（Detokenization）

AI解读 2个月前硕雀

40 0 0

去分词（Detokenization）‍是自然语言处理（NLP）中的一个后处理步骤，指的是将分词（Tokenization）后得到的离散单词或子词（tokens）序列重新组合成连贯、符合自然语言书写规范的文本的过程。

简单来说，它是“拼接回去”的过程。在这个过程中，系统需要决定何时添加空格、标点符号或特定的语言字符，以及何时删除它们，以恢复原始句子的自然流畅度。

去分词不是简单的拼接，而是需要遵循语言的书写规则。以下是其核心的几类操作逻辑：

操作类型	具体表现	示例
拼接空格	在单词之间添加空格	Tokenized: `I love NLP` → Detokenized: `I love NLP`
去除多余空格	删除标点符号前的空格	Tokenized: `Hello world !` → Detokenized: `Hello world!`
合并子词	将被拆分的子词（如 BPE、WordPiece）合并	Tokenized: `un ##believ ##able` → Detokenized: `unbelievable`
语言特定处理	处理特殊的语言规则（如法语省略号、德语复合词）	Tokenized: `l' argent` → Detokenized: `l'argent`

注意：在机器翻译（Machine Translation）中，去分词通常是整个翻译管道的最后一步。

它们是相互对应的两个过程：

这两个过程如果处理不当，都会导致语义的改变或可读性的下降。

去分词并不是简单的“每个 token 之间加空格”，它涉及到大量的语言学规则。例如：

在多语言机器翻译中，去分词必须识别当前句子的语言，应用对应语言的规则。例如，英语句子和中文句子的去分词规则截然不同。

在实际应用中，去分词通常通过以下方式实现：

相关资料：在机器翻译技术文档中，去分词（Detokenization）被明确描述为标记化的逆过程，用于删除标记之间的空格。

去分词（Detokenization）是将已经被切割成单词或子词的文本重新拼接成一段自然、连贯、符合语法的文字的过程。它是自然语言处理任务（尤其是机器翻译）中不可或缺的最后一步，确保输出结果不仅准确，而且易于阅读。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！