作者:硕雀

我还没有学会写个人说明!

什么是词表(Vocabulary)
词表(Vocabulary)‍是自然语言处理(NLP)和机器学习中一个核心概念,它指的是在处理文本数据时,模[…]
什么是分词(Tokenization)
分词(Tokenization)‍是自然语言处理(NLP)中的一个基础概念,指的是将一段连续的文字序列切分成一[…]
什么是ByT5(Byte-to-Byte T5)模型
ByT5(Byte-to-ByteT5)‍是谷歌(Google)在2021年推出的一种基于Trans[…]
什么是字符级分词(Character Tokenization)
什么是字符级分词(CharacterTokenization)?字符级分词(CharacterToken[…]
什么是词级分词(Word Tokenization)
词级分词(WordTokenization)是自然语言处理(NLP)中的一种基础预处理技术,指将文本序列切分[…]
什么是SentencePiece
SentencePiece是由Google开发的一款开源工具,主要用于神经网络文本处理中的分词(T[…]
什么是子词分词(Subword Tokenization)
什么是子词分词?子词分词(SubwordTokenization)‍是一种介于“词级分词”(WordTo[…]
什么是未登录词(OOV, Out-Of-Vocabulary)
未登录词(OOV,Out-Of-Vocabulary)‍是自然语言处理(NLP)中的核心概念,指的是在模型[…]
什么是BPE(Byte Pair Encoding)
BPE(BytePairEncoding)‍,中文通常翻译为字节对编码,是一种基于统计的文本分词算法。它最[…]
什么是分词算法
分词算法(WordSegmentationAlgorithm)是自然语言处理(NLP)中的基础技术,主要用[…]
1 22 23 24 25 26 430