我是 NLP 初学者,我很困惑如何对待 <s>
和</s>
计算一元模型计数的符号?我应该计算它们还是忽略它们?
最佳答案
如果我理解正确的话<s>
和</s>
意味着特殊(假)一元组作为每个文本的第一个和最后一个一元组(实际上是前第一和后最后),那么它们不需要一元组,因为任何字符串都包含这些一元组,因此它们不提供额外的信息。
这种特殊的一元语法在高阶 n 元语法中非常有用:例如,它允许从像 hello
这样的单字字符串中提取。 2 个二元组:<s> hello
和hello </s>
或 3 个卦象:<s0> <s1> hello
, <s1> hello </s1>
, hello </s1> </s0>
.
关于nlp - 在计算unigram LM时如何处理<s>和</s>?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29804322/