nlp - 在计算unigram LM时如何处理<s>和</s>?

标签 nlp language-model

我是 NLP 初学者,我很困惑如何对待 <s></s>计算一元模型计数的符号?我应该计算它们还是忽略它们?

最佳答案

如果我理解正确的话<s></s>意味着特殊(假)一元组作为每个文本的第一个和最后一个一元组(实际上是前第一和后最后),那么它们不需要一元组,因为任何字符串都包含这些一元组,因此它们不提供额外的信息。

这种特殊的一元语法在高阶 n 元语法中非常有用:例如,它允许从像 hello 这样的单字字符串中提取。 2 个二元组:<s> hellohello </s>或 3 个卦象:<s0> <s1> hello , <s1> hello </s1> , hello </s1> </s0> .

关于nlp - 在计算unigram LM时如何处理<s>和</s>?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29804322/

相关文章:

iphone - 构建 openears 兼容的语言模型

python - 如何下载sklearn的数据集? - Python

python - 如何在 python 中编辑 .csv 以进行 NLP

python - 需要帮助创建适当的模型来预测两个句子之间的语义相似性

nlp - 英语动词列表及其时态、各种形式等

keras - 检查语言模型的复杂度

nlp - 仅来自 PhraseMatcher 的 Spacy 实体

voice-recognition - 如何在语音识别中使用arpa文件

c - C 中的文档分类工具 - 嵌套函数/范围中的编译错误(可能是)