nlp - 在计算unigram LM时如何处理<s>和</s>？

我是 NLP 初学者，我很困惑如何对待 <s>和</s>计算一元模型计数的符号？我应该计算它们还是忽略它们？

最佳答案

如果我理解正确的话<s>和</s>意味着特殊(假)一元组作为每个文本的第一个和最后一个一元组(实际上是前第一和后最后)，那么它们不需要一元组，因为任何字符串都包含这些一元组，因此它们不提供额外的信息。

这种特殊的一元语法在高阶 n 元语法中非常有用:例如，它允许从像 hello 这样的单字字符串中提取。 2 个二元组:<s> hello和hello </s>或 3 个卦象:<s0> <s1> hello , <s1> hello </s1> , hello </s1> </s0> .

关于nlp - 在计算unigram LM时如何处理<s>和</s>？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29804322/

上一篇：RAdwords 错误 ("server certificate verification failed")

下一篇：ruby-on-rails - 以编程方式处理 ActiveJob 队列

相关文章：

iphone - 构建 openears 兼容的语言模型

python - 如何下载sklearn的数据集？ - Python

python - 如何在 python 中编辑 .csv 以进行 NLP

python - 需要帮助创建适当的模型来预测两个句子之间的语义相似性

nlp - 英语动词列表及其时态、各种形式等

keras - 检查语言模型的复杂度

nlp - 仅来自 PhraseMatcher 的 Spacy 实体

voice-recognition - 如何在语音识别中使用arpa文件

c - C 中的文档分类工具 - 嵌套函数/范围中的编译错误(可能是)